侵权投诉
订阅
纠错
加入自媒体

语音识别的前世今生:深度学习彻底改变对话式人工智能

2017-08-23 15:19
来源: 科技行者

“语音识别”的终极梦想,是真正能够理解人类语言甚至是方言环境的系统。但几十年来,人们并没有一个有效的策略来创建这样一个系统,直到人工智能技术的爆发。

在过去几年中,人们在人工智能和深度学习领域的突破,让语音识别的探索跨了一大步。市面上玲琅满目的产品也反映了这种飞跃式发展,例如亚马逊Echo、苹果Siri 等等。本文将回顾语音识别技术领域的最新进展,研究促进其迅猛发展进程的元素,并探讨其未来以及我们距离可以完全解决这个问题还有多远。

背景:人机交互

多年来,理解人类一直都是人工智能的最重要任务之一。人们不仅希望机器能够理解他们在说些什么,还希望它们能够理解他们所要表达的意思,并基于这些信息采取特定的行动。而这一目标正是对话式人工智能(AI)的精髓。

对话式AI包含有两个主要类别:人机界面,以及人与人沟通的界面。在人机界面中,人类与机器往往通过语音或文本交互,届时机器会理解人类 (尽管这种理解方式是有限的) 并采取相应的一些措施。图1表明,这台机器可以是一个私人助理 ( Siri、Alexa之类的产品 ) 或某种聊天机器人。

语音识别的前世今生:深度学习彻底改变对话式人工智能

图1:人机交互AI

在人与人之间的互动中,人工智能会在两个或两个以上进行会话、互动或提出见解的人类用户之间构建一座桥梁 ( 参见图2 ) 。例如,一个AI在听取电话会议后,能够创立出一段简要的电话记录摘要,并跟进相关人员。

语音识别的前世今生:深度学习彻底改变对话式人工智能

图2:人与人之间互动的人工智能

对话式AI背后:机器感知与机器识别

为了理解对话式AI背后的挑战与技术,我们必须研究人工智能的基本概念:机器感知与机器识别。

机器感知是指机器能够采用类似于人类自己凭感觉感知周围世界来分析数据的能力;换句话说,其本质上就是为机器赋予人类的感知能力。近来很多的人工智能算法都需要使用电脑摄像头,如目标检测和识别,都归属于机器感知范畴——主要涉及视觉处理。语音识别和分析则是那些利用听觉的机器感知技术。

机器识别是在机器感知所生成的元数据之上的推理运算。机器识别包括决策制定、专家系统、行动执行以及用户的意图等方面。一般情况下,如果没有机器识别,对AI的感知系统不会产生任何影响,而机器感知会提供适当的元数据信息来令其做出决策与执行行动。

在对话式AI中,机器感知包括所有的语音分析技术,如识别和性能分析;机器识别则包括所有与语言理解能力相关的技术,而这也是自然语言处理 ( NLP ) 的一部分。

语音识别的发展

语音识别的研究和发展情况基本分为三个主要时期:

2011年之前

人们对语音识别的活跃研究已经进行了几十年,而事实上,即使是在二十世纪50年代和60年代,人们也一直在试图构建语音识别系统。然而,在2011年以及深度学习、大数据和云计算出现以前,这些解决方案还远远不足以被大规模采用以及商业使用。从本质上来说,其算法还不够好,当时也没有足够的数据可以用于算法的训练,而且无法进行高性能计算机也阻碍了研究人员运行更复杂的实验。

2011年-2014年

深度学习产生的第一个重大影响发生在2011年,当时有一个研究小组一同创造了第一个基于深度学习的语音识别系统,而这个研究小组成员包括来自微软的研究人员、李登(Li Deng)、董玉(Dong Yu)和亚历克斯·阿赛罗(Alex Acero),以及杰弗里·希尔顿(Geoffrey Hinton)和他的学生乔治·达尔(George Dahl)。效果很即时:其相对错误率降低了25%以上。而这个系统也是深度学习领域进行大规模发展和改进的切入点。

此后,在有了更多数据、云计算可用后,苹果(Siri)、亚马逊 (Alexa) 和谷歌这类的大公司均采用了深度学习技术,而且对其产品性能有着显著的改善,并将其产品发布到了市场上。

2015至今

在2014年底,递归神经网络获得了更多的关注。与此同时,递归神经网络与注意力模型、记忆网络以及其他技术一起,掀起了这个领域发展的第三次浪潮。如今,几乎每一种算法或者解决方案都采用了某种类型的神经模型,而且实际上,几乎所有的关于语音的研究都已转向深度学习。

1  2  下一页>  
声明: 本文系OFweek根据授权转载自其它媒体或授权刊载,目的在于信息传递,并不代表本站赞同其观点和对其真实性负责,如有新闻稿件和图片作品的内容、版权以及其它问题的,请联系我们。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号