侵权投诉
订阅
纠错
加入自媒体

对话黄伟:解读中国智能语音技术未来

2015-04-06 00:33
龙凰
关注

  Q:语音交互技术有哪些评判的维度?

  A:语音识别是一个单点技术,包含很多的知识环节,人与设备的交互、人工智能和语音学等,它是非常复杂的系统工程。差距在哪儿?很简单,看效果。语音识别系统能否做到稳定、高效、准确?能不能接受大量用户的并发测试,这个其实是需要综合能力。比如说在中文连续语音识别方面,我们目前准确率达到了97%,这个97%不是实验室测试,而是各个省份的用户共同的语量得到一个测试结果。

  Q:语音识别包含语义理解,是不是需要在前期积累很多语义的分析数据才能够提高理解度的准确?

  A:没错,整个系统包含语音识别、语义理解、后端服务等。

  语音识别并不是识别出你说了哪个字,它分为两大模块:声学模块和预演模块。声学模块我们识别的不是字,而是一些很基础的发音单元,比如说声母、韵母,继而通过识别引擎得到一个声韵母的序列串。

  人说话有一些语言逻辑,怎么把声学序列串翻译成有意义的句子?我们还有语言模型,大量统计了人类说话的语言逻辑在里面。声学序列串准确率有限,发音很短,非常有可能出错,我们通过后面的语言模型纠正可以把识别率达到非常高的水平。这个只是完成了从声音到文字的转变,通过对语义的理解,再调用后台的服务,就完成了整个人跟设备从声音输出到自然语义理解到服务后台一连串的过程。

  Q:是不是语音技术只能基于硬件载体的质量、工艺或者软件处理能力才能有比较优质的体现?

  A:其实并不是说语音技术只能跟着硬件走。我们跟硬件整合之前,百度云助手、搜狗云助手这种体验不太好,每次好几步才能打开语音应用,我们之所以用语音是希望便捷、自然,但那种方式违背了这种原则,我们把它跟硬件、芯片整合,目的是希望给用户提供更好的用户体验。

  如果我们跟芯片结合好,从最底层给设备天然的语音交互能力,用户可以很方便的使用。为什么跟设备结合?语音识别并不是用来解决人跟人之间的交互问题,就是为了解决人跟设备之间的交互问题,设备本身在哪儿,并不是说我们为了用语音识别专门买一个设备。

  车载语音是个伪命题?

  Q:有一种说法认为语音在车上是一个鸡肋,行驶中的噪音导致车内语音很难被识别,这一操作反而添加了车主的负担。语音识别在车上的应用究竟是不是伪命题?

  A:首先从需求来看,语音识别在美国应用非常普遍,但中国人有一个习惯不太喜欢说,我们可以想象微信刚推出的时候,很多人认为微信不会成功,为什么?因为一般人讲话不想被别人听到,但是今天微信的活跃度、使用频率比QQ还好,其实中国人的使用习惯已经在改变,中国的私家车也越来越多。

<上一页  1  2  3  4  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号