声纹识别，并没有想象中那么简单！

2020-12-24 17:55

随着语音识别的兴起，声纹识别也逐渐成为当前科技发展的趋势。而声纹识别作为生物识别技术的一种，也称为说话人识别，包括说话人辨认和说话人确认。

声纹识别就是把声信号转换成电信号，再用计算机进行识别。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。

声纹识别可以说有两个关键问题，一是特征提取，二是模式匹配（模式识别）。

特征提取

特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同，声纹识别的特征必须是“个性化”特征，而说话人识别的特征对说话人来讲必须是“共性特征”。虽然大部分声纹识别系统用的都是声学层面的特征，但是表征一个人特点的特征应该是多层面的，包括以下几点：

1、与人类的发音机制的解剖学结构有关的声学特征（如频谱、倒频谱、共振峰、基音、反射系数等等）、鼻音、带深呼吸音、沙哑音、笑声等；

2、受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等；

3、个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。从利用数学方法可以建模的角度出发，声纹自动识别模型可以使用的特征包括：①声学特征（倒频谱）；②词法特征（说话人相关的词n－gram，音素n－gram）；③韵律特征（利用n－gram描述的基音和能量“姿势”）；④语种、方言和口音信息；（5）通道信息（使用何种通道）；等等。

根据不同的任务需求，声纹识别还面临一个特征选择或特征选用的问题。例如，对“信道”信息，在刑侦应用上，希望不用，也就是说希望弱化信道对说话人识别的影响，因为我们希望不管说话人用什么信道系统它都可以辨认出来；而在银行交易上，希望用信道信息，即希望信道对说话人识别有较大影响，从而可以剔除录音、模仿等带来的影响。

总之，较好的特征，应该能够有效地区分不同的说话人，但又能在同一说话人语音发生变化时保持相对的稳定；不易被他人模仿或能够较好地解决被他人模仿问题；具有较好的抗噪性能；……。当然，这些问题也可以通过模型方法去解决。

模式识别

对于模式识别，有以下几大类方法：

（1）模板匹配方法：利用动态时间弯折（DTW）以对准训练和测试特征序列，主要用于固定词组的应用（通常为文本相关任务）；

（2）最近邻方法：训练时保留所有特征矢量，识别时对每个矢量都找到训练矢量中最近的K个，据此进行识别，通常模型存储和相似计算的量都很大；

（3）神经网络方法：有很多种形式，如多层感知、径向基函数（RBF）等，可以显式训练以区分说话人和其背景说话人，其训练量很大，且模型的可推广性不好；

（4）隐式马尔可夫模型（HMM）方法：通常使用单状态的HMM，或高斯混合模型（GMM），是比较流行的方法，效果比较好；

（5）VQ聚类方法（如LBG）：效果比较好，算法复杂度也不高，和HMM方法配合起来更可以收到更好的效果；

（6）多项式分类器方法：有较高的精度，但模型存储和计算量都比较大；

（7）……

声纹识别需要解决的关键问题还有很多，诸如：短话音问题，能否用很短的语音进行模型训练，而且用很短的时间进行识别，这主要是声音不易获取的应用所需求的；声音模仿（或放录音）问题，要有效地区分开模仿声音（录音）和真正的声音；多说话人情况下目标说话人的有效检出；消除或减弱声音变化（不同语言、内容、方式、身体状况、时间、年龄等）带来的影响；消除信道差异和背景噪音带来的影响；此时需要用到其他一些技术来辅助完成，如去噪、自适应等技术。

应用

声纹识别可以应用的范围很宽，可以说声纹识别几乎可以应用到人们日常生活的各个角落。比如下面举几个例子。

（1）信息领域。比如在自动总机系统中，把身份证之声纹辨认和关键词检出器结合起来，可以在姓名自动拨号的同时向受话方提供主叫方的身份信息。前者用于身份认证，后者用于内容认证。同样，声纹识别技术可以在呼叫中心（Call Center）应用中为注册的常客户提供友好的个性化服务。

（2）银行、证券。鉴于密码的安全性不高，可以用声纹识别技术对电话银行、远程炒股等业务中的用户身份进行确认，为了提供安全性，还可以采取一些其他措施，如密码和声纹双保险，如随机提示文本用文本相关的声纹识别技术进行身份确认（随机提示文本保证无法用事先录好的音去假冒），甚至可以把交易时的声音录下来以备查询。

（3）公安司法。对于各种电话勒索、绑架、电话人身攻击等案件，声纹辨认技术可以在一段录音中查找出嫌疑人或缩小侦察范围；声纹确认技术还可以在法庭上提供身份确认（同一性鉴定）的旁证。在监狱亲情电话应用中，通过采集犯人家属的声纹信息，可有效鉴别家属身份的合法性。在司法社区矫正应用中，通过识别定位手机位置和呼叫对象说话声音的个人特征，系统就可以快速的自动判断被监控人是否在规定的时间出现在规定的场所，有效地解决人机分离问题。

（4）军队和国防。声纹辨认技术可以察觉电话交谈过程中是否有关键说话人出现，继而对交谈的内容进行跟踪（战场环境监听）；在通过电话发出军事指令时，可以对发出命令的人的身份进行确认（敌我指战员鉴别）。该技术在国外军事方面已经有所应用，据报道，迫降在我国海南机场的美军EP－3侦察机中就载有类似的声纹识别侦听模块。

（5）保安和证件防伪。如机密场所的门禁系统。又如声纹识别确认可用于信用卡、银行自动取款机、门、车的钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡，把声纹存在卡上，在需要时，持卡者只要将卡插入专用机的插口上，通过一个传声器读出事先已储存的暗码，同时仪器接收持卡者发出的声音，然后进行分析比较，从而完成身份确认。同样可以把含有某人声纹特征的芯片嵌入到证件之中，通过上面所述的过程完成证件防伪。