学术科研
以色列对确诊患者的声音进行采样分析,以识别感染者的声音
时间:2020-03-30 09:50  浏览:241
  新冠病毒影响呼吸系统,患者的声音和呼吸模式也会出现迹象,出现独特的“声纹”。以色列公司Vocalis Health将与医院合作牵头研究通过移动应用程序对确诊患者的声音采样。基于AI算法对语音样本进行分析,有助于识别感染者的声音。

       声纹识别,生物识别技术的一种,也称为说话人识别,包括说话人辨认和说话人确认。声纹识别就是把声信号转换成电信号,再用计算机进行识别。不同的任务和应用会使用不同的声纹识别技术。

20200328-459821950  
       声纹识别

       所谓声纹是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装,也与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。声纹识别的主要任务包括:语音信号处理、声纹特征提取、声纹建模、声纹比对、判别决策等。

       声纹识别可以说有两个关键问题,一是特征提取,二是模式匹配(模式识别)。

       如何进行声纹识别特征提取

       是提取并选择对说话人的声纹具声纹识别有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同,声纹识别的特征必须是“个性化”特征,而说话人识别的特征对说话人来讲必须是“共性特征”。虽然大部分声纹识别系统用的都是声学层面的特征,但是表征一个人特点的特征应该是多层面的,包括:

       (1)与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等等)、鼻音、带深呼吸音、沙哑音、笑声等;

       (2)受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等;

       (3)个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。

       从利用数学方法可以建模的角度出发,声纹自动识别模型可以使用的特征包括:

       (1)声学特征(倒频谱);

       (2)词法特征(说话人相关的词n-gram,音素n-gram);

       (3)韵律特征(利用n-gram描述的基音和能量“姿势”);

       (4)语种、方言和口音信息;

       (5)通道信息(使用何种通道);等等。

       声纹模式识有以下几大类方法:

       (1)模板匹配方法:利用动态时间弯折(DTW)以对准训练和测试特征序列,主要用于固定词组的应用(通常为文本相关任务);

       (2)最近邻方法:训练时保留所有特征矢量,识别时对每个矢量都找到训练矢量中最近的K个,据此进行识别,通常模型存储和相似计算的量都很大;

       (3)神经网络方法:有很多种形式,如多层感知、径向基函数(RBF)等,可以显式训练以区分说话人和其背景说话人,其训练量很大,且模型的可推广性不好;

       (4)隐式马尔可夫模型(HMM)方法:通常使用单状态的HMM,或高斯混合模型(GMM),是比较流行的方法,效果比较好;

       (5)VQ聚类方法(如LBG):效果比较好,算法复杂度也不高,和HMM方法配合起来更可以收到更好的效果;

       (6)多项式分类器方法:有较高的精度,但模型存储和计算量都比较大;

       声纹识别需要解决的关键问题还有很多,诸如:短话音问题,能否用很短的语音进行模型训练,而且用很短的时间进行识别,这主要是声音不易获取的应用所需求的;声音模仿(或放录音)问题,要有效地区分开模仿声音(录音)和真正的声音;多说话人情况下目标说话人的有效检出;消除或减弱声音变化(不同语言、内容、方式、身体状况、时间、年龄等)带来的影响;消除信道差异和背景噪音带来的影响;……此时需要用到其他一些技术来辅助完成,如去噪、自适应等技术。
 
发表评论
0评