近期,中科院自动化所智能交互团队提出的韵律与音色个性化解耦建模方法在2021年获依托语音领域国际顶级会议ICASSP举办的“多说话人多风格音色克隆大赛(M2VoC)”的极少样本闭集赛道(给定5个语音样本约1分钟)赛道冠军。相关技术研究能够为个性化语音生成提供理论支持,可以大幅降低语音模拟的经济与时间成本,对多媒体信息智能生成的发展具有重要意义。
所谓个性化语音合成,就是通过身边的一些录音设备,录取某个人的某些语音片段后,让TTS(Text To Speech)语音技术,合成出像某个特定人的说话语音,说话方式,和说话情感。个性化语音合成技术,未来可以大量应用于电脑、手机、电子书、MP3、车载导航、车载电话、智能家居、智能交通、虚拟机器人、车联网、物联网、等丰富多彩的智能化电子终端领域,应用场景十分丰富,具有重要的娱乐实用价值。
语音中的信息主要来自于两个方面: 声源信息和声道信息。声源信息来自于声带的震动,主要体现在音高的高低变化,也就是人们平常所说的“抑扬顿挫”,通常用基频值来衡量。另一方面,声道信息来自于人体声道的形状,声道承载的信息包括说话的内容以及说话人的特征,在声学上表现为不同的频谱分布。研究人员为了使合成系统可以模拟各种说话人的特色,最初将重点放在声道信息的模拟转换上,基于此用户需求就产生了许多针对语音转换(Voice Conversion)技术的研究。
语音转换技术是对语音合成技术的丰富和延拓,通过改变频谱特征使一个说话人说出的声音听起来像是由另外一个人发出一样。看过“名侦探柯南”的读者都知道柯南经常用模仿别人声音的变声器,这正是语音转换技术的一个重要应用。近年来,随着技术的进步和研究人员认识的深入,声源信息的模拟也引起了很多研究人员的重视。要想模仿一个人的声音,除了模仿他的音色特征之外,还要模拟他说话的方式,模仿他抑扬顿挫的风格,这项研究通常被称为韵律转换(Prosody Conversion)。通过一系列技术措施,使得只要通过录制目标说话人少量的句子,就可以使计算机学习到该说话人的频谱特征和韵律特征,进而可以使机器所发出的声音具有该说话人的特色。
除此之外,语音变换也是另外一个重要的研究领域。语音变换的任务并不是将源说话人声音变为另外一个特定人的声音,而只是对其进行某种变换使之产生某种特 效,比如说通过对基频的变换使原先的男声听起来像女声或者使原先的女声听起来像男声,或者通过对频谱进行变换使原先的人声变得像机器人的声音。语音变换在数字娱乐领域有着很广泛的应用。而另一个领域——个性化自适应的研究又有所不同,语音转换中的输入是源说话人,系统通过某种变换使之听起来像是目标说话人的声音,而个性化自适应系统的输入是文本,系统通过某种变换使合成系统发出的声音像是目标说话人的声音。可见,个性化自适应可以看作是语音转换技术同语音合成技术的一个联合扩展,其应用更为广泛。
有关个性化语音生成技术的研究已经是整个语音语言研究中非常重要的组成部分,国内外均有一些这方面的前期研究成果,但限于计算复杂度、存储量及计算实时性等多方面原因,早期工作大部分还停留在实验室阶段。近几年来,随着许多研究机构对此项研究的重视,研究越来越深入,在一些实际应用场合已经开始逐步获得了应用。
语音转换主要是声道信息的转换,也即是频谱信息的转换。其目标是确定一个模式转换规则,使转换后的语音保持源说话人原有语音信息内容不变,而具有目标说话人的声音特点。为了找到这个转换规则,我们需要首先录制源说话人和目标说话人的一组平行语料库。所谓平行语料是指两个说话人所录的内容完全相同,比如说分别录制源说话人和目标说话人说“今天天气很好”这句话。这样的录制方式便于找到两个说话人频谱特征的对应关系。整个过程可以分为训练和转换两个步骤来进行,图1展示了语音转换过程的功能和框架图。在训练阶段,系统对源说话人和目标说话人的语音样本进行训练,得到映射规则,获取源语音和目标语音频谱参数之间的关系。在转换阶段,利用上一步得到的映射规则对源语音的频谱特征进行变换,使变换后的语音具有目标说话人的特征。可见,语音转换技术中最关键的部分就是映射规则的确定。
语音合成技术(简称TTS)是一种将任意文本转换成语音输出的技术,在通信、游戏娱乐等领域中有着广阔的应用前景。近十年来,随着各种信号处理技术、模式识别技术的飞速发展,语音合成技术也取得了相当大的进步,其合成的语音清晰、自然,用户很容易即可听懂。目前的合成语音虽然少了许多“机器味”,但是依然比较单调无趣,一个合成系统通常只能以一种特定的风格进行朗读,这就导致合成语音在日常生活中难以广泛应用。目前TTS系统最大的不足就是它仅仅能够产生几个特定人的发音,而用户则期望它具有模拟发出自己或者某些特定人声音的能力。
为了达到个性化自适应的目的,通常大的源语料库不止一个。个性化自适应方法的基本思想是: 在N个大型源语料库中找到一个与目标语料库风格最相似的语料库,由这两组语料库中的平行部分建立对应关系,然后应用前面所介绍的频谱转换和韵律转换的方法,建立源语料库与目标语料库的映射关系。而后,合成系统即可以合成具有目标说话人特色的声音。
个性化语音生成研究的总体框架主要包括三组内容: 传统意义上的韵律转换和频谱转换、语音变换、个性化自适应研究。传统意义上的韵律转换和频谱转换的目的是对源说话人声音施加某种变换,保持源说话人的内容不变,并且使得转变后的声音具有目标说话人的特征。其中频谱转换保证转换后的声音具有目标说话人的音色特征,而韵律转换保证转换后的声音具有目标说话人的韵律特征。语音变换则是对源声音施加一种代表某种趋向的变换,使得转换后的声音具有某种特殊效果,如性别的改变、人声到机器声的改变等。个性化自适应研究是语音转换技术同语音合成技术的一个结合点。同时,在个性化自适应研究中,通过合成系统能够得到发音、韵律结构等文本信息,而在转换中,往往只能得到有限的韵律特征和声学特征信息。由此可以看出,个性化自适应系统比传统意义的韵律转换和频谱转换系统可以利用更广泛的信息,所达到的转换效果也必然更加真实,具有更广泛的应用价值。
新闻来源:中国科学院自动化研究所