“Hey Siri ,明早 7 点叫我起床。”
“小度小度,帮我查一下原子弹该怎样造。”
今世日子,你跟机器说的话或许比跟你爸妈说的话都要多。这些触手可及的语音帮手、智能音箱不只能听懂你的意思,做出答复,还能改换各种音色,甚至仿照你的声响。
这在今日现已不算稀罕,但实际上,想让机器说人话,可比你爸妈当年教你说话难得多,而要想让机器仿照不同人的声响说话更是难上加难。
国际上第一台能组成人声的电子设备,是这款首秀于 1939 年纽约国际博览会的 Voder 。
它选用的是参数组成法,精确的说是共振峰组成。什么是共振峰?
人说话发生的声响包括许多不同的频率,其间频率最低的称为基音,决议了音高,此外便是泛音,决议了音色。而共振峰便是频谱上能量相对会集的这些泛音。
比方当发音人为男性时,汉语里 i 这个元音的基频,即基音的频率约为 210Hz,而在泛音中,频率最低的共振峰 F1 约为 290Hz,第二低的共振峰 F2 约为 2360Hz,第三低的共振峰 F3 约为 3570Hz 。
一般来说,只需反过来让机器宣布这四个频率的声响,就能简略地复原出带有男性音色的 i 这个元音。
Voder 便是依据这个原理,下面是它的作业流程图。
首要,运用脉冲发生器能够仿照出声带振荡发生的浊音,用噪声发生器能够仿照出声带中由气味构成的清音,两者将与手腕处开关生成的基音叠加,进入一个声道滤波器。
这个滤波器由两组按键操控,每个按键对应着不同频率的声响,当操作员一起按下不同的按键,就会参加不同频率的泛音,终究组组成语音。
在尔后的半个世纪里,这一直是让机器说话的干流办法,并且通过晋级电路和引进更杂乱的参数摆脱了人工操作,但组成出来的声响仍然带有十分强的“电音”。
究竟,人类的语音包括的声响频率信息十分杂乱且丰厚,用机器简略组合出来的语音在腔调上多少会有距离,更甭说还有发音的长度、韵律、节奏等影响要素,假如也要人为地用参数来量化,将是个无比巨大的工程。
所以,波形拼接法呈现了。
已然用参数很难组成出传神的人声,那么爽性录下真人的语音,再通过拼接组成咱们想要的句子。
比方你手机上的地图运用,在语音导航时假如需求播报 “前方路口右转,进入向阳门外大街” 这类指示,最简略的办法便是从语料库中选取每个字的发音拼接组组成一句话,不过这样并不天然。
更高档的办法是从语料库中选取短语拼接,但这样在拼接处仍然会有韵律的开裂感。
要想更天然,就得从语料库中选取韵律附近的短语拼接,而这就要求语料库有必要满足巨大。
像地图运用推出的明星语音包,运用波形拼接法或许需求提早录制一万句话左右,且还须在专业的录音棚以确保语音质量,再经后期处理制造,前后需求两三个月的时刻。
正因为此,定制语音包一直以来都只是明星的特权,直到 9 月 19 日,百度地图上线了一项语音定制功用,任何人只需读 20 句 15 个字左右的短句,传输到云端的服务器,通过约 15 分钟的练习,就能够下载一个具有你说话特征的导航语音包。
百度地图是怎么只用这么少的语音样本、这么短的时刻就能让机器仿照你的声响的?
答案是深度学习神经网络。
比方 2017 年百度发布的 Deep Voice 。这个体系以音素为根底的剖析单位,音素指的是依据语音的天然特点区分出来的最小语音单位,比方汉语音节 ā 只要一个音素,dā 就有两个音素。
体系中的五个模块会从很多的语音和文字数据中,学习怎么区分提取音素、以及音素的基频、继续时长等参数,然后再运用声学模型组成语音。
这种办法本质上也是参数组成,但优势在于,深度学习神经网络能从很多数据中快速学习、找出规则,也便是说,通过这种办法设置的参数比较传统的参数组成法要更精确。
不过,这个模型一次只能学习一个人的语音,且对发音人的录音质量和数量仍然有十分高的要求,要想在手机这样算力有限的小型设备上,完成只用 20 句的语音样本花 15 分钟组成定制语音,简直不或许。
在 Deep Voice 发布的同年,百度连续又推出了 Deep Voice 2 ,这个模型现已能够学习数百种不同的语音,而后续的 Deep Voice 3 现已能做到在半小时内学习 2500 种语音,并从中提取出不同声响特征的共性和特性。
不只如此,前两个版别的 Deep Voice 在练习时是依据深度学习神经网络,但在组成语音时仍是选用跟传统的参数组成相似的办法,而 Deep Voice 3 不论是练习仍是组成都依据深度学习神经网络,这让组成出来的语音要天然得多。
正是依靠这些语音组成技能的更新换代,百度扫除了阻止语音定制功用大规模商用的三大难点:怎么只用少数的数据组成语音?怎么快速地组成语音?怎么在手机这样的小型核算渠道上运用语音组成?
百度在地图语音定制功用上运用的 Meitron 模型初次让语音组成技能真实走出了录音棚、实验室。
Meitron 模型能够有用学习和别离声响样本中包括的腔调、韵律、节奏等各种维度的信息,在实际运用过程中,20 句的录制语音通过特定选择,尽或许覆盖了最大的语音要素。
并且,尽管你录制的都是 “夏天要走了,秋天要来了” 这类中文句子,但终究却能够组成出 “GPS” 这样的英文短语,这是传统的参数组成或波形拼接难以做到的。
更重要的是,Meitron 模型是一个满足轻量级的练习渠道,然后完成敏捷布置和服务器上快速的模型练习。当你录完这 20 个短句,只需传输到百度地图的服务器,组成完后就能够把具有你说话特征的导航语音包下载到手机上,过程中无需繁琐的人工调校,方便快捷。
在这项功用的加持下,语音定制从此不再是明星的特权,不只如此,这些定制化的导航语音包还能够在亲朋好友间同享运用。
当你在异乡日子,开车时听着你爸或你妈的声响导航,不只多了情感上的陪同与支撑,更能让你平心静气地驾驭,再也不好意思超速、加塞、乱按喇叭了。
现在,你就能够翻开百度地图,唤醒 “小度小度” 后说 “我要录制语音包” ,即可体会这项语音定制功用,亲自为自己和他人导航指路。
-