如何让机器模仿你的声音

2019-10-10 22:42:11 阅读：3189 作者：责任编辑NO。魏云龙0298

“Hey Siri ，明早 7 点叫我起床。”

“小度小度，帮我查一下原子弹该怎样造。”

今世日子，你跟机器说的话或许比跟你爸妈说的话都要多。这些触手可及的语音帮手、智能音箱不只能听懂你的意思，做出答复，还能改换各种音色，甚至仿照你的声响。

这在今日现已不算稀罕，但实际上，想让机器说人话，可比你爸妈当年教你说话难得多，而要想让机器仿照不同人的声响说话更是难上加难。

国际上第一台能组成人声的电子设备，是这款首秀于 1939 年纽约国际博览会的 Voder 。

它选用的是参数组成法，精确的说是共振峰组成。什么是共振峰？

人说话发生的声响包括许多不同的频率，其间频率最低的称为基音，决议了音高，此外便是泛音，决议了音色。而共振峰便是频谱上能量相对会集的这些泛音。

比方当发音人为男性时，汉语里 i 这个元音的基频，即基音的频率约为 210Hz，而在泛音中，频率最低的共振峰 F1 约为 290Hz，第二低的共振峰 F2 约为 2360Hz，第三低的共振峰 F3 约为 3570Hz 。

一般来说，只需反过来让机器宣布这四个频率的声响，就能简略地复原出带有男性音色的 i 这个元音。

Voder 便是依据这个原理，下面是它的作业流程图。

首要，运用脉冲发生器能够仿照出声带振荡发生的浊音，用噪声发生器能够仿照出声带中由气味构成的清音，两者将与手腕处开关生成的基音叠加，进入一个声道滤波器。

这个滤波器由两组按键操控，每个按键对应着不同频率的声响，当操作员一起按下不同的按键，就会参加不同频率的泛音，终究组组成语音。

在尔后的半个世纪里，这一直是让机器说话的干流办法，并且通过晋级电路和引进更杂乱的参数摆脱了人工操作，但组成出来的声响仍然带有十分强的“电音”。

究竟，人类的语音包括的声响频率信息十分杂乱且丰厚，用机器简略组合出来的语音在腔调上多少会有距离，更甭说还有发音的长度、韵律、节奏等影响要素，假如也要人为地用参数来量化，将是个无比巨大的工程。

所以，波形拼接法呈现了。

已然用参数很难组成出传神的人声，那么爽性录下真人的语音，再通过拼接组成咱们想要的句子。

比方你手机上的地图运用，在语音导航时假如需求播报 “前方路口右转，进入向阳门外大街” 这类指示，最简略的办法便是从语料库中选取每个字的发音拼接组组成一句话，不过这样并不天然。

更高档的办法是从语料库中选取短语拼接，但这样在拼接处仍然会有韵律的开裂感。

要想更天然，就得从语料库中选取韵律附近的短语拼接，而这就要求语料库有必要满足巨大。

像地图运用推出的明星语音包，运用波形拼接法或许需求提早录制一万句话左右，且还须在专业的录音棚以确保语音质量，再经后期处理制造，前后需求两三个月的时刻。

正因为此，定制语音包一直以来都只是明星的特权，直到 9 月 19 日，百度地图上线了一项语音定制功用，任何人只需读 20 句 15 个字左右的短句，传输到云端的服务器，通过约 15 分钟的练习，就能够下载一个具有你说话特征的导航语音包。

百度地图是怎么只用这么少的语音样本、这么短的时刻就能让机器仿照你的声响的？

答案是深度学习神经网络。

比方 2017 年百度发布的 Deep Voice 。这个体系以音素为根底的剖析单位，音素指的是依据语音的天然特点区分出来的最小语音单位，比方汉语音节 ā 只要一个音素，dā 就有两个音素。

体系中的五个模块会从很多的语音和文字数据中，学习怎么区分提取音素、以及音素的基频、继续时长等参数，然后再运用声学模型组成语音。

这种办法本质上也是参数组成，但优势在于，深度学习神经网络能从很多数据中快速学习、找出规则，也便是说，通过这种办法设置的参数比较传统的参数组成法要更精确。

不过，这个模型一次只能学习一个人的语音，且对发音人的录音质量和数量仍然有十分高的要求，要想在手机这样算力有限的小型设备上，完成只用 20 句的语音样本花 15 分钟组成定制语音，简直不或许。

在 Deep Voice 发布的同年，百度连续又推出了 Deep Voice 2 ，这个模型现已能够学习数百种不同的语音，而后续的 Deep Voice 3 现已能做到在半小时内学习 2500 种语音，并从中提取出不同声响特征的共性和特性。

不只如此，前两个版别的 Deep Voice 在练习时是依据深度学习神经网络，但在组成语音时仍是选用跟传统的参数组成相似的办法，而 Deep Voice 3 不论是练习仍是组成都依据深度学习神经网络，这让组成出来的语音要天然得多。

正是依靠这些语音组成技能的更新换代，百度扫除了阻止语音定制功用大规模商用的三大难点：怎么只用少数的数据组成语音？怎么快速地组成语音？怎么在手机这样的小型核算渠道上运用语音组成？

百度在地图语音定制功用上运用的 Meitron 模型初次让语音组成技能真实走出了录音棚、实验室。

Meitron 模型能够有用学习和别离声响样本中包括的腔调、韵律、节奏等各种维度的信息，在实际运用过程中，20 句的录制语音通过特定选择，尽或许覆盖了最大的语音要素。

并且，尽管你录制的都是 “夏天要走了，秋天要来了” 这类中文句子，但终究却能够组成出 “GPS” 这样的英文短语，这是传统的参数组成或波形拼接难以做到的。

更重要的是，Meitron 模型是一个满足轻量级的练习渠道，然后完成敏捷布置和服务器上快速的模型练习。当你录完这 20 个短句，只需传输到百度地图的服务器，组成完后就能够把具有你说话特征的导航语音包下载到手机上，过程中无需繁琐的人工调校，方便快捷。

在这项功用的加持下，语音定制从此不再是明星的特权，不只如此，这些定制化的导航语音包还能够在亲朋好友间同享运用。

当你在异乡日子，开车时听着你爸或你妈的声响导航，不只多了情感上的陪同与支撑，更能让你平心静气地驾驭，再也不好意思超速、加塞、乱按喇叭了。

现在，你就能够翻开百度地图，唤醒 “小度小度” 后说 “我要录制语音包” ，即可体会这项语音定制功用，亲自为自己和他人导航指路。

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！