如何让机器模仿你的声音

“Hey Siri ,明早 7 点叫我起床。”

“小度小度,帮我查一下原子弹该怎么造。” 当代生活,你跟机器说的话可能比跟你爸妈说的话都要多。这些触手可及的语音助手、智能音箱不仅能听懂你的意思,做出回答,还能变换各种音色,乃至模仿你的声音。 img 这在今天已经不算稀奇,但实际上,想让机器说人话,可比你爸妈当年教你说话难得多,而要想让机器模仿不同人的声音说话更是难上加难。 世界上第一台能合成人声的电子设备,是这款首秀于 1939 年纽约世界博览会的 Voder 。 img 它采用的是参数合成法,准确的说是共振峰合成。什么是共振峰? 人说话产生的声音包含很多不同的频率,其中频率最低的称为基音,决定了音高,此外就是泛音,决定了音色。而共振峰就是频谱上能量相对集中的这些泛音。 img 比如当发音人为男性时,汉语里 i 这个元音的基频,即基音的频率约为 210Hz,而在泛音中,频率最低的共振峰 F1 约为 290Hz,第二低的共振峰 F2 约为 2360Hz,第三低的共振峰 F3 约为 3570Hz 。 img 通常来说,只要反过来让机器发出这四个频率的声音,就能简单地还原出带有男性音色的 i 这个元音。 Voder 就是基于这个原理,下面是它的工作流程图。 img 首先,利用脉冲发生器可以模拟出声带振动产生的浊音,用噪声发生器可以模拟出声带中由气息形成的清音,两者将与手腕处开关生成的基音叠加,进入一个声道滤波器。 这个滤波器由两组按键控制,每个按键对应着不同频率的声音,当操作员同时按下不同的按键,就会加入不同频率的泛音,最终组合成语音。 在此后的半个世纪里,这一直是让机器说话的主流方法,并且通过升级电路和引入更复杂的参数摆脱了人工操作,但合成出来的声音仍然带有非常强的“电音”。

最后更新于