回形针PaperClip文章备份站
  • 首页
  • 回形针PaperClip
    • QQ-X计划“星城”之旅:3000米落差体验失重
    • iPhone 上的激光雷达有什么用
    • 「每逢佳节胖三斤」,你做好准备了吗
    • 不管回不回家,这个春节都值得你好好度过
    • 为什么一家银行要发射卫星
    • 为什么不好吃的野生动物也渐渐消失了?
    • 为什么你吃的月饼长这样
    • 为什么你的手机读取数据这么慢
    • 为什么你的腿总是长不直
    • 为什么托尼老师染发这么贵
    • 为什么搜索引擎无法解决你的困惑
    • 为什么现代人更容易过敏
    • 为什么节后上班这么痛苦
    • 为什么芯片上的晶体管越做越小
    • 为什么苹果非要用自己的芯片
    • 人口普查究竟查什么
    • 你为什么总是抓不到娃娃
    • 你的身体怎样培养出「超级细菌」
    • 你究竟需要一把怎样的菜刀
    • 免费升舱这种好事,你怎么碰不上
    • 全国第二高发癌症,离你有多近
    • 写给直男的大姨妈呵护指南
    • 刚刚发射的天和核心舱意味着什么
    • 别人一支烟的愉悦,让你付出了什么
    • 动物园猛兽跑路该怎么办
    • 化妆水下毒指南
    • 半年学好英语能有多简单?
    • 只需拿起一张纸片,便可扭曲整个时空
    • 吃糖到底有什么问题
    • 含糖饮料避坑指南
    • 哪个男孩,不想永远做男孩|回形针推荐
    • 在非洲,优雅地吃上一桶泡面竟然是身份和财富的象征
    • 好好的 Flash,怎么就被淘汰了
    • 如何从典当行借到钱
    • 如何像拼积木一样定制汽车?
    • 如何寻找世界上最古老的 DNA
    • 如何快速解决下水道堵塞
    • 如何把空气玩到极致
    • 如何拯救你的无线音响
    • 如何掌握一项3亿人都会的技能?
    • 如何科学地吸收尿液
    • 如何科学地提升撸狗体验
    • 如何科学地种西瓜
    • 如何给人生一个惊奇的停顿号
    • 如何让机器模仿你的声音
    • 如何选择一款靠谱的耳机
    • 安眠药对你做了什么?
    • 家用冰箱里的生化危机
    • 小蓝片对丁丁做了什么
    • 快出门,今晚有超级月全食
    • 收割机对小麦做了什么
    • 新发地的菜都从哪儿来
    • 春节如何科学送礼?
    • 是什么导致了走路八字脚
    • 杀蟑螂,中国人有1000种奇淫巧技
    • 正式介绍我们的第三张原声音乐专辑
    • 油烟机如何拯救你的当代生活
    • 照片里的你为什么不好看
    • 熬夜如何搞坏你的身体
    • 爆米花不为人知的秘密
    • 物理学家都干了什么?
    • 用对筷子有多重要
    • 电脑诞生这么久,为什么你还是喜欢在纸上做笔记
    • 神舟十二号:终极使命和新的起点
    • 站到“不安分”的人身边
    • 糖化反应到底有多危险
    • 纸吸管为什么这么难用
    • 自动扶梯到底危不危险
    • 苹果推出的 Mini LED 屏,到底好在哪
    • 逃避社交的你,真的有「社交恐惧症」吗
    • 量子计算机究竟是什么
    • 金刚居住的地心世界在哪里
    • 银盐冲印如何拯救老照片
    • 防腐剂到底安不安全
    • 食用色素真的安全吗
  • 基本操作
    • 《一个人工智能的诞生》即将完整上线,以及一个「立省 50 元」的机会
    • 《一个人工智能的诞生》第一周版本更新!
    • 《一个人工智能的诞生》第二周版本更新!
    • 《一个人工智能的诞生》第五周版本更新
    • 可能是地球上第一个交互视频课程
    • 基本操作 3 月更新
    • 基本操作四月第三周更新
    • 我们和数码荔枝聊了聊:做交互视频、卖正版软件到底赚不赚钱?
    • 机器学习的最底层,或许是人类
    • 被密码斩首的女王,与新课程免费兑换码
    • 「机器学习」等于「神经网络」吗?人工智能基础概念梳理
    • 众包与数据标注:机器学习的最底层,或许是人类
    • 并非只有加密和解密 —— 密码学基础概念梳理
    • 泄露天机 ——《密码学:成为一名密码朋克》全系列资料整理
    • 值得一看!《机器学习:一个人工智能的诞生》全系列参考资料
    • 沃尔特·皮茨:神经元模型与陨落的天才
    • 沃尔辛厄姆:被隐蔽的「间谍之父」的一生
  • 干燥工厂
    • 工厂开张的一个月里发生了什么?
    • 干燥工厂开业!我们准备了 6 颗核弹卖给你
  • 有点东西
    • 有点东西:这是回形针的新栏目「有点东西」
    • 有点东西:会飞的鸡在睡梦中合成宝可梦
    • 有点东西:几何让阻尼感和灵感都乖乖站好
    • 有点东西:原谅让数理化长出小眼睛
    • 有点东西:在摇椅上煮出赛博朋克艺术品
    • 有点东西:开发香喷喷的替代品与钱
    • 有点东西:懒人在音乐、断食、电击中书写 blog
    • 有点东西:拒绝加班徒步去抓星之卡比
    • 有点东西:这五个推荐里,我们强烈推荐第一个
    • 有点东西:遥控朋克猫有节奏地清倒硬盘
由 GitBook 提供支持
在本页
在GitHub上编辑
导出为 PDF
  1. 回形针PaperClip

如何让机器模仿你的声音

上一页如何给人生一个惊奇的停顿号下一页如何选择一款靠谱的耳机

最后更新于3年前

“Hey Siri ,明早 7 点叫我起床。”

“小度小度,帮我查一下原子弹该怎么造。” 当代生活,你跟机器说的话可能比跟你爸妈说的话都要多。这些触手可及的语音助手、智能音箱不仅能听懂你的意思,做出回答,还能变换各种音色,乃至模仿你的声音。 这在今天已经不算稀奇,但实际上,想让机器说人话,可比你爸妈当年教你说话难得多,而要想让机器模仿不同人的声音说话更是难上加难。 世界上第一台能合成人声的电子设备,是这款首秀于 1939 年纽约世界博览会的 Voder 。 它采用的是参数合成法,准确的说是共振峰合成。什么是共振峰? 人说话产生的声音包含很多不同的频率,其中频率最低的称为基音,决定了音高,此外就是泛音,决定了音色。而共振峰就是频谱上能量相对集中的这些泛音。 比如当发音人为男性时,汉语里 i 这个元音的基频,即基音的频率约为 210Hz,而在泛音中,频率最低的共振峰 F1 约为 290Hz,第二低的共振峰 F2 约为 2360Hz,第三低的共振峰 F3 约为 3570Hz 。 通常来说,只要反过来让机器发出这四个频率的声音,就能简单地还原出带有男性音色的 i 这个元音。 Voder 就是基于这个原理,下面是它的工作流程图。 首先,利用脉冲发生器可以模拟出声带振动产生的浊音,用噪声发生器可以模拟出声带中由气息形成的清音,两者将与手腕处开关生成的基音叠加,进入一个声道滤波器。 这个滤波器由两组按键控制,每个按键对应着不同频率的声音,当操作员同时按下不同的按键,就会加入不同频率的泛音,最终组合成语音。 在此后的半个世纪里,这一直是让机器说话的主流方法,并且通过升级电路和引入更复杂的参数摆脱了人工操作,但合成出来的声音仍然带有非常强的“电音”。

毕竟,人类的语音包含的声音频率信息非常复杂且丰富,用机器简单组合出来的语音在音调上多少会有差距,更别说还有发音的长度、韵律、节奏等影响因素,如果也要人为地用参数来量化,将是个无比庞大的工程。 于是,波形拼接法出现了。 既然用参数很难合成出逼真的人声,那么干脆录下真人的语音,再通过拼接组成我们想要的语句。 比如你手机上的地图应用,在语音导航时如果需要播报 “前方路口右转,进入朝阳门外大街” 这类指示,最简单的方法就是从语料库中选取每个字的发音拼接组合成一句话,不过这样并不自然。 更高级的方法是从语料库中选取短语拼接,但这样在拼接处依然会有韵律的断裂感。 要想更自然,就得从语料库中选取韵律相近的短语拼接,而这就要求语料库必须足够庞大。 像地图应用推出的明星语音包,使用波形拼接法可能需要提前录制一万句话左右,且还须在专业的录音棚以保证语音质量,再经后期处理制作,前后需要两三个月的时间。 正因为此,定制语音包一直以来都只是明星的特权,直到 9 月 19 日,百度地图上线了一项语音定制功能,任何人只要读 20 句 15 个字左右的短句,传输到云端的服务器,经过约 15 分钟的训练,就可以下载一个具有你说话特征的导航语音包。 百度地图是如何只用这么少的语音样本、这么短的时间就能让机器模仿你的声音的? 答案是深度学习神经网络。 比如 2017 年百度发布的 Deep Voice 。这个系统以音素为基础的分析单位,音素指的是根据语音的自然属性划分出来的最小语音单位,比如汉语音节 ā 只有一个音素,dā 就有两个音素。 系统中的五个模块会从大量的语音和文字数据中,学习如何划分提取音素、以及音素的基频、持续时长等参数,然后再利用声学模型合成语音。 这种方法本质上也是参数合成,但优势在于,深度学习神经网络能从大量数据中快速学习、找出规律,也就是说,通过这种方法设置的参数相比传统的参数合成法要更准确。

不过,这个模型一次只能学习一个人的语音,且对发音人的录音质量和数量依然有非常高的要求,要想在手机这样算力有限的小型设备上,实现只用 20 句的语音样本花 15 分钟合成定制语音,几乎不可能。 在 Deep Voice 发布的同年,百度陆续又推出了 Deep Voice 2 ,这个模型已经可以学习数百种不同的语音,而后续的 Deep Voice 3 已经能做到在半小时内学习 2500 种语音,并从中提取出不同声音特征的共性和个性。 不仅如此,前两个版本的 Deep Voice 在训练时是基于深度学习神经网络,但在合成语音时还是采用跟传统的参数合成类似的方法,而 Deep Voice 3 不论是训练还是合成都基于深度学习神经网络,这让合成出来的语音要自然得多。 正是依赖这些语音合成技术的更新换代,百度扫除了阻碍语音定制功能大规模商用的三大难点:如何只用少量的数据合成语音?如何快速地合成语音?如何在手机这样的小型计算平台上使用语音合成? 百度在地图语音定制功能上应用的 Meitron 模型首次让语音合成技术真正走出了录音棚、实验室。 Meitron 模型可以有效学习和分离声音样本中包含的音调、韵律、节奏等各种维度的信息,在实际使用过程中,20 句的录制语音经过特定挑选,尽可能覆盖了最大的语音要素。 而且,虽然你录制的都是 “夏天要走了,秋天要来了” 这类中文语句,但最终却可以合成出 “GPS” 这样的英文短语,这是传统的参数合成或波形拼接难以做到的。 更重要的是,Meitron 模型是一个足够轻量级的训练平台,从而实现迅速部署和服务器上快速的模型训练。当你录完这 20 个短句,只需传输到百度地图的服务器,合成完后就可以把具有你说话特征的导航语音包下载到手机上,过程中无需繁琐的人工调校,方便快捷。 在这项功能的加持下,语音定制从此不再是明星的特权,不仅如此,这些定制化的导航语音包还可以在亲朋好友间共享使用。 当你在异乡生活,开车时听着你爸或你妈的声音导航,不仅多了情感上的陪伴与支持,更能让你心平气和地驾驶,再也不好意思超速、加塞、乱按喇叭了。 现在,你就可以打开百度地图,唤醒 “小度小度” 后说 “我要录制语音包” ,即可体验这项语音定制功能,亲自为自己和别人导航指路。

img
img
img
img
img
img
img
img
img
img
img
img
img
img