中国的深度造假：只需3.7秒的音频即可克隆任何人的声音

只需3.7秒的音频，中国科技巨头百度开发的新 “AI算法” 就可以克隆出相当可信的假声音。

就像机器学习软件的迅速发展使假视频的创建变得非常大众化那样， 这项研究也表明了为什么越来越难以相信互联网上发布的任何媒体信息 —— 不仅是图片、视频，现在还包括声音，都有可能是假的 。

这家科技巨头的研究人员展示了他们在 “Deep Voice” 项目中的最新进展，该系统是用于克隆语音的。

一年前，该技术还需要大约30分钟的音频才能创建新的假音频剪辑。现在，仅需几秒钟的音频材料输入，它就可以产生更好的结果。

当然，获得的训练样本越多，输出的效果就越好：单一源输入的结果听起来仍然有点嘈杂，但并不比低质量的真实音频文件差很多。

您可以在此处收听声音样本和 AI 生成的结果。

该系统可以将女性的声音转换为男性，将英国人的口音转换为美国口音，这表明AI可以学习模仿不同的说话风格，将文本语音转换提升到了新的水平 。

研究人员在有关该研究的博客文章中写道：“语音克隆有望在人机界面的个性化方向上发挥重要作用。”（百度链接，谨慎打开）

Deep Voice 的这一迭代标志着近年来AI生成的语音模仿的又一发展。

Adobe 在2016年已经展示了其 VoCo 软件，该软件可以在听了20分钟的声音后从文本生成语音。总部位于蒙特利尔的AI初创公司 Lyrebird 也声称它仅用一分钟的音频就能进行文本到语音的转换。

这些技术代表了AI进步的一种飞跃，研究人员和理论家对深度造假的担忧一直是人们关注的重点。

如果只需要几秒钟的声音和一个人脸的数据集，就可以轻松地伪造出整个采访、新闻发布会或新闻片段 …… 任何新闻都不会再可信了，是吗？⚪️

觀點2