顺德图书馆_当AI开口说话

加入时间：2024-01-17 19:02 访问量：3716 信息来源: 今日中国 2023年12期

　　自2022年年底至今，由ChatGPT打开的“AI宝盒”仍在不断涌出新的魔法。最近，“郭德纲用英语说相声”“泰勒斯威夫特说流利中文”等视频在社交平台疯传，在这些视频中，这些公众人物的外语不仅发音准确、语法地道、口型贴合，连音色都跟其本人高度相似，几乎可以以假乱真。

　　这就是AIGC带来的“新玩法”，一键翻译视频AI工具—HeyGen，来自一家名为诗云科技的中国公司。登录其网站，免费用户可以上传5分钟以内的视频文件，只需选择语言，就能在数十秒到数分钟内生成高质量的外语配音视频。在郭德纲视频的破圈影响下，最火爆时，网站上排队的生成任务有数万个之多，AI语音合成的魅力再次得到充分验证。

　　语言的诞生曾经是人类社会最重要的转折点之一。人的声音本身就具有惊人的多样性，没有两个人的声音是完全一样的，再加上各种语言、口音、习惯和情感表达，决定了机器合成人类的语音绝非易事。

　　语音合成有三个不同层次，可懂、自然、有情感（抑扬顿挫）。最早的尝试可以追溯到18、19世纪，当时的科学家主要是用机械装置来模拟人的声音，比如1791年维也纳发明家沃尔夫冈·冯·肯柏林，就用机器模仿了人类说话所需要的各种器官—用一对风箱来模拟肺部，一根振动的簧片充当声带，还用动物的皮分别仿制了喉咙、舌头和嘴唇。通过控制皮管的形状和舌头、嘴唇的位置，这部机器能够发出一些辅音和元音，但还说不出完整的单词。

　　很显然，人的发声系统精巧复杂，用机械的方式是很难模仿的。1939年，贝尔实验室推出了第一台电子语音合成器（命名为VODER），利用电子设备模拟声音的共振。这是一台相当复杂的机器，有14个类似钢琴的按键，一根由手腕控制的操纵杆，还有一个脚踏板。使用者需要经过长时间的训练才能掌握这复杂的操作，比如要发出“专注”（concentration）这两个字，必须连续按出13种不同的声音，加上手腕上的操纵杆上下运动5次、脚踩踏板3到5次。

　　到了20世纪80年代，随着集成电路技术的发展，出现了比较复杂的组合型电子发声器，有代表性的是美国科学家丹尼斯·克拉特在1980年发布的串/并联混合共振峰合成器。它的原理是分别用不同的数学公式来模拟人的三个发声环节，即振动源、声带和声道，再串接起来模拟人的发声。

　　90年代，大家发现参数合成的方法无论怎么改进都无法提高性能，于是开始用更直接的方式—波形拼接法。以中文为例，带声调的拼音音节有1400多个，干脆每个音节都录几十个样本，使用时把最合适的样本调出来拼接，形成语音。这种方式虽然粗暴，但颇为有效。

　　从2014年开始，深度神经网络也开始参与到语音合成技术中，大大提高了合成的质量—这一阶段开始，AI语音不但好听易懂，机械味也逐渐淡去，变得越来越自然了。语音合成开始像真正的语言一样，向更真实、更交互的方向发展，成为人与AI沟通的重要方式。

　　前不久，ChatGPT上线了语音功能，其拟真程度令人惊讶。比如它会结合语境进行语气处理，加入情感语气，也会在段落中间加上一些组织语言的词比如“emmm”。它会找重点，会调节字词之间的语速，你甚至能听到它轻微的呼吸声、口齿音，一些平卷舌和鼻音的小瑕疵。

　　比如为了防范诈骗，很多人会在收到文字转账或借款消息时，打一个电话确定对方是不是本人，现在这个方法显然不可行了。随着算力和算法的进步，骗子只需要从某个人的社交媒体上提取数秒钟的视频音频片段，就能模拟出他的声音，加上诸如deepfake这样的实时换脸工具，即使视频通话也不一定保真了。

　　人工智能可以成为向善的力量，但也有变坏的可能性。在更完善的监管和鉴别技术诞生之前，千万记住：眼见不一定为实，时刻保持警惕。