明星用声音赚钱,早就不是什么新鲜事了。
现在我们打开导航,听到自己心仪的明星播报“前方道路拥堵”,可能都不会太惊讶了。
还有许多有声书,由于有了“明星朗读”buff加成,身价和销量也都会大涨。
但如果有一天你忽然发现,这些声音其实是由AI克隆出来的呢?
也就是说,明星本人根本不需要到场,只需要一份语料,AI就能自动将他们说话的声音、语气合成出来!
而且,现在已经有人开始这么做了。
最近,美国一家人工智能公司Veritone瞄准了商机,推出了一个名叫Marvel.AI的平台,为名人提供声音克隆服务。
他们认为,对于名人而言,录广告、代言是一份利润丰厚的工作,他们的声音也是个人品牌很重要的一部分。
总裁瑞安·斯蒂尔伯格(Ryan Steelberg)表示:“人们想去做这些生意,但是会苦于没有时间去演播室录音。”
所以,他们就“贴心地”推出了这样一项服务,可以帮名人克隆出自己声音的复制品,在需要的时候就可以用这些复制品来完成工作
当某个名人在睡觉时,他的声音可能会在录广播、读有声书。
斯蒂尔伯格表示,该平台甚至可以利用档案录音来训练模型,让死人的声音复活。
AI的模仿效果如何?
具体操作上,公司表示Marvel.AI将会提供两种服务。
第一种:是一种可以自己操作的模型,就像亚马逊、微软等公司那样,任何人都可以从预先生成的目录中选择,按己所需创建一个声音项目。
第二种就厉害了,Veritone本着“顾客是上帝”的原则,为用户提供了“您掏钱,我服务”的铂金VVVIP奢华体验。
整个过程中,客户只需要提交自己的声音数据。之后,Veritone将会创建一个克隆好的语音模型,保存在公司的系统中。只要客户有需要,就能立刻把模型调出开始克隆。
总裁斯蒂尔伯格坚信,市场上对这种服务的需求是存在的,他们已经准备好商业化应用了。
且不管他说的市场需求到底怎样,能不能克隆出优质的声音才是关键啊。
对此,Veritone向媒体分享了三个语音片段来展现自己的技术。
他们让总裁斯蒂尔伯格朗读了一段薄荷糖广告,让AI模仿他的声音,并把这段语音变成女声进行对比。
我们不妨来听一下效果:
显然这个效果并不完美,AI的声音缺少了一些起伏,听起来很机械。
而且这仅仅是一段朗读,在真正的代言中,往往是需要用饱含感情的声音来带动大众情绪的。
在这一点上,AI的能力实在是令人怀疑。
对此,总裁斯蒂尔伯格认为技术还在不断发展,说不定未来几年有更好的新模型呢?
他认为,还是要注重用户的体验,才能让他们的平台打出名声。
看到这里,不禁让人怀疑这还是不是一个AI项目。
Veritone是一家怎样的公司?
Veritone虽然自称是一家“人工智能公司”,但其大部分收入来自广告和内容授权。
该公司的另一个部门Veritone Licensing,对一些主要档案的视频进行授权。其中包括CBS和CNN等广播公司以及NCAA和美国网球公开赛等体育组织拥有的档案。
总裁斯蒂尔伯格表示,与纯粹专注于技术的人工智能初创公司相比,Veritone在授权和广告方面的经验将赋予其优势。
并且,即便是作为一个商业项目,这个事情似乎也不太靠谱。
毕竟一个广告代言,最重要的就是传递这个名人本人能带来的影响,如果有一天他的声音都是假的,那大众还会买他的账吗?
总裁斯蒂尔伯格表示,他们会努力建立一个行业标准,让大众在明知道不是明星真实声音的情况下,还依旧信赖他的影响力。
目前,该公司表示这个问题只需要去说服一些名人来帮他们发声。
One More Thing
近几年来,声音克隆的话题一直热度不减。
一方面是技术上的突破确实令人惊喜。
早在2019年,Google团队就提出了一种文本语音合成(text to speech)神经系统,能通过少量样本学习到多个不同说话者(speaker)的语音特征,并合成他们的讲话音频。
这个少量有多少?只需要5秒的音源,就能完成克隆。
研发人员通过通过第一个语音特征编码网络(encoder)建模说话者的语音特征,接着通过第二个高质量的TTS网络完成特征到语音的转换。
两个网络可以分别在不同的数据集上训练,因此对训练数据的需求量大大降低。
而且克隆语音的技术也已被不少公司投入实际应用中,如亚马逊、微软、百度等等。
但与此同时,关于声音克隆的社会争议也层出不穷,此前就有不法之徒利用语音合成来进行电话诈骗的案例,这也一度让人谈Deepfake色变。
你看好这项技术的商业化吗?
参考链接:
[1] https://www.theverge.com/2021/5/14/22432180/voice-clone-deepfake-celebrities-influencers-veritone-ai-platform
[2] https://arxiv.org/pdf/1806.04558.pdf
出处:见配图水印