AI看似全能,实则全都不能。
2022年11月2日,谷歌一鼓作气发布了四项最新的AIGC技术(人工智能创造内容)成果,其能够根据文本提示生成高分辨率长视频、3D模型、音乐、代码、文字内容(可控文本生成技术)等,看起来谷歌的AIGC技术是个全能的“艺术家”。
近些年来,超大规模语言模型成为各大科技巨头在人工智能领域上寻求突破的新方向,例如OpenAI开发的GPT-3模型、谷歌开发的LaMDA模型、Meta开发的OPT-175B模型、阿里巴巴达摩院开发的PLUG模型、微软与英伟达联合开发的Megatron-Turing (MT-NLP)模型等等。
而随着越来越多高性能的超大规模语言模型的开源,AIGC技术突飞猛进,其能够生成的作品也越来越多样化、越来越令人惊讶。除了近期基于OpenAI的DALL-E2模型生成的各种优秀绘画作品外,AIGC技术还开始在音乐、视频、代码、写作、3D模型等方面崭露头角,AI具备生产力了吗?
01 多才多艺的AI
AIGC是继UGC、PGC 之后新型利用AI技术自动生成内容的生产方式,目前AIGC已开始应用起来了。例如2022年两会期间,依托百度AIGC(AI generated content)技术,工人日报应用百度数字人,推出《两会晓晓说》新媒体栏目,在代表通道、委员通道以及新就业形态劳动者权益维护、工匠精神和产业工人队伍建设等正能量话题方面进行报道。不过,在虚拟数字人上应用AIGC技术,普通用户对其感知并不明显,还是AIGC技术应用在音乐、视频、代码、写作这些场景中感知更明显。
在我们传统认知中,一些重复性、低创造性的工作AI是完全可以胜任的,而那些充满创造性的工作只能靠人去做,而如今随着AIGC技术的提升它可以被推翻了。例如中央音乐学院开发的AI自动作曲系统,通过人工智能算法进行作曲、编曲、歌唱、混音,能够在23秒快速创作出一首歌曲,并且可以达到一般作曲家写作水平。
AI不仅能够做音乐,而且还能剪视频。今年9月,Meta公布了一款AI视频制作工具——Make-A-Video。根据扎克伯格的描述,在Make-A-Video中仅需输入一段文本描述,其就可以生成一段视频。谷歌的Phenaki工具也类似Make-A-Video,可以通过一系列的文本提示生成有故事性的连贯视频。
除了剪视频,AI还想过抢程序员的饭碗,还尝试过写代码。今年,GitHub与Open AI一同合作,推出了一款名为“GitHub Copilot”的AI工具,Copilot可以根据上下文自动补全代码,包括文档字符串、注释、函数名称、代码,只要编程者给出一定提示,这款AI工具就可以补全出完整的函数。
当然,AI还可以帮助你写作。除了前文提到基于谷歌AIGC技术的LaMDA Wordcraft辅助科幻大师刘宇昆写作外,之前在国内百度的虚拟数字人“度晓晓”也曾挑战过高考语文作文(红楼梦),最终其作品得出了“从高度来说还有所欠缺,没能达到足够的立意高度,不过也算是中上之作,传承了度晓晓一贯的文字优美,用词流畅,用典华丽的特点,基本上算是一篇中规中矩的考场作文”的评价。
02 全能,全都不能
从作画到做音乐、剪视频,再到写代码、写小说,AI看上去在内容创作领域已经无所不能,但事实真是如此吗?
以AI做音乐为例。其实早在上世纪50年代计算机被发明之后就出现了第一批计算机音乐。最早的音乐构建了一个马尔科夫过程,使用进行生成,辅以rule-based的方法挑选符合要求的结果,但是这类方法生成的音乐质量不高。随着机器学习的发展,算法应该从音乐材料中自动地学习出一些规律,得到自然的音乐。
2019年,Google Magenta组贡献了一个demo,称为Bach Doodle,通过学习J. S. Bach的四重奏,算法可以由用户指定第一声部,然后自动计算给出剩余的三个声部,这便是MiniBach算法的雏形和前身。然而minibach作为早期模型,没有采用成熟的表示法,而是将21个音高*16个step*4个小节=1344,一共1344个node,使用了一个多分类器进行学习。随后,随着更多超大规模语言模型的研发推出,AI做音乐的案例也越来越多。
譬如Pierre于2016年2月正式发布的Aiva,Aiva 通过读由莫扎特、巴赫、贝多芬等名家谱写的多达15000个曲子进行学习,从中提取出音乐特征,其为庆祝法国国庆节创作了一整张专辑——《创世纪》(Genesis),Pierre的团队进行了多次图灵测试,让专业的音乐家聆听 Aiva 创作的曲子,然而迄今为止没有一个人听出来这些曲子其实是由 AI 创作的。今年3月,Aiva 成为“法国及卢森堡作曲家协会”(SACEM)的首个非人类会员,一跃成为拥有国际地位的作曲家。
但是, Aiva的创作并不能完全独立完成,其首张专辑就得到了人类作曲家的协助。而且,即便是 Aiva这个已经成为“法国及卢森堡作曲家协会”(SACEM)的首个非人类会员的AI,其工作范围也仅限于谱曲,填词与演唱还得靠人来。
AI在音乐创作上的评价还算好的了,其最火热的功能——绘画上可以说是被喷得体无完肤。尽管AI作画在视觉上具有很强的冲击力,也获得过一些奖项,但是大部分图只要涉及结构的细节部分都是严重的扭曲,而且需要长时间的细节调整才能得到想要的作品,如果你至少简单输入一段话,那么大概率得出的是一些莫名其妙的画面。
从作画到做音乐、剪视频,再到写代码、写小说,AI看上去在内容创作领域已经全能,实际上是全都不能,AI创作现在还只是一个高级玩具。
出处:微信公众号 @科技智谷