迈向AI视觉大模型的未来:万物皆可生成。
北京时间2023年10月9日下午,美图自研AI视觉大模型MiracleVision(奇想智能)3.0版本发布,并将全面应用于美图旗下影像与设计产品,助力电商、广告、游戏、动漫、影视五大行业。这也是美图公司为其15周年交出的最新答卷。
3.0版本主打“奇思妙想”和“智能创作”,除了输入文字生成相应图像、输入涂鸦秒变大作这些“基本功”外,MiracleVision 3.0版本的“智能脑补”和精准控制能力都变得更强,进一步降低了绘图、修图的操作门槛。
比如在描述画面方面,输入关键词“椅子”,它就会自动补充联想一些可能关联的提示词,如“霓虹灯光”、“透明质感”、“商业摄影”等,进而降低用户写提示词的门槛。在生成图像方面,点击“画面扩展”,视觉大模型就能在更大的画布上“脑补”出输入图像的背景画面。
距离美图视觉大模型面世刚过去100天,三个版本的迭代升级区别有多大?和其他视觉大模型相比,MiracleVision 3.0有什么独特竞争力?有哪些新的商业化方向?美图公司创始人、董事长兼首席执行官吴欣鸿等六位高管与智东西等媒体进行深入交流,解读美图视觉大模型的核心技术实力、算力投入情况及落地商用规划,并分享了对国产AI视觉大模型现状与问题的最新思考。
目前市面上大部分视觉大模型都在卷数据量、参数量,但吴欣鸿认为,衡量视觉大模型能力的标准并非追求参数指标,而是抓住应用场景的核心需求,并在商业模式上得到验证。他预测视觉大模型在2024-2025年进入高速发展期,2026-2030年进入成熟期,将助力千万设计场景,引领美学的升级与社会经济增长。
01.
美图视觉大模型100天进化:
生图更轻松、出图更专业、改图更精准
100天之间,美图视觉大模型进化了哪些能力?
美图公司创始人、董事长兼首席执行官吴欣鸿介绍说,MiracleVision展现出了可喜的成长速度,3个月前,它的绘画水平还停留在初级阶段,如今已经能描绘出真实细腻的画面细节,用户现可访问AI视觉创作工具“WHEE”官网体验。
美图公司将自研AI视觉大模型MiracleVision(奇想智能)的核心能力拆解为两大特性——“奇思妙想”和“智能创作”。
在“奇思妙想”层面,MiracleVision通过“提示词智能联想”功能降低大众的使用门槛。
当用户输入关键词,MiracleVision可自动补充相关表述,如光影效果、质感、风格、图片质量等,推动创作平权。
此外,MiracleVision通过“提示词精准控制”功能来满足更加专业的设计要求,如使用“近景”、“远景”、“顺光”、“逆光”等描述控制最终生成效果。
除了亚洲人外,MiracleVision还支持不同地区、不同肤色的人像摄影,以满足全球用户多样化的需求。
对于企业来说,设计物料更加高效省时。例如快速生成堪比专业棚拍效果的商品图,并能随心切换背景。
上传一个logo图像,再输入几个关键词描述,视觉大模型就能生成出审美在线的品牌视觉海报。
在“智能创作”层面,MiracleVision通过“深化创作”功能,进一步丰富作品细节和提升表现力。
通过“AI画面扩展”功能,可以让作品尺寸更大、细节更丰富。
通过“局部修改”功能,圈住要修改的位置,输入想修改的文字描述,就能对部分画面进行精准修改与调整,做到指哪改哪。
通过“分辨率提升”功能,可以生成高清大图,最高能支持4K分辨率,让细节表现、色彩展示、物体辨识更加的精准和生动。
02.
助力电商、广告、游戏、动漫、影视五大行业,带来更高效的AI原生工作流
在吴欣鸿看来,AI视觉大模型带来的不仅仅是更好的视觉呈现,还有对工作流的效率提升,但目前大模型与工作流的结合仍在探索阶段,抓住应用场景的核心需求更为重要。
据他介绍,MiracleVision将落地电商、广告、游戏、动漫、影视五大行业,希望能助力行业“工作流提效”,推动AI视觉大模型的应用普及。
在电商行业,从涂鸦生成线稿、线稿上色、商品图、模特试穿图,再到电商物料输出,全程可通过MiracleVision实现。
在广告行业,MiracleVision覆盖创意脑暴、创意深化、平面排版、多尺寸延展、线下投放预览的全工作流,助力客户在广告物料制作环节提效。
在游戏行业,MiracleVision可以包揽场景设计、角色设计、道具设计、UI图标、宣发物料等流程,拓宽设计师想象空间的同时助力游戏行业降本。
在动漫行业,MiracleVision打通了概念设计、故事板生成、线稿上色、动漫补帧、视频转动漫等流程,支持创意到物料成品的快速落地。AI的助力能够让动漫创作团队把更多精力放在讲好故事和打造更加令人印象深刻的动漫角色IP上。
在影视行业,MiracleVision的高可控性可充分满足概念场景设计、分镜设计、人物造型、道具设计、宣发物料的效果要求,极大提升影视行业设计环节的效率。
03.
视觉大模型供大于求
2026-2030年走向成熟期
吴欣鸿透露,在深度参与视觉大模型建设的过程中,他重温了自己年少学画的时光,当时通过眼睛捕捉各种视觉信息,通过反复实践和尝试不同的技巧和风格,逐渐提高了绘画技能。
“训练AI也有共通之处,AI会学习各种不同的绘画风格和技巧。通过充分的训练,AI也能创作出具有独特性的原创作品。”他认为AI视觉大模型的本质是一个无穷无尽的视觉创意库,和应用之间相辅相成,大模型为应用提供技术支撑,应用反哺大模型的效果迭代。
目前,国内有很多团队在研发视觉大模型,目前已知的有超过30个团队,还有近百支团队正在积极筹备进入该赛道。
但从实际情况来看,吴欣鸿总结为十个字:说得多,用得少,供大于求。
他谈道,能将视觉大模型与生产环节结合的企业数量相对较少,视觉大模型与工作流的融合也处于前期探索阶段。
对于成熟的大中型企业,他们对效果的精度要求很高,但当前大部分视觉大模型的生成效果与人类设计师的标准存在一定差距。对于小微企业,在视觉大模型部署方面要付出较高的学习成本。对于个体用户来说,复杂的平台交互仍是阻碍使用AI创作的一大门槛。与此同时,AI创作存在一些不可控的部分。
总体来看,吴欣鸿认为,大模型真正在生产端普及使用,需要解决三个问题:垂直领域的极致效果、工作流整合、变现能力。
据他预测,视觉大模型应用普及将经历三个阶段:探索期、高速发展期、成熟期。
2024年之前为探索期,厂商在这一阶段进行不断探索,效果勉强及格,视觉大模型在工作流里支持单任务的提效,验证场景的可行性。
2024-2025年进入高速发展期,效果会逐步精进,有着明确的场景,带来工作流的升级。
2026-2030年为成熟期,视觉大模型的生成效果会非常出色,凡是设计与创意,视觉大模型都是标配。
随着视觉大模型在生产端的应用走向成熟,设计的边界也会被不断拓宽。
04.
7款影像生产力工具
3个月进化成果披露
除了视觉大模型升级到3.0版本外,吴欣鸿公布了6月19日发布的其他6款影像生产力工具的一些最新进展:
1)AI视觉创作工具“WHEE”:优质AI效果生成数超过550万张,打造的设计师生态初见成效。
2)AI口播视频工具“开拍”:月活跃用户数已突破35万;桌面端AI视频编辑工具“WinkStudio”已累计服务近10万名视频创作者;
3)WinkStudio:7月上线,服务近十万名视频创作者,成为他们必备的生产力工具。
4)主打AI商业设计的“美图设计室”:正助力近百万中小电商卖家降本增效。
5)AI数字人生成工具“DreamAvatar”:于8月底上线,并主打“AI演员”数字人服务。
6)美图AI助手“RoboNeo”:每天帮助近万名用户自动修图,比传统修图效率提升35%。
05.
大模型算力成本压力不大
订阅和单购商业模式相辅相成
在发布MiracleVision(奇想智能)3.0版本后,美图公司的六位核心高管与参会媒体进行深入交流。具体干货信息如下:
1、美图视觉大模型会应用到哪些产品中?
美图大部分产品都会逐渐融入其自研大模型的能力。较显性的是美图秀秀,该产品已经是一个影像入口,整合了美图大部分产品,所以让用户能够一站式地感受其大模型的当前能力。未来美图视觉大模型更多要赋能各行各业,先从相关性较强的5个行业入手,通过打磨验证,未来进入行业的工作流并提高生产力。
美图截至今年1月份的月活跃用户数是2.47亿,很多人都会通过美图的产品逐渐用到AI提供的服务,切身感受到大模型带来的效率提升。美图希望服务的用户群体包括大众用户、专业用户、大众用户与专业用户之间的传播者。
2、美图视觉大模型三个版本分别是什么状态?
用关键词来总结,1.0版本是“勤奋好学”,效果在及格线左右,美学评估的很多维度有待进化;2.0版本开始有些“奇思妙想”,创造力、想象力变得更好;3.0版本在精准控制细节、画面精细度和质感、与行业工作流的结合等方面均提升显著。
3、与其他市面模型相比,美图视觉大模型有何独特之处?
美图视觉大模型完全自研,有针对美学的倾向性,基于自研模型建立了一个美学评估体系,以不断优化美学效果。其模型结构和数据集都是以此为出发点来组织和建立。与其他公司不同的是,设计师及美学领域创造者高度参与了美图视觉大模型的训练过程。
美图发展15年来一直处在相对激烈的竞争环境下,在视觉大模型领域,美图的一大优势是拥有较为庞大的用户规模和现成的应用场景,可以源源不断地融合大模型能力,并探索出相对成熟且不断增长的订阅商业模式,构建很好的闭环。对于美图来说,视觉大模型竞争才刚刚开始,现阶段先把自己做强是一个非常关键的基础。
4、美图在视觉大模型的投入情况如何?
美图今年上半年研发投入将近3亿元,全球超6亿元,在其总营收中的占比超20%,与大模型相关的主要工程师约有600人,还有很多设计师、产品经理参与其中。
美图研究院从2011年成立以来,一直在做核心的视觉AI能力,其核心团队毕业于国内清华、北航、厦大等知名高校以及海外新加坡、澳大利亚、韩国的一些顶尖高校。美图也长期与这些顶尖高校的老师有合作。
5、美图视觉大模型有哪些核心技术竞争力?
从AI三要素来看,数据方面,有专业设计师标注的高质量数据,除了美图设计师外,还有一些合作美院及艺术家参与了数据的标注与审核。算法方面,美图已经在计算机视觉算法上有10多年的积累。此外,美图在美学方面拥有深厚基础,导致其视觉大模型的训练效果更佳。
算力也非常充足,美图与头部厂商合作。大模型训练方面用了很多A100和A800的计算卡,推理方面用的卡不太一样,更多是V100、T10、A10等型号。在AI动漫或视频类场景,推理方面最多差不多能用到8000张卡。算力对美图来说不是很大的成本压力。像AI动漫这样的产品,虽然用了很多卡,但通过单购和会员的方式,算下来还是能实现盈利。
6、美图在AIGC产品商业模式上会有哪些尝试?
可满足AIGC功能使用需求的购买美豆模式在9月初就上线了,目前运行比较良性,不过美图有很多策略还没上线,将逐步展开,这为订阅提供了一个很好的补充,用户可以先用美豆以极低的成本去尝试生成效果,如果发现可能长期需要这样的模型能力,再采用订阅模式。
对于订阅用户,生成数量是有一定限制的,如果超出限制范围,用户也可以通过美豆来追加生成内容。订阅目前只有VIP和SVIP,未来不排除针对一些行业、专业需求去增加更高级别的会员。
订阅和单购两种模式相辅相成,未来美图也将就以美豆为代表的单购去做反复的策略验证,短期内应该不会增加其他新付费尝试。
06.
结语:未来,万物皆可生成
吴欣鸿认为,对于各行各业的从业者而言,AI视觉大模型带来的改变不止限于视觉效果的提升,更重要的价值的是对工作流的改造和创新。
当前,AI视觉大模型主要被运用于生成各类艺术作品,包括绘画、摄影和设计图稿为主,能展现出初步的效果,但这只是起点。
未来AI视觉大模型将承担更多琐碎、重复的工作,成为让创作者有更多时间和精力,去解放想象力,探索真正的创新与创造。
吴欣鸿相信AI的进化速度会很快,将来,在AI的帮助下,甚至万物皆可生成。
撰文:ZeR0
出处:微信公众号 @智东西