收藏文章 楼主
仅需口令即可改造型的APP开源了
网友【chuang】 2021-04-09 22:08:14 分享在【时代发展的印记】版块    1    3

现在,Adobe不想让你用手P图了——动动口就行。

只需要你说一句话,计算机就能P出你想要的效果。

例如,说出想要的发型,马斯克就会立刻被剃头:“Hi-top Fade(扫把头),变!”

网友分享在meiguo.com上的图片

肤色、妆容也都能轻松改变,一句“face with/without makeup”就能上妆/卸妆:

网友分享在meiguo.com上的图片
△给霉霉上妆/卸妆

甚至还能直接改变人样,给小李子变出胡子、金发后,变成川普!

网友分享在meiguo.com上的图片

除了人,动物、景物也能P。

输入“cute cat”,就能让图中的猫变成“大眼萌猫”:

网友分享在meiguo.com上的图片

说一句“classic car”,它就能把你的车P成经典古老的车型,还能手动调复古程度:

网友分享在meiguo.com上的图片

简直是手残P图玩家的福音。

没错,这是来自Adobe、希伯来大学、特拉维夫大学的新操作,只需要一句话,就能让计算机“修”出你想要的图片。

现在,项目已经开源。

当GAN遇上CLIP

这一神奇的操作,来自一种新算法:StyleCLIP。

没错,就是将目前最先进的GAN——StyleGAN,和OpenAI搞出来的CLIP模型结合到一起。

网友分享在meiguo.com上的图片

为何选择这两个模型?

其中,CLIP不能自己生成图像,但具有很好的图像分类效果。

网友分享在meiguo.com上的图片

它不仅可以理解输入的词语,还能将语义和图像特征联系起来。

也就是说,CLIP有着和人脑极为相似的工作方式,不仅能将CV和NLP从技术上打通,还给他们分配了专门的处理区域。

例如,一旦听到“蜘蛛侠”三个字、或是看到蜘蛛侠的照片,CLIP的某个特殊区域就开始响应,甚至原本用来响应红色和蓝色的区域也会“躁动”。

网友分享在meiguo.com上的图片

而StyleGAN,虽然能实现照片级模拟,生成非常逼真的图像:

网友分享在meiguo.com上的图片

但StyleGAN、StyleGAN2等一系列GAN模型,却没办法独立更改如面部外观、形状或表情等参数,只能像下面这样,从整体、中等、微调等大方向去改变形象:

网友分享在meiguo.com上的图片

如果将CLIP和StyleGAN合成新模型,只需要一句文本信息,它就能帮你P出既逼真、又能控制细节的图像来。

点点鼠标,就能调整效果

事实上,模型的效果也确实不错,功能非常全面。

还自带一个图形界面窗口:用一句话说出需求后,用鼠标就能进行调节。

例如,一键将英国首相鲍里斯·约翰逊(Alexander Boris de Pfeffel Johnson)变成女人:

网友分享在meiguo.com上的图片

还能让他愁眉不展、或是开口大笑:

网友分享在meiguo.com上的图片

不仅能记住一整个人的面部特征,并根据需要换脸、换头发、换妆;还能应用在动物身上,甚至将老虎变成狮子:

网友分享在meiguo.com上的图片

当然,将普通的房子变成哥特式(gothic)建筑也行。

在单个NVIDIA GTX 1080Ti GPU上,进行全局预处理的时间是4个小时。预处理后,就能将不同的文本-图像对应用在上面了。

至于训练的时间,则需要跑10~12个小时,加上优化器后的推理时间是98秒。

网友分享在meiguo.com上的图片

那么,模型的稳定性如何?

即使背景人物不同,在用一句话P图后,它们之间的相似度也能达到73%以上,最高能达到84%。

网友分享在meiguo.com上的图片

也就是说,模型改变特征的效果还是很稳定的。

当然,即使测试效果很好,网友们还是发现了一些图片生成的bug。

例如,网友发现,长着胡子的男性,看起来要比没有胡子的男性更生气?

网友分享在meiguo.com上的图片

有网友在测试后表示,个别效果如“加深男性肤色”(tanned man)确实不够好,需要进行数据清洗。

网友分享在meiguo.com上的图片

除此之外,也有网友建议作者尝试进一步研究,如模型中的偏见性。

例如,试试“成功的男人/女人”、“罪犯”等形容词,看看这个模型会生成什么。

作者介绍:

网友分享在meiguo.com上的图片

一作Or Patashnik,来自特拉维夫大学(Tel-Aviv University),主要研究方向是计算机视觉。

网友分享在meiguo.com上的图片

共同一作吴宗泽(Zongze Wu),来自希伯来大学(Hebrew University of Jerusalem),主要研究方向是计算机视觉,包括GAN、图像处理、图像翻译等。

网友分享在meiguo.com上的图片

三作Eli Shechtman,来自Adobe,研究方向是计算机视觉,包括视频分析与合成、目标和动作识别、图形视觉、图像和视频检索等。

此外,来自特拉维夫大学的Daniel Cohen-Or、和希伯来大学的Dani Lischinski对这篇论文也有贡献。

说不定,Adobe真会将“动口P图”这一功能放进PS中呢。

项目地址:https://github.com/orpatashnik/StyleCLIP

论文地址:https://arxiv.org/abs/2103.17249

出处:头条号 @量子位

meiguo.com 发布人签名/座右铭我已经有美国绿卡了,只差美果绿卡啦!
大家都在看
楼主新近贴
回复/评论列表
默认   热门   正序   倒序
meiguo.com 创始人

emotion

3   2021-04-09 22:08:14  回复

回复/评论:仅需口令即可改造型的APP开源了

暂无用户组 升级
退出
等级:0级
美果:
美过
精华推荐
  1. 中美AI竞争的新格局已定?
  2. 美国的房地产市场显现了矛盾信号
  3. 川普总统宣布加沙战争结束,峰会聚焦“中东和平”!
  4. 外国人的入境中国手续简化,可以提前在网上填报入境卡了!
  5. 2026年版的“公共负担”新规复活,华人家庭遭遇精准打击!
  6. AWS最大区域故障,带崩多项服务!
  7. 感恩节餐桌的费用回落,零售商推出了低价套餐!
  8. 联邦政府启动“红色日落行动” 审查比特币矿机的供应链
  9. 人类史上“最贵CEO”诞生!马斯克的“万亿薪酬”背后
  10. 中美两国元首在釜山会晤:就关税、大豆和稀土已经达成共识
  11. 在海外漂泊12年后的真实感受
  12. 川普总统正式签属涉台法案,解放军示警!
  13. 黄仁勋警示川普政府,再不开放“对华AI芯片出口”就来不及啦!
  14. 美国仍然依赖纸质信件的真相剖析
  15. 中美经贸磋商“展现战略对称”新态势
  16. MIT稳居了CS榜首!美国大学的最新排名出炉
  17. 中美高层通话后… 川普总统计划明年访华,芯片管制也松口了!
  18. ICE启动了在社交媒体的全天候监控项目
  19. 美国政府批准了对台3.3亿美元的军售
  20. 中美航班“绕行俄罗斯领空”政策引关注
  21. 中国已经全额缴纳了联合国会费,联合国的财政危机缓解!
  22. 美国移民局(ICE)新提案打算限制福利使用,有记录者可能影响绿卡申请!
  23. 美国在AI竞争中失利了?阿里千问模型在全球领先
  24. 恢复或加入?重获中国国籍的路径比较
  25. 45岁后“人生黄金期”是认知和创造力的新高峰
  26. 全球高等教育的新趋势:留学生求学地“多元化”
  27. 川普政府终于听说了日本新首相【高市早苗】因为台海表态引发外交危机的事儿了?
  28. 一美分硬币“Penny”铸造历史正式终结
  29. 700万人参与了反川普集会?
  30. 美国“H-1B”签证新规:在境内的申请人,免缴10万美元费用!
  31. 川普政府再次出奇招!拒绝所有胖子的移民申请?
  32. 中美稀土博弈,美国政策在急转直下!
  33. 学习英语12年后,终于实现了“美国梦”!
  34. 美国司法部起诉了柬埔寨“电信诈骗集团”的头目
  35. 中美因为“稀土管制”引发的贸易摩擦升级了
  36. 美国青少年“67”流行语的现象引关注
头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
已有0次打赏
(3) 分享
分享
取消