收藏文章 楼主
仅需口令即可改造型的APP开源了
网友【chuang】 2021-04-09 22:08:14 分享在【时代发展的印记】版块    1    3

现在,Adobe不想让你用手P图了——动动口就行。

只需要你说一句话,计算机就能P出你想要的效果。

例如,说出想要的发型,马斯克就会立刻被剃头:“Hi-top Fade(扫把头),变!”

网友分享在meiguo.com上的图片

肤色、妆容也都能轻松改变,一句“face with/without makeup”就能上妆/卸妆:

网友分享在meiguo.com上的图片
△给霉霉上妆/卸妆

甚至还能直接改变人样,给小李子变出胡子、金发后,变成川普!

网友分享在meiguo.com上的图片

除了人,动物、景物也能P。

输入“cute cat”,就能让图中的猫变成“大眼萌猫”:

网友分享在meiguo.com上的图片

说一句“classic car”,它就能把你的车P成经典古老的车型,还能手动调复古程度:

网友分享在meiguo.com上的图片

简直是手残P图玩家的福音。

没错,这是来自Adobe、希伯来大学、特拉维夫大学的新操作,只需要一句话,就能让计算机“修”出你想要的图片。

现在,项目已经开源。

当GAN遇上CLIP

这一神奇的操作,来自一种新算法:StyleCLIP。

没错,就是将目前最先进的GAN——StyleGAN,和OpenAI搞出来的CLIP模型结合到一起。

网友分享在meiguo.com上的图片

为何选择这两个模型?

其中,CLIP不能自己生成图像,但具有很好的图像分类效果。

网友分享在meiguo.com上的图片

它不仅可以理解输入的词语,还能将语义和图像特征联系起来。

也就是说,CLIP有着和人脑极为相似的工作方式,不仅能将CV和NLP从技术上打通,还给他们分配了专门的处理区域。

例如,一旦听到“蜘蛛侠”三个字、或是看到蜘蛛侠的照片,CLIP的某个特殊区域就开始响应,甚至原本用来响应红色和蓝色的区域也会“躁动”。

网友分享在meiguo.com上的图片

而StyleGAN,虽然能实现照片级模拟,生成非常逼真的图像:

网友分享在meiguo.com上的图片

但StyleGAN、StyleGAN2等一系列GAN模型,却没办法独立更改如面部外观、形状或表情等参数,只能像下面这样,从整体、中等、微调等大方向去改变形象:

网友分享在meiguo.com上的图片

如果将CLIP和StyleGAN合成新模型,只需要一句文本信息,它就能帮你P出既逼真、又能控制细节的图像来。

点点鼠标,就能调整效果

事实上,模型的效果也确实不错,功能非常全面。

还自带一个图形界面窗口:用一句话说出需求后,用鼠标就能进行调节。

例如,一键将英国首相鲍里斯·约翰逊(Alexander Boris de Pfeffel Johnson)变成女人:

网友分享在meiguo.com上的图片

还能让他愁眉不展、或是开口大笑:

网友分享在meiguo.com上的图片

不仅能记住一整个人的面部特征,并根据需要换脸、换头发、换妆;还能应用在动物身上,甚至将老虎变成狮子:

网友分享在meiguo.com上的图片

当然,将普通的房子变成哥特式(gothic)建筑也行。

在单个NVIDIA GTX 1080Ti GPU上,进行全局预处理的时间是4个小时。预处理后,就能将不同的文本-图像对应用在上面了。

至于训练的时间,则需要跑10~12个小时,加上优化器后的推理时间是98秒。

网友分享在meiguo.com上的图片

那么,模型的稳定性如何?

即使背景人物不同,在用一句话P图后,它们之间的相似度也能达到73%以上,最高能达到84%。

网友分享在meiguo.com上的图片

也就是说,模型改变特征的效果还是很稳定的。

当然,即使测试效果很好,网友们还是发现了一些图片生成的bug。

例如,网友发现,长着胡子的男性,看起来要比没有胡子的男性更生气?

网友分享在meiguo.com上的图片

有网友在测试后表示,个别效果如“加深男性肤色”(tanned man)确实不够好,需要进行数据清洗。

网友分享在meiguo.com上的图片

除此之外,也有网友建议作者尝试进一步研究,如模型中的偏见性。

例如,试试“成功的男人/女人”、“罪犯”等形容词,看看这个模型会生成什么。

作者介绍:

网友分享在meiguo.com上的图片

一作Or Patashnik,来自特拉维夫大学(Tel-Aviv University),主要研究方向是计算机视觉。

网友分享在meiguo.com上的图片

共同一作吴宗泽(Zongze Wu),来自希伯来大学(Hebrew University of Jerusalem),主要研究方向是计算机视觉,包括GAN、图像处理、图像翻译等。

网友分享在meiguo.com上的图片

三作Eli Shechtman,来自Adobe,研究方向是计算机视觉,包括视频分析与合成、目标和动作识别、图形视觉、图像和视频检索等。

此外,来自特拉维夫大学的Daniel Cohen-Or、和希伯来大学的Dani Lischinski对这篇论文也有贡献。

说不定,Adobe真会将“动口P图”这一功能放进PS中呢。

项目地址:https://github.com/orpatashnik/StyleCLIP

论文地址:https://arxiv.org/abs/2103.17249

出处:头条号 @量子位

meiguo.com 发布人签名/座右铭我已经有美国绿卡了,只差美果绿卡啦!
大家都在看
楼主新近贴
回复/评论列表
默认   热门   正序   倒序
meiguo.com 创始人

emotion

3   2021-04-09 22:08:14  回复

回复/评论:仅需口令即可改造型的APP开源了

暂无用户组 升级
退出
等级:0级
美果:
美过
精华推荐
  1. 川普政府“双失利”?
  2. 联邦法院驳回了川普政府的“出生公民权”行政令
  3. 在美国买房半年后,总结了两个扎心感受!
  4. 谷歌的科学家已经连续两年摘得了诺贝尔奖
  5. 中美AI竞争的新格局已定?
  6. 中美稀土博弈,美国政策在急转直下!
  7. 联合国大会“史上最尴尬”一幕:他上台后,观众纷纷撤离!
  8. 川普总统签署了备忘录,贩毒集团成为“国家之敌”!
  9. 人类史上“最贵CEO”诞生!马斯克的“万亿薪酬”背后
  10. 中美航班“绕行俄罗斯领空”政策引关注
  11. 美国“H-1B”签证新规:在境内的申请人,免缴10万美元费用!
  12. 川普政府打算发放两千美元的关税补贴
  13. Zillow和Redfin“摊上大事儿”!五大州的总检察长起诉了房产平台合谋做局
  14. 川普总统宣布加沙战争结束,峰会聚焦“中东和平”!
  15. AWS最大区域故障,带崩多项服务!
  16. 中美因为“稀土管制”引发的贸易摩擦升级了
  17. 美国青少年“67”流行语的现象引关注
  18. 我的人生有三个账户!伊隆·马斯克在斯坦福大学的最新演讲
  19. 美国司法部起诉了柬埔寨“电信诈骗集团”的头目
  20. 马斯克的模块化生产技术在革新汽车行业
  21. 美国的房地产市场显现了矛盾信号
  22. 黄仁勋警示川普政府,再不开放“对华AI芯片出口”就来不及啦!
  23. 中美贸易的争端升级,中国实施“长臂管辖”颁布3项针对性措施!
  24. 佛罗里达的一名中学生在AI提问,然后被捕了!
  25. 45岁后“人生黄金期”是认知和创造力的新高峰
  26. 中国已经全额缴纳了联合国会费,联合国的财政危机缓解!
  27. MIT稳居了CS榜首!美国大学的最新排名出炉
  28. 一美分硬币“Penny”铸造历史正式终结
  29. 骨胶水的研发获突破,临床试验显示了安全有效!
  30. 中美两国元首在釜山会晤:就关税、大豆和稀土已经达成共识
  31. 华人购房遭遇国籍歧视,法院裁决后依然隐忧犹存!
  32. 全球高等教育的新趋势:留学生求学地“多元化”
  33. 中美经贸磋商“展现战略对称”新态势
  34. 大学排名更新:顶尖学府稳固,新兴学校快速上升
  35. 700万人参与了反川普集会?
  36. 马斯克成为全球首位身家5000亿美元的富豪

美国动态 美果搜索

Your IP: 216.73.216.184, 2025-11-21 17:04:35

Processed in 0.04884 second(s)

头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
已有0次打赏
(3) 分享
分享
取消