收藏文章 楼主
仅需口令即可改造型的APP开源了
网友【chuang】 2021-04-09 22:08:14 分享在【时代发展的印记】版块    1    3

现在,Adobe不想让你用手P图了——动动口就行。

只需要你说一句话,计算机就能P出你想要的效果。

例如,说出想要的发型,马斯克就会立刻被剃头:“Hi-top Fade(扫把头),变!”

网友分享在meiguo.com上的图片

肤色、妆容也都能轻松改变,一句“face with/without makeup”就能上妆/卸妆:

网友分享在meiguo.com上的图片
△给霉霉上妆/卸妆

甚至还能直接改变人样,给小李子变出胡子、金发后,变成川普!

网友分享在meiguo.com上的图片

除了人,动物、景物也能P。

输入“cute cat”,就能让图中的猫变成“大眼萌猫”:

网友分享在meiguo.com上的图片

说一句“classic car”,它就能把你的车P成经典古老的车型,还能手动调复古程度:

网友分享在meiguo.com上的图片

简直是手残P图玩家的福音。

没错,这是来自Adobe、希伯来大学、特拉维夫大学的新操作,只需要一句话,就能让计算机“修”出你想要的图片。

现在,项目已经开源。

当GAN遇上CLIP

这一神奇的操作,来自一种新算法:StyleCLIP。

没错,就是将目前最先进的GAN——StyleGAN,和OpenAI搞出来的CLIP模型结合到一起。

网友分享在meiguo.com上的图片

为何选择这两个模型?

其中,CLIP不能自己生成图像,但具有很好的图像分类效果。

网友分享在meiguo.com上的图片

它不仅可以理解输入的词语,还能将语义和图像特征联系起来。

也就是说,CLIP有着和人脑极为相似的工作方式,不仅能将CV和NLP从技术上打通,还给他们分配了专门的处理区域。

例如,一旦听到“蜘蛛侠”三个字、或是看到蜘蛛侠的照片,CLIP的某个特殊区域就开始响应,甚至原本用来响应红色和蓝色的区域也会“躁动”。

网友分享在meiguo.com上的图片

而StyleGAN,虽然能实现照片级模拟,生成非常逼真的图像:

网友分享在meiguo.com上的图片

但StyleGAN、StyleGAN2等一系列GAN模型,却没办法独立更改如面部外观、形状或表情等参数,只能像下面这样,从整体、中等、微调等大方向去改变形象:

网友分享在meiguo.com上的图片

如果将CLIP和StyleGAN合成新模型,只需要一句文本信息,它就能帮你P出既逼真、又能控制细节的图像来。

点点鼠标,就能调整效果

事实上,模型的效果也确实不错,功能非常全面。

还自带一个图形界面窗口:用一句话说出需求后,用鼠标就能进行调节。

例如,一键将英国首相鲍里斯·约翰逊(Alexander Boris de Pfeffel Johnson)变成女人:

网友分享在meiguo.com上的图片

还能让他愁眉不展、或是开口大笑:

网友分享在meiguo.com上的图片

不仅能记住一整个人的面部特征,并根据需要换脸、换头发、换妆;还能应用在动物身上,甚至将老虎变成狮子:

网友分享在meiguo.com上的图片

当然,将普通的房子变成哥特式(gothic)建筑也行。

在单个NVIDIA GTX 1080Ti GPU上,进行全局预处理的时间是4个小时。预处理后,就能将不同的文本-图像对应用在上面了。

至于训练的时间,则需要跑10~12个小时,加上优化器后的推理时间是98秒。

网友分享在meiguo.com上的图片

那么,模型的稳定性如何?

即使背景人物不同,在用一句话P图后,它们之间的相似度也能达到73%以上,最高能达到84%。

网友分享在meiguo.com上的图片

也就是说,模型改变特征的效果还是很稳定的。

当然,即使测试效果很好,网友们还是发现了一些图片生成的bug。

例如,网友发现,长着胡子的男性,看起来要比没有胡子的男性更生气?

网友分享在meiguo.com上的图片

有网友在测试后表示,个别效果如“加深男性肤色”(tanned man)确实不够好,需要进行数据清洗。

网友分享在meiguo.com上的图片

除此之外,也有网友建议作者尝试进一步研究,如模型中的偏见性。

例如,试试“成功的男人/女人”、“罪犯”等形容词,看看这个模型会生成什么。

作者介绍:

网友分享在meiguo.com上的图片

一作Or Patashnik,来自特拉维夫大学(Tel-Aviv University),主要研究方向是计算机视觉。

网友分享在meiguo.com上的图片

共同一作吴宗泽(Zongze Wu),来自希伯来大学(Hebrew University of Jerusalem),主要研究方向是计算机视觉,包括GAN、图像处理、图像翻译等。

网友分享在meiguo.com上的图片

三作Eli Shechtman,来自Adobe,研究方向是计算机视觉,包括视频分析与合成、目标和动作识别、图形视觉、图像和视频检索等。

此外,来自特拉维夫大学的Daniel Cohen-Or、和希伯来大学的Dani Lischinski对这篇论文也有贡献。

说不定,Adobe真会将“动口P图”这一功能放进PS中呢。

项目地址:https://github.com/orpatashnik/StyleCLIP

论文地址:https://arxiv.org/abs/2103.17249

出处:头条号 @量子位

meiguo.com 发布人签名/座右铭我已经有美国绿卡了,只差美果绿卡啦!
大家都在看
楼主新近贴
回复/评论列表
默认   热门   正序   倒序
meiguo.com 创始人

emotion

3   2021-04-09 22:08:14  回复

回复/评论:仅需口令即可改造型的APP开源了

暂无用户组 升级
退出
等级:0级
美果:
美过
精华推荐
  1. 嘴唇经常干裂起皮,或许并非缺水!
  2. 互联网女皇“340页AI报告”猛料刷屏
  3. 中美两国元首针对当下双边关系和经贸合作,☎️通话交流!
  4. 美国“非法移民家庭”遣返行动引发了“婴幼儿无国籍”的危机
  5. 全球AI人才的争夺战白热化,顶尖研究员成为了科技巨头争夺焦点
  6. 马斯克打算组建新党“美国党”代表中间派
  7. 判刑15年!发币ICO的定性为诈骗
  8. 中美通话的内容简短,但意味深长!
  9. 中美贸易战的谈判再起,稀土贸易成为焦点
  10. 美国对华为“HarmonyOS”采取行动,引发科技领域的新争议!
  11. 美国新法案“大漂亮”引发了全球资本配置大调整
  12. QQ等级256级用户诞生,首次解锁“时光企鹅”图标!
  13. 美国暂停了学生签证预约,申请者在社交媒体平台的活动须谨慎!
  14. 手机充电习惯是影响电池寿命的根本原因
  15. 美国房价仍然高位,“美国梦”成奢望!
  16. 英国2岁男童竟然刷新了门萨俱乐部“最年轻男性”会员纪录
  17. 属于中国的世纪可能已经到来
  18. 鲁比奥声称将会收紧中国留学生的签证审批政策
  19. 川普总统:加拿大可以免费加入“金穹”导弹防御系统
  20. 马斯克的“130天政府生涯”终结后…
  21. 金星地壳似乎剧烈变化了,NASA即将启动新任务探索求证!
  22. 川普家族“哈佛风波”和签证政策的突变
  23. “蜗居”纽约的中国穷人:男女同住,毫无私隐… 却坚持不肯回国
  24. 难怪马斯克公开认错… 川普总统的相关杀器可以更多?
  25. 韦伯望远镜(JWST)发布迄今为止最大的早期宇宙地图
  26. 川普政府的关税政策或将加速中国崛起,助力中国成为全球的经济主导力量!
  27. 川普和马斯克的公开交锋升级了
  28. 任天堂的Switch 2正式发售,参数细节全曝光!
  29. 川普总统宣布“金卡计划”网站开放
  30. 在美国,千万别做的这些事盘点!
  31. 世界瞩目的电话,十个不寻常的细节剖析!
  32. 能熟练运用AI也不行?硅谷的40万人在近期被炒鱿鱼
  33. 盖茨列出了10项改变世界的技术名单
  34. 美国移民新机遇:紧缺人才的绿卡通道“无需排期”
  35. 马斯克声称川普在“爱泼斯坦名单”,白宫回应:局面令人遗憾!
  36. 美国联邦调查局警示:“新型医疗保险”骗局泛滥

美国动态 美果搜索

Your IP: 216.73.216.52, 2025-07-18 04:35:15

Processed in 0.14497 second(s)

头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息