收藏文章 楼主
仅需口令即可改造型的APP开源了
网友【chuang】 2021-04-09 22:08:14 分享在【时代发展的印记】版块    1    3

现在,Adobe不想让你用手P图了——动动口就行。

只需要你说一句话,计算机就能P出你想要的效果。

例如,说出想要的发型,马斯克就会立刻被剃头:“Hi-top Fade(扫把头),变!”

网友分享在meiguo.com上的图片

肤色、妆容也都能轻松改变,一句“face with/without makeup”就能上妆/卸妆:

网友分享在meiguo.com上的图片
△给霉霉上妆/卸妆

甚至还能直接改变人样,给小李子变出胡子、金发后,变成川普!

网友分享在meiguo.com上的图片

除了人,动物、景物也能P。

输入“cute cat”,就能让图中的猫变成“大眼萌猫”:

网友分享在meiguo.com上的图片

说一句“classic car”,它就能把你的车P成经典古老的车型,还能手动调复古程度:

网友分享在meiguo.com上的图片

简直是手残P图玩家的福音。

没错,这是来自Adobe、希伯来大学、特拉维夫大学的新操作,只需要一句话,就能让计算机“修”出你想要的图片。

现在,项目已经开源。

当GAN遇上CLIP

这一神奇的操作,来自一种新算法:StyleCLIP。

没错,就是将目前最先进的GAN——StyleGAN,和OpenAI搞出来的CLIP模型结合到一起。

网友分享在meiguo.com上的图片

为何选择这两个模型?

其中,CLIP不能自己生成图像,但具有很好的图像分类效果。

网友分享在meiguo.com上的图片

它不仅可以理解输入的词语,还能将语义和图像特征联系起来。

也就是说,CLIP有着和人脑极为相似的工作方式,不仅能将CV和NLP从技术上打通,还给他们分配了专门的处理区域。

例如,一旦听到“蜘蛛侠”三个字、或是看到蜘蛛侠的照片,CLIP的某个特殊区域就开始响应,甚至原本用来响应红色和蓝色的区域也会“躁动”。

网友分享在meiguo.com上的图片

而StyleGAN,虽然能实现照片级模拟,生成非常逼真的图像:

网友分享在meiguo.com上的图片

但StyleGAN、StyleGAN2等一系列GAN模型,却没办法独立更改如面部外观、形状或表情等参数,只能像下面这样,从整体、中等、微调等大方向去改变形象:

网友分享在meiguo.com上的图片

如果将CLIP和StyleGAN合成新模型,只需要一句文本信息,它就能帮你P出既逼真、又能控制细节的图像来。

点点鼠标,就能调整效果

事实上,模型的效果也确实不错,功能非常全面。

还自带一个图形界面窗口:用一句话说出需求后,用鼠标就能进行调节。

例如,一键将英国首相鲍里斯·约翰逊(Alexander Boris de Pfeffel Johnson)变成女人:

网友分享在meiguo.com上的图片

还能让他愁眉不展、或是开口大笑:

网友分享在meiguo.com上的图片

不仅能记住一整个人的面部特征,并根据需要换脸、换头发、换妆;还能应用在动物身上,甚至将老虎变成狮子:

网友分享在meiguo.com上的图片

当然,将普通的房子变成哥特式(gothic)建筑也行。

在单个NVIDIA GTX 1080Ti GPU上,进行全局预处理的时间是4个小时。预处理后,就能将不同的文本-图像对应用在上面了。

至于训练的时间,则需要跑10~12个小时,加上优化器后的推理时间是98秒。

网友分享在meiguo.com上的图片

那么,模型的稳定性如何?

即使背景人物不同,在用一句话P图后,它们之间的相似度也能达到73%以上,最高能达到84%。

网友分享在meiguo.com上的图片

也就是说,模型改变特征的效果还是很稳定的。

当然,即使测试效果很好,网友们还是发现了一些图片生成的bug。

例如,网友发现,长着胡子的男性,看起来要比没有胡子的男性更生气?

网友分享在meiguo.com上的图片

有网友在测试后表示,个别效果如“加深男性肤色”(tanned man)确实不够好,需要进行数据清洗。

网友分享在meiguo.com上的图片

除此之外,也有网友建议作者尝试进一步研究,如模型中的偏见性。

例如,试试“成功的男人/女人”、“罪犯”等形容词,看看这个模型会生成什么。

作者介绍:

网友分享在meiguo.com上的图片

一作Or Patashnik,来自特拉维夫大学(Tel-Aviv University),主要研究方向是计算机视觉。

网友分享在meiguo.com上的图片

共同一作吴宗泽(Zongze Wu),来自希伯来大学(Hebrew University of Jerusalem),主要研究方向是计算机视觉,包括GAN、图像处理、图像翻译等。

网友分享在meiguo.com上的图片

三作Eli Shechtman,来自Adobe,研究方向是计算机视觉,包括视频分析与合成、目标和动作识别、图形视觉、图像和视频检索等。

此外,来自特拉维夫大学的Daniel Cohen-Or、和希伯来大学的Dani Lischinski对这篇论文也有贡献。

说不定,Adobe真会将“动口P图”这一功能放进PS中呢。

项目地址:https://github.com/orpatashnik/StyleCLIP

论文地址:https://arxiv.org/abs/2103.17249

出处:头条号 @量子位

meiguo.com 发布人签名/座右铭我已经有美国绿卡了,只差美果绿卡啦!
大家都在看
楼主新近贴
回复/评论列表
默认   热门   正序   倒序
meiguo.com 创始人

emotion

3   2021-04-09 22:08:14  回复

回复/评论:仅需口令即可改造型的APP开源了

暂无用户组 升级
退出
等级:0级
美果:
美过
精华推荐
  1. 川普总统签署了“对等关税令” 引发全球震荡
  2. 川普政府打算“发钱啦”
  3. “全球最强护照”排行榜又更新了(2025版)
  4. 美国国会通过了减税法案,马斯克和川普总统再次激烈交锋!
  5. 萝莉岛是美国的政治中心?马斯克并非不懂政治,而是太懂了!
  6. 美国再次宣布退出联合国教科文组织
  7. 中美经贸谈判重启,瑞典磋商和商界代表团访华“双管齐下”
  8. 房子属于你,但你得付费受他们管着!关于美国HOA
  9. 比尔盖茨的财富突然蒸发了510亿美元,真相却令人肃然起敬!
  10. 麻省理工学院发布AI学习平台“MIT Learn”
  11. 川普政府在力推药价改革和数字医疗系统
  12. 广西防城港“奔驰女司机事件”引发全网热议
  13. 在美国可以感受欧洲风情的五座小镇
  14. 中美连谈5小时,川普总统公开感叹“中国太强硬”… 英伟达在加紧扩大芯片出口量
  15. 中国政府在构筑战略资源防线,重拳打击稀土走私!
  16. 苹果投资了6000亿美元,加速“美国制造”计划!
  17. 难怪马斯克公开认错… 川普总统的相关杀器可以更多?
  18. 蔡文胜的2025大动作之五,香港投资版图在持续扩张!
  19. 川普总统声称希望中国“增加美油采购”
  20. 突然“失去住持”的少林寺情况如何了?
  21. “外星来客”以每小时21.6万公里的速度向地球飞来
  22. 川普总统批评支持者,马斯克激烈回应!
  23. 健身网红在飞机上的着装引争议
  24. 中国🇨🇳开始质疑英伟达芯片“存后门”
  25. 遥控器电池,被幼儿误吞… 欧系保险公司赔付了近1.4亿元人民币!
  26. 孩子沉迷手机的真相和破局之道
  27. 英伟达的市值突破了四万亿美元,创人类历史纪录!
  28. 核聚变技术或将成为黄金价格的颠覆者
  29. 川普政府计划改革移民签证制度和入籍考试
  30. 移民并非背叛,是一种勇敢的人生轨迹选择!
  31. 宗庆后家族的多处海外房产曝光,价值数亿元!
  32. 美国移民新机遇:紧缺人才的绿卡通道“无需排期”
  33. 川普总统“访华表态”继续反复
  34. 为激励员工,OpenAI打算豪掷96亿美元!
  35. 疯狂打压华人精英,勒令华人CEO辞职… 川普政府的致命错误?
  36. 川普政府的对华政策突然改变了?

美国动态 美果搜索

Your IP: 216.73.216.163, 2025-08-17 23:39:57

Processed in 0.82424 second(s)

头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
已有0次打赏
(3) 分享
分享
取消