收藏文章 楼主
仅需口令即可改造型的APP开源了
网友【chuang】 2021-04-09 22:08:14 分享在【时代发展的印记】版块    1    3

现在,Adobe不想让你用手P图了——动动口就行。

只需要你说一句话,计算机就能P出你想要的效果。

例如,说出想要的发型,马斯克就会立刻被剃头:“Hi-top Fade(扫把头),变!”

网友分享在meiguo.com上的图片

肤色、妆容也都能轻松改变,一句“face with/without makeup”就能上妆/卸妆:

网友分享在meiguo.com上的图片
△给霉霉上妆/卸妆

甚至还能直接改变人样,给小李子变出胡子、金发后,变成川普!

网友分享在meiguo.com上的图片

除了人,动物、景物也能P。

输入“cute cat”,就能让图中的猫变成“大眼萌猫”:

网友分享在meiguo.com上的图片

说一句“classic car”,它就能把你的车P成经典古老的车型,还能手动调复古程度:

网友分享在meiguo.com上的图片

简直是手残P图玩家的福音。

没错,这是来自Adobe、希伯来大学、特拉维夫大学的新操作,只需要一句话,就能让计算机“修”出你想要的图片。

现在,项目已经开源。

当GAN遇上CLIP

这一神奇的操作,来自一种新算法:StyleCLIP。

没错,就是将目前最先进的GAN——StyleGAN,和OpenAI搞出来的CLIP模型结合到一起。

网友分享在meiguo.com上的图片

为何选择这两个模型?

其中,CLIP不能自己生成图像,但具有很好的图像分类效果。

网友分享在meiguo.com上的图片

它不仅可以理解输入的词语,还能将语义和图像特征联系起来。

也就是说,CLIP有着和人脑极为相似的工作方式,不仅能将CV和NLP从技术上打通,还给他们分配了专门的处理区域。

例如,一旦听到“蜘蛛侠”三个字、或是看到蜘蛛侠的照片,CLIP的某个特殊区域就开始响应,甚至原本用来响应红色和蓝色的区域也会“躁动”。

网友分享在meiguo.com上的图片

而StyleGAN,虽然能实现照片级模拟,生成非常逼真的图像:

网友分享在meiguo.com上的图片

但StyleGAN、StyleGAN2等一系列GAN模型,却没办法独立更改如面部外观、形状或表情等参数,只能像下面这样,从整体、中等、微调等大方向去改变形象:

网友分享在meiguo.com上的图片

如果将CLIP和StyleGAN合成新模型,只需要一句文本信息,它就能帮你P出既逼真、又能控制细节的图像来。

点点鼠标,就能调整效果

事实上,模型的效果也确实不错,功能非常全面。

还自带一个图形界面窗口:用一句话说出需求后,用鼠标就能进行调节。

例如,一键将英国首相鲍里斯·约翰逊(Alexander Boris de Pfeffel Johnson)变成女人:

网友分享在meiguo.com上的图片

还能让他愁眉不展、或是开口大笑:

网友分享在meiguo.com上的图片

不仅能记住一整个人的面部特征,并根据需要换脸、换头发、换妆;还能应用在动物身上,甚至将老虎变成狮子:

网友分享在meiguo.com上的图片

当然,将普通的房子变成哥特式(gothic)建筑也行。

在单个NVIDIA GTX 1080Ti GPU上,进行全局预处理的时间是4个小时。预处理后,就能将不同的文本-图像对应用在上面了。

至于训练的时间,则需要跑10~12个小时,加上优化器后的推理时间是98秒。

网友分享在meiguo.com上的图片

那么,模型的稳定性如何?

即使背景人物不同,在用一句话P图后,它们之间的相似度也能达到73%以上,最高能达到84%。

网友分享在meiguo.com上的图片

也就是说,模型改变特征的效果还是很稳定的。

当然,即使测试效果很好,网友们还是发现了一些图片生成的bug。

例如,网友发现,长着胡子的男性,看起来要比没有胡子的男性更生气?

网友分享在meiguo.com上的图片

有网友在测试后表示,个别效果如“加深男性肤色”(tanned man)确实不够好,需要进行数据清洗。

网友分享在meiguo.com上的图片

除此之外,也有网友建议作者尝试进一步研究,如模型中的偏见性。

例如,试试“成功的男人/女人”、“罪犯”等形容词,看看这个模型会生成什么。

作者介绍:

网友分享在meiguo.com上的图片

一作Or Patashnik,来自特拉维夫大学(Tel-Aviv University),主要研究方向是计算机视觉。

网友分享在meiguo.com上的图片

共同一作吴宗泽(Zongze Wu),来自希伯来大学(Hebrew University of Jerusalem),主要研究方向是计算机视觉,包括GAN、图像处理、图像翻译等。

网友分享在meiguo.com上的图片

三作Eli Shechtman,来自Adobe,研究方向是计算机视觉,包括视频分析与合成、目标和动作识别、图形视觉、图像和视频检索等。

此外,来自特拉维夫大学的Daniel Cohen-Or、和希伯来大学的Dani Lischinski对这篇论文也有贡献。

说不定,Adobe真会将“动口P图”这一功能放进PS中呢。

项目地址:https://github.com/orpatashnik/StyleCLIP

论文地址:https://arxiv.org/abs/2103.17249

出处:头条号 @量子位

meiguo.com 发布人签名/座右铭我已经有美国绿卡了,只差美果绿卡啦!
大家都在看
楼主新近贴
回复/评论列表
默认   热门   正序   倒序
meiguo.com 创始人

emotion

3   2021-04-09 22:08:14  回复

回复/评论:仅需口令即可改造型的APP开源了

暂无用户组 升级
退出
等级:0级
美果:
美过
精华推荐
  1. 2025年度的美国公立高中排名发布,咱只关注前三!
  2. 持中国大陆护照在申请美国签证的注意事项更新(2025年8月版本)
  3. YouTube“反诈频道”助力警方,破获6500万美元诈骗案!
  4. 美国“真放宽”了对中国留学生的入境政策?
  5. 植物油更健康?动物油脂摄入或将加速肿瘤生长
  6. 蔡文胜的2025大动作之五,香港投资版图在持续扩张!
  7. 启程回国:美元很香,但回家的路更香!
  8. 从近期的中国留学生在美国入境的悲惨遭遇说起
  9. 白宫开通了TikTok 账号,传播政策信息!
  10. 休斯顿机场“小黑屋内的铝箔纸”:中国留学生遭遇遣返的36小时煎熬
  11. 选择西雅图、圣地亚哥还是洛杉矶?全面对比“三城生活”
  12. 中国留学生在入境美国时遭遇驱逐,禁止五年内再入境!
  13. ICE抓捕的非法移民中,中国人数量激增?
  14. 马斯克“xAI”起诉前工程师“泄露机密”
  15. 麦当劳CEO声称美国品牌的声誉在全球下滑
  16. 川普家族竟然靠它狂揽45亿美金!操盘手是赵长鹏?
  17. 全美房地产市场在趋向中性,区域分化明显!
  18. 敌友即友?马斯克和扎克伯格开始接触,图谋合伙收购OpenAI?
  19. Niche发布2026全美最佳大学榜单 MIT重回榜首
  20. 美国华裔二代坦言:中国发展现状,让父辈移民后悔了!
  21. 从美国回到中国的,基本都会被问及这些问题!
  22. 华人科学家身陷“杀猪盘”,短短数月就被掏光250万美元积蓄!
  23. 加州州长竟然模仿川普总统的风格发帖,粉丝数和支持率“都涨了”!
  24. 房子属于你,但你得付费受他们管着!关于美国HOA
  25. 相差3米!星舰试飞“精准溅落”展现技术突破
  26. 华人留学生“索赔1亿美元控诉”大学期间的农药伤害
  27. 中国留学生在入境美国时遭遇盘查,中方大使馆发布安全提醒!
  28. 工作日没空?周末集中运动同样有益健康!
  29. SpaceX的星舰“第十次试飞”成功了
  30. 川普总统的态度突变,暗示乌克兰应该反击俄罗斯本土?
  31. 美国市场的智能手机“印度制造”的份额激增
  32. 美国年轻人的“中国观”悄然转变
  33. 不输常春藤!盘点学费低、薪资高的25所美国公立大学
  34. 先交押金!美国重启了“签证保证金”试点计划
  35. 疯狂打压华人精英,勒令华人CEO辞职… 川普政府的致命错误?
  36. 为激励员工,OpenAI打算豪掷96亿美元!

美国动态 美果搜索

Your IP: 216.73.216.36, 2025-09-12 04:04:19

Processed in 0.09204 second(s)

头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
已有0次打赏
(3) 分享
分享
取消