收藏文章 楼主
仅需口令即可改造型的APP开源了
网友【chuang】 2021-04-09 22:08:14 分享在【时代发展的印记】版块    1    3

现在,Adobe不想让你用手P图了——动动口就行。

只需要你说一句话,计算机就能P出你想要的效果。

例如,说出想要的发型,马斯克就会立刻被剃头:“Hi-top Fade(扫把头),变!”

网友分享在meiguo.com上的图片

肤色、妆容也都能轻松改变,一句“face with/without makeup”就能上妆/卸妆:

网友分享在meiguo.com上的图片
△给霉霉上妆/卸妆

甚至还能直接改变人样,给小李子变出胡子、金发后,变成川普!

网友分享在meiguo.com上的图片

除了人,动物、景物也能P。

输入“cute cat”,就能让图中的猫变成“大眼萌猫”:

网友分享在meiguo.com上的图片

说一句“classic car”,它就能把你的车P成经典古老的车型,还能手动调复古程度:

网友分享在meiguo.com上的图片

简直是手残P图玩家的福音。

没错,这是来自Adobe、希伯来大学、特拉维夫大学的新操作,只需要一句话,就能让计算机“修”出你想要的图片。

现在,项目已经开源。

当GAN遇上CLIP

这一神奇的操作,来自一种新算法:StyleCLIP。

没错,就是将目前最先进的GAN——StyleGAN,和OpenAI搞出来的CLIP模型结合到一起。

网友分享在meiguo.com上的图片

为何选择这两个模型?

其中,CLIP不能自己生成图像,但具有很好的图像分类效果。

网友分享在meiguo.com上的图片

它不仅可以理解输入的词语,还能将语义和图像特征联系起来。

也就是说,CLIP有着和人脑极为相似的工作方式,不仅能将CV和NLP从技术上打通,还给他们分配了专门的处理区域。

例如,一旦听到“蜘蛛侠”三个字、或是看到蜘蛛侠的照片,CLIP的某个特殊区域就开始响应,甚至原本用来响应红色和蓝色的区域也会“躁动”。

网友分享在meiguo.com上的图片

而StyleGAN,虽然能实现照片级模拟,生成非常逼真的图像:

网友分享在meiguo.com上的图片

但StyleGAN、StyleGAN2等一系列GAN模型,却没办法独立更改如面部外观、形状或表情等参数,只能像下面这样,从整体、中等、微调等大方向去改变形象:

网友分享在meiguo.com上的图片

如果将CLIP和StyleGAN合成新模型,只需要一句文本信息,它就能帮你P出既逼真、又能控制细节的图像来。

点点鼠标,就能调整效果

事实上,模型的效果也确实不错,功能非常全面。

还自带一个图形界面窗口:用一句话说出需求后,用鼠标就能进行调节。

例如,一键将英国首相鲍里斯·约翰逊(Alexander Boris de Pfeffel Johnson)变成女人:

网友分享在meiguo.com上的图片

还能让他愁眉不展、或是开口大笑:

网友分享在meiguo.com上的图片

不仅能记住一整个人的面部特征,并根据需要换脸、换头发、换妆;还能应用在动物身上,甚至将老虎变成狮子:

网友分享在meiguo.com上的图片

当然,将普通的房子变成哥特式(gothic)建筑也行。

在单个NVIDIA GTX 1080Ti GPU上,进行全局预处理的时间是4个小时。预处理后,就能将不同的文本-图像对应用在上面了。

至于训练的时间,则需要跑10~12个小时,加上优化器后的推理时间是98秒。

网友分享在meiguo.com上的图片

那么,模型的稳定性如何?

即使背景人物不同,在用一句话P图后,它们之间的相似度也能达到73%以上,最高能达到84%。

网友分享在meiguo.com上的图片

也就是说,模型改变特征的效果还是很稳定的。

当然,即使测试效果很好,网友们还是发现了一些图片生成的bug。

例如,网友发现,长着胡子的男性,看起来要比没有胡子的男性更生气?

网友分享在meiguo.com上的图片

有网友在测试后表示,个别效果如“加深男性肤色”(tanned man)确实不够好,需要进行数据清洗。

网友分享在meiguo.com上的图片

除此之外,也有网友建议作者尝试进一步研究,如模型中的偏见性。

例如,试试“成功的男人/女人”、“罪犯”等形容词,看看这个模型会生成什么。

作者介绍:

网友分享在meiguo.com上的图片

一作Or Patashnik,来自特拉维夫大学(Tel-Aviv University),主要研究方向是计算机视觉。

网友分享在meiguo.com上的图片

共同一作吴宗泽(Zongze Wu),来自希伯来大学(Hebrew University of Jerusalem),主要研究方向是计算机视觉,包括GAN、图像处理、图像翻译等。

网友分享在meiguo.com上的图片

三作Eli Shechtman,来自Adobe,研究方向是计算机视觉,包括视频分析与合成、目标和动作识别、图形视觉、图像和视频检索等。

此外,来自特拉维夫大学的Daniel Cohen-Or、和希伯来大学的Dani Lischinski对这篇论文也有贡献。

说不定,Adobe真会将“动口P图”这一功能放进PS中呢。

项目地址:https://github.com/orpatashnik/StyleCLIP

论文地址:https://arxiv.org/abs/2103.17249

出处:头条号 @量子位

meiguo.com 发布人签名/座右铭我已经有美国绿卡了,只差美果绿卡啦!
大家都在看
楼主新近贴
回复/评论列表
默认   热门   正序   倒序
meiguo.com 创始人

emotion

3   2021-04-09 22:08:14  回复

回复/评论:仅需口令即可改造型的APP开源了

暂无用户组 升级
退出
等级:0级
美果:
美过
精华推荐
  1. 持中国大陆护照在申请美国签证的注意事项更新(2025年8月版本)
  2. 马斯克“xAI”起诉前工程师“泄露机密”
  3. 美国华裔二代坦言:中国发展现状,让父辈移民后悔了!
  4. 美国市场的智能手机“印度制造”的份额激增
  5. 2025年度的美国公立高中排名发布,咱只关注前三!
  6. 房子属于你,但你得付费受他们管着!关于美国HOA
  7. 中国留学生在入境美国时遭遇驱逐,禁止五年内再入境!
  8. ICE抓捕的非法移民中,中国人数量激增?
  9. Niche发布2026全美最佳大学榜单 MIT重回榜首
  10. 先交押金!美国重启了“签证保证金”试点计划
  11. 启程回国:美元很香,但回家的路更香!
  12. 不输常春藤!盘点学费低、薪资高的25所美国公立大学
  13. 休斯顿机场“小黑屋内的铝箔纸”:中国留学生遭遇遣返的36小时煎熬
  14. 华人科学家身陷“杀猪盘”,短短数月就被掏光250万美元积蓄!
  15. 从近期的中国留学生在美国入境的悲惨遭遇说起
  16. YouTube“反诈频道”助力警方,破获6500万美元诈骗案!
  17. SpaceX的星舰“第十次试飞”成功了
  18. 全美房地产市场在趋向中性,区域分化明显!
  19. 白宫开通了TikTok 账号,传播政策信息!
  20. 美国年轻人的“中国观”悄然转变
  21. 川普家族竟然靠它狂揽45亿美金!操盘手是赵长鹏?
  22. 华人留学生“索赔1亿美元控诉”大学期间的农药伤害
  23. 工作日没空?周末集中运动同样有益健康!
  24. 麦当劳CEO声称美国品牌的声誉在全球下滑
  25. 敌友即友?马斯克和扎克伯格开始接触,图谋合伙收购OpenAI?
  26. 植物油更健康?动物油脂摄入或将加速肿瘤生长
  27. 从美国回到中国的,基本都会被问及这些问题!
  28. 选择西雅图、圣地亚哥还是洛杉矶?全面对比“三城生活”
  29. 疯狂打压华人精英,勒令华人CEO辞职… 川普政府的致命错误?
  30. 中国留学生在入境美国时遭遇盘查,中方大使馆发布安全提醒!
  31. 相差3米!星舰试飞“精准溅落”展现技术突破
  32. 为激励员工,OpenAI打算豪掷96亿美元!
  33. 蔡文胜的2025大动作之五,香港投资版图在持续扩张!
  34. 川普总统的态度突变,暗示乌克兰应该反击俄罗斯本土?
  35. 加州州长竟然模仿川普总统的风格发帖,粉丝数和支持率“都涨了”!
  36. 美国“真放宽”了对中国留学生的入境政策?

美国动态 美果搜索

Your IP: 216.73.216.36, 2025-09-12 06:28:53

Processed in 0.92615 second(s)

头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
已有0次打赏
(3) 分享
分享
取消