仅需口令即可改造型的APP开源了 – 时代发展的印记 – meiguo.com

✓

免费发贴 ⚡ 曝光 » 赚美果 🍒

收藏文章楼主

仅需口令即可改造型的APP开源了

网友【chuang】 2021-04-09 22:08:14 分享在【时代发展的印记】版块 1 3

现在，Adobe不想让你用手P图了——动动口就行。

只需要你说一句话，计算机就能P出你想要的效果。

例如，说出想要的发型，马斯克就会立刻被剃头：“Hi-top Fade（扫把头），变！”

网友分享在meiguo.com上的图片

肤色、妆容也都能轻松改变，一句“face with/without makeup”就能上妆/卸妆：

网友分享在meiguo.com上的图片
△给霉霉上妆/卸妆

甚至还能直接改变人样，给小李子变出胡子、金发后，变成川普！

网友分享在meiguo.com上的图片

除了人，动物、景物也能P。

输入“cute cat”，就能让图中的猫变成“大眼萌猫”：

网友分享在meiguo.com上的图片

说一句“classic car”，它就能把你的车P成经典古老的车型，还能手动调复古程度：

网友分享在meiguo.com上的图片

简直是手残P图玩家的福音。

没错，这是来自Adobe、希伯来大学、特拉维夫大学的新操作，只需要一句话，就能让计算机“修”出你想要的图片。

现在，项目已经开源。

当GAN遇上CLIP

这一神奇的操作，来自一种新算法：StyleCLIP。

没错，就是将目前最先进的GAN——StyleGAN，和OpenAI搞出来的CLIP模型结合到一起。

网友分享在meiguo.com上的图片

为何选择这两个模型？

其中，CLIP不能自己生成图像，但具有很好的图像分类效果。

网友分享在meiguo.com上的图片

它不仅可以理解输入的词语，还能将语义和图像特征联系起来。

也就是说，CLIP有着和人脑极为相似的工作方式，不仅能将CV和NLP从技术上打通，还给他们分配了专门的处理区域。

例如，一旦听到“蜘蛛侠”三个字、或是看到蜘蛛侠的照片，CLIP的某个特殊区域就开始响应，甚至原本用来响应红色和蓝色的区域也会“躁动”。

网友分享在meiguo.com上的图片

而StyleGAN，虽然能实现照片级模拟，生成非常逼真的图像：

网友分享在meiguo.com上的图片

但StyleGAN、StyleGAN2等一系列GAN模型，却没办法独立更改如面部外观、形状或表情等参数，只能像下面这样，从整体、中等、微调等大方向去改变形象：

网友分享在meiguo.com上的图片

如果将CLIP和StyleGAN合成新模型，只需要一句文本信息，它就能帮你P出既逼真、又能控制细节的图像来。

点点鼠标，就能调整效果

事实上，模型的效果也确实不错，功能非常全面。

还自带一个图形界面窗口：用一句话说出需求后，用鼠标就能进行调节。

例如，一键将英国首相鲍里斯·约翰逊（Alexander Boris de Pfeffel Johnson）变成女人：

网友分享在meiguo.com上的图片

还能让他愁眉不展、或是开口大笑：

网友分享在meiguo.com上的图片

不仅能记住一整个人的面部特征，并根据需要换脸、换头发、换妆；还能应用在动物身上，甚至将老虎变成狮子：

网友分享在meiguo.com上的图片

当然，将普通的房子变成哥特式（gothic）建筑也行。

在单个NVIDIA GTX 1080Ti GPU上，进行全局预处理的时间是4个小时。预处理后，就能将不同的文本-图像对应用在上面了。

至于训练的时间，则需要跑10~12个小时，加上优化器后的推理时间是98秒。

网友分享在meiguo.com上的图片

那么，模型的稳定性如何？

即使背景人物不同，在用一句话P图后，它们之间的相似度也能达到73%以上，最高能达到84%。

网友分享在meiguo.com上的图片

也就是说，模型改变特征的效果还是很稳定的。

当然，即使测试效果很好，网友们还是发现了一些图片生成的bug。

例如，网友发现，长着胡子的男性，看起来要比没有胡子的男性更生气？

网友分享在meiguo.com上的图片

有网友在测试后表示，个别效果如“加深男性肤色”（tanned man）确实不够好，需要进行数据清洗。

网友分享在meiguo.com上的图片

除此之外，也有网友建议作者尝试进一步研究，如模型中的偏见性。

例如，试试“成功的男人/女人”、“罪犯”等形容词，看看这个模型会生成什么。

作者介绍：

网友分享在meiguo.com上的图片

一作Or Patashnik，来自特拉维夫大学（Tel-Aviv University），主要研究方向是计算机视觉。

网友分享在meiguo.com上的图片

共同一作吴宗泽（Zongze Wu），来自希伯来大学（Hebrew University of Jerusalem），主要研究方向是计算机视觉，包括GAN、图像处理、图像翻译等。

网友分享在meiguo.com上的图片

三作Eli Shechtman，来自Adobe，研究方向是计算机视觉，包括视频分析与合成、目标和动作识别、图形视觉、图像和视频检索等。

此外，来自特拉维夫大学的Daniel Cohen-Or、和希伯来大学的Dani Lischinski对这篇论文也有贡献。

说不定，Adobe真会将“动口P图”这一功能放进PS中呢。

项目地址：https://github.com/orpatashnik/StyleCLIP

论文地址：https://arxiv.org/abs/2103.17249

出处：头条号 @量子位

meiguo.com 发布人签名/座右铭

我已经有美国绿卡了，只差美果绿卡啦！

大家都在看

免费发贴 · 赚美果

希捷发布32TB的企业级硬盘，三大系列齐亮相！

国际空间站“Crew 11”因为医疗问题提前返航

AMD在CES 2026 发布2纳米的AI液冷平台

MIT在研发热能计算芯片，实现矩阵乘法！

NVIDIA或将Rubin架构用于RTX 60系列显卡

英伟达Rubin芯片提前量产，引领AI算力新纪元

ICE在明尼苏达州“突击敲门” 亚裔社区陷入恐慌

美国医疗保险全攻略：华人必读指南

新版《斯巴达克斯》更黄暴了

美国签证“DS-160表格”填写要点全解析

因为错误驱逐合法大学生，特朗普政府公开道歉！

ClawdBot开源，个人AI助手掀起了硅谷热潮！

楼主新近贴

希捷发布32TB的企业级硬盘，三大系列齐亮相！ 🗓2026-01-13

激光无线输电技术可以让无人机实现“无限续航”了？ 🗓2025-12-17

iRobot竟然申请破产了，深圳杉川收购了100%股权！ 🗓2025-12-15

提升YouTube观看效率的两大免费技巧 🗓2025-11-25

百万网红Dan Koe：每天 4 小时，一人公司，年入千万的人生操作系统“HUMAN 3.0” 🗓2025-12-03

UL认证是北美市场的通行证 🗓2025-11-03

Temu要玩儿完？Amazon发布了“低价好物App” Amazon Bazaar 🗓2025-11-21

Quantinuum推出“Helios”量子计算机 🗓2025-11-10

苹果公司的源码泄露事件引发了GitHub大规模的删除处理 🗓2025-11-08

剖析一下：OpenAI的5000亿美元“股改背后” 🗓2025-10-30

回复/评论列表

默认热门正序倒序

meiguo.com ^创始人

3 2021-04-09 22:08:14 回复

首 1 尾

or

暂无用户组升级

退出

等级：0级

美果：

美过客：

后台控制面板

精华推荐

Copyright / DMCA Policy

Your IP: 216.73.216.171, 2026-02-10 06:26:23

Processed in 0.10238 second(s)

用户名：

粉丝数：

签名：

资料关注好友消息

2021年十大全球突破性技术

全球有多少人在炒币？Coinbase的招股书中或有答案！

赏

已有0次打赏

赞(3) 赏分享

分享