Transformer竟然可以根据文本描述从视频中抠图了?
网友【chuang】 2022-04-08 21:28:10 分享在【Vlog创作交流】版块    1    5

都说Transformer适合处理多模态任务。

这不,在视频目标分割领域,就有人用它同时处理文本和视帧,提出了一个结构更简单、处理速度更快(每秒76帧)的视频实例分割框架。

这个框架只需一串文本描述,就可以轻松将视频中的动态目标“抠”出来:

网友分享在meiguo.com上的图片

可以实现端到端训练的它,在基准测试中的多个指标上表现全部优于现有模型。

目前,相关论文已被CVPR 2022接收,研究人员来自以色列理工学院。

网友分享在meiguo.com上的图片

主要思路

根据文本描述进行视频目标分割这一多模态任务(RVOS),需要结合文本推理、视频理解、实例分割和跟踪技术。

现有的方法通常依赖复杂的pipeline来解决,很难形成一个端到端的简便好用的模型。

随时CV和NLP领域的发展,研究人员意识到,视频和文本可以同时通过单个多模态Transformer模型进行有效处理。

为此,他们提出了这个叫做MTTR (Multimodal Tracking Transformer)的新架构,将RVOS任务建模为序列(sequence)预测问题。

网友分享在meiguo.com上的图片

首先,输入的文本和视频帧被传递给特征编码器进行特征提取,然后将两者连接成多模态序列(每帧一个)。

接着,通过多模态Transformer对两者之间的特征关系进行编码,并将实例级(instance-level )特征解码为一组预测序列。

接下来,生成相应的mask和参考预测序列。

最后,将预测序列与基准(ground truth,在有监督学习中通常指代样本集中的标签)序列进行匹配,以供训练过程中的监督或用于在推理过程中生成最终预测。

具体来说,对于Transformer输出的每个实例序列,系统会生成一个对应的mask序列。

为了实现这一点,作者采用了类似FPN(特征金字塔网络)的空间解码器和动态生成的条件卷积核。

而通过一个新颖的文本参考分数函数,该函数基于mask和文本关联,就可以确定哪个查询序列与文本描述的对象具有最强的关联,然后返回其分割序列作为模型的预测。

精度优于所有现有模型

作者在三个相关数据集上对MTTR进行了性能测试:JHMDB-Sentences、 A2D-Sentences和Refer-YouTube-VOS。

前两个数据集的衡量指标包括IoU(交并比,1表示预测框与真实边框完全重合)、平均IoU和precision@K(预测正确的相关结果占所有结果的比例)。

结果如下:

网友分享在meiguo.com上的图片

可以看到,MTTR在所有指标上都优于所有现有方法,与SOTA模型相比,还在第一个数据集上提高了4.3的mAP值(平均精度)。

顶配版MTTR则在平均和总体IoU指标上实现了5.7的mAP增益,可以在单个RTX 3090 GPU上实现每秒处理76帧图像。

MTTR在JHMDBs上的结果表明MTTR也具备良好的泛化能力。

更具挑战性的Refer-YouTube-VOS数据集的主要评估指标为区域相似性(J)和轮廓精度(F)的平均值。

MTTR在这些指标上全部“险胜”。

网友分享在meiguo.com上的图片

一些可视化结果表明,即使在目标对象被类似实例包围、被遮挡或完全超出画面等情况下,MTTR都可以成功地跟踪和分割文本引用的对象。

网友分享在meiguo.com上的图片

最后,作者表示,希望更多人通过这项成果看到Transformer在多模态任务上的潜力。

最最后,作者也开放了两个试玩通道,感兴趣的同学可以戳文末链接~

网友分享在meiguo.com上的图片
Colab试玩效果

试玩地址:
https://huggingface.co/spaces/akhaliq/MTTR
https://colab.research.google.com/drive/12p0jpSx3pJNfZk-y_L44yeHZlhsKVra-?usp=sharing

论文地址:
https://arxiv.org/abs/2111.14821

代码已开源:
https://github.com/mttr2021/MTTR

出处:见配图水印

meiguo.com 发布人签名/座右铭我已经有美国绿卡了,只差美果绿卡啦!
大家都在看
楼主新近贴
回复/评论列表
默认   热门   正序   倒序
meiguo.com 创始人

emotion

5   2022-04-08 21:28:10  回复

回复/评论:Transformer竟然可以根据文本描述从视频中抠图了?

暂无用户组 升级
退出
等级:0级
美果:
美过
精华推荐
  1. 马斯克的丑闻?和多名女性有染,有上百个孩子?
  2. 中美贸易战的谈判再起,稀土贸易成为焦点
  3. 美国企业在强化回归办公室的工作要求
  4. 近半数中国小包裹的接收人是贫困美国百姓?
  5. 在美国生活半年,分享几句扎心实话!
  6. 哪些关键技术决定了如今大模型格局?Google的首席科学家“万字演讲”回顾AI发展的十年
  7. 盖茨列出了10项改变世界的技术名单
  8. 川普总统:加拿大可以免费加入“金穹”导弹防御系统
  9. 中方意识到谈判时机已至?迅速派出“王牌代表应邀”和美国财长会面了
  10. 美国政府“管不着”加州?纽森州长说继续做中国生意!
  11. 在美国生活半年,分享一下可能让人失望的真话!
  12. 判刑15年!发币ICO的定性为诈骗
  13. 美国人在凌晨三点排队,不为苹果手机… 竟然是为中国毛绒玩具“拉布布”?
  14. 在量子世界“玩儿游戏”?物理学家展示了量子计算机的新前景
  15. 贸易战的结局已定?中美两国“各退一步”?
  16. 川普政府的关税政策或将加速中国崛起,助力中国成为全球的经济主导力量!
  17. 美国对华为“HarmonyOS”采取行动,引发科技领域的新争议!
  18. 美国的州排名出炉,犹他州连续三年领先!
  19. 中美各自取消91%关税!为防🇺🇸川普政府反悔,🇨🇳重申关键问题!
  20. 中美博弈2.0了?川普政府“百日执政”,撤回对华善意!
  21. 出乎全世界意料,中美两国的“2025日内瓦谈判”太亲密了吧?
  22. 嘴唇经常干裂起皮,或许并非缺水!
  23. “蜗居”纽约的中国穷人:男女同住,毫无私隐… 却坚持不肯回国
  24. 美国联邦调查局警示:“新型医疗保险”骗局泛滥
  25. 【读懂AI Agent】MetaGPT、Mila、斯坦福、耶鲁、谷歌的合作论文
  26. 美国驻华大使馆:“赴美生子”一律拒签
  27. 英国2岁男童竟然刷新了门萨俱乐部“最年轻男性”会员纪录
  28. 美国物价到底贵不贵?近距离窥视一下佛罗里达州的中产家庭的日常消费
  29. 全球AI人才的争夺战白热化,顶尖研究员成为了科技巨头争夺焦点
  30. “240小时免签”和“离境退税”叠加组合,让美国人感受到了中国人的聪明智慧!
  31. 华人科学家再次遭遇系统性排查,75%留美学者“萌生去意”!
  32. AI半壁江山是中国人?黄仁勋“敲警钟”:美国须觉醒!
  33. 让人意外!股神【巴菲特】突然宣布退休
  34. 中美通话的内容简短,但意味深长!
  35. 在美国,千万别做的这些事盘点!
  36. 金星地壳似乎剧烈变化了,NASA即将启动新任务探索求证!

美国动态 美果搜索

Your IP: 216.73.216.44, 2025-06-02 23:30:16

Processed in 0.08452 second(s)

头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
已有0次打赏
(5) 分享
分享
取消