Transformer竟然可以根据文本描述从视频中抠图了?
网友【chuang】 2022-04-09 05:28:10 分享在【Vlog创作交流】版块    1    5

都说Transformer适合处理多模态任务。

这不,在视频目标分割领域,就有人用它同时处理文本和视帧,提出了一个结构更简单、处理速度更快(每秒76帧)的视频实例分割框架。

这个框架只需一串文本描述,就可以轻松将视频中的动态目标“抠”出来:

网友分享在meiguo.com上的图片

可以实现端到端训练的它,在基准测试中的多个指标上表现全部优于现有模型。

目前,相关论文已被CVPR 2022接收,研究人员来自以色列理工学院。

网友分享在meiguo.com上的图片

主要思路

根据文本描述进行视频目标分割这一多模态任务(RVOS),需要结合文本推理、视频理解、实例分割和跟踪技术。

现有的方法通常依赖复杂的pipeline来解决,很难形成一个端到端的简便好用的模型。

随时CV和NLP领域的发展,研究人员意识到,视频和文本可以同时通过单个多模态Transformer模型进行有效处理。

为此,他们提出了这个叫做MTTR (Multimodal Tracking Transformer)的新架构,将RVOS任务建模为序列(sequence)预测问题。

网友分享在meiguo.com上的图片

首先,输入的文本和视频帧被传递给特征编码器进行特征提取,然后将两者连接成多模态序列(每帧一个)。

接着,通过多模态Transformer对两者之间的特征关系进行编码,并将实例级(instance-level )特征解码为一组预测序列。

接下来,生成相应的mask和参考预测序列。

最后,将预测序列与基准(ground truth,在有监督学习中通常指代样本集中的标签)序列进行匹配,以供训练过程中的监督或用于在推理过程中生成最终预测。

具体来说,对于Transformer输出的每个实例序列,系统会生成一个对应的mask序列。

为了实现这一点,作者采用了类似FPN(特征金字塔网络)的空间解码器和动态生成的条件卷积核。

而通过一个新颖的文本参考分数函数,该函数基于mask和文本关联,就可以确定哪个查询序列与文本描述的对象具有最强的关联,然后返回其分割序列作为模型的预测。

精度优于所有现有模型

作者在三个相关数据集上对MTTR进行了性能测试:JHMDB-Sentences、 A2D-Sentences和Refer-YouTube-VOS。

前两个数据集的衡量指标包括IoU(交并比,1表示预测框与真实边框完全重合)、平均IoU和precision@K(预测正确的相关结果占所有结果的比例)。

结果如下:

网友分享在meiguo.com上的图片

可以看到,MTTR在所有指标上都优于所有现有方法,与SOTA模型相比,还在第一个数据集上提高了4.3的mAP值(平均精度)。

顶配版MTTR则在平均和总体IoU指标上实现了5.7的mAP增益,可以在单个RTX 3090 GPU上实现每秒处理76帧图像。

MTTR在JHMDBs上的结果表明MTTR也具备良好的泛化能力。

更具挑战性的Refer-YouTube-VOS数据集的主要评估指标为区域相似性(J)和轮廓精度(F)的平均值。

MTTR在这些指标上全部“险胜”。

网友分享在meiguo.com上的图片

一些可视化结果表明,即使在目标对象被类似实例包围、被遮挡或完全超出画面等情况下,MTTR都可以成功地跟踪和分割文本引用的对象。

网友分享在meiguo.com上的图片

最后,作者表示,希望更多人通过这项成果看到Transformer在多模态任务上的潜力。

最最后,作者也开放了两个试玩通道,感兴趣的同学可以戳文末链接~

网友分享在meiguo.com上的图片
Colab试玩效果

试玩地址:
https://huggingface.co/spaces/akhaliq/MTTR
https://colab.research.google.com/drive/12p0jpSx3pJNfZk-y_L44yeHZlhsKVra-?usp=sharing

论文地址:
https://arxiv.org/abs/2111.14821

代码已开源:
https://github.com/mttr2021/MTTR

出处:见配图水印

meiguo.com 发布人签名/座右铭我已经有美国绿卡了,只差美果绿卡啦!
大家都在看
楼主新近贴
回复/评论列表
默认   热门   正序   倒序
meiguo.com 创始人

emotion

5   2022-04-09 05:28:10  回复

回复/评论:Transformer竟然可以根据文本描述从视频中抠图了?

暂无用户组 升级
退出
等级:0级
美果:
美过
精华推荐
  1. 在中国工作生活多年的前世界500强CEO被提名为美国驻华大使
  2. 南加州的海滩评测(图文版)
  3. 重大胜利🤑特朗普总统“又赢了一把”
  4. “赴美生子”这次真完了,特朗普政府即将终结“最容易移民方法”
  5. 到美国旅游,必去城市盘点 ~ Top 20
  6. 伊万卡·特朗普在迈阿密的豪宅
  7. 绝非泛泛之辈!枪杀了美国医保巨头公司高管的嫌疑人落网
  8. 伊隆·马斯克的特斯拉,中国《人民日报》点名了!
  9. 中国人民央行:不能以反诈名义随意管控个人银行账户
  10. 公司高管和生娃“冲突吗”?38岁印度裔职业女性“齐里斯·马斯克”
  11. 态度“回归自然”了?特朗普胜选后首次接受电视访谈
  12. 时代在继续推进:“中国边检”已经改名为“中国移民管理”
  13. 对话李开复:“勤俭持家”的中国大模型道路
  14. 高开低走,Costco在中国如何自救?
  15. 针对TikTok,联邦法院坚持“不卖就禁”!扎克伯格或将成为最大赢家
  16. 时至2024年底,美国民间的最畅销枪支盘点!
  17. ChatGPT竟然拒绝谈论此人,无人知道为什么!
  18. 阔别四年,回国大谈AI的马云可以再次盘活阿里吗?
  19. 特朗普总统“喜获”年度人物封面,商界CEO们开始“跪舔”!
  20. 怪自己心善帮错人!美国华人在Costco购物后,被警察抄家!
  21. 中国竟然释放多名美籍重犯?美国“借坡下驴”
  22. 在拜登赦免儿子后… 特朗普总统的特赦名单开始受关注了
  23. 拜登政府接连遣返来自中国的非法移民… 深层剖析一下!
  24. 伊隆·马斯克和任正非纷纷上榜!福布斯的2024年度·商界人物公布
  25. 特朗普政府的乌克兰计划曝光
  26. 特朗普总统在2025年接任前,留学生应该速速返美,否则可能回不来?
  27. 中国护照的免签含金量再次提升了
  28. 法官算老几?马斯克:公司应当由股东控制!
  29. 免签力量!外籍人士“中国游”持续火热
  30. 特朗普总统公开表示美中联手可以解决世界上所有问题,当日还会见了TikTok首席执行官!
  31. 两大巨头20年恩怨何解?特朗普政府“给撑腰”的马斯克可以直接攻击贝佐斯了?
  32. 拿英伟达“开刀”,是中国GPU自主化的一步险棋!
  33. 美国人视角解读的最新中国出口管制:中国开创先例,禁止他国向美国出售商品!
  34. 签证受阻、offer遭拒… 出国留学为何越来越难
  35. 在南加州,学车考驾照的全记录
  36. 绝非野鸡大学!因为太过低调,盘点被低估的8所美国大学

美国动态美果转盘美果商店

Your IP: 3.144.235.195, 2024-12-22 15:12:59

Processed in 0.60186 second(s)

头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
已有0次打赏
(5) 分享
分享
取消