隐式时间建模与可学习对齐技术在视频识别中的应用

1,582次阅读
没有评论

Implicit Temporal Modeling with Learnable Alignment for Video
Recognition

解决问题:本篇论文旨在解决如何在视频识别中进行有效的时间建模的问题。现有的空间-时间建模方法在效率和性能之间进行了权衡。本文提出了一种新的隐式可学习对齐方法,旨在最小化时间建模的工作量,同时实现了极高的性能。

关键思路:本文提出的隐式可学习对齐方法通过对每一帧预测一个交互点,来提高交互点周围的特征,从而隐式地对齐两帧,将对齐后的特征汇总到一个单一的标记中,然后在随后的空间自我关注中使用。相较于当前领域的研究,该方法的新意在于通过简单的帧对齐,消除了昂贵或不充分的时间自我关注。

其他亮点:本文的实验结果表明,该方法的性能优越且具有普适性。作者已经在GitHub上公开了代码。值得进一步研究的是,如何将该方法应用于其他视频任务中。

关于作者:本文的主要作者是Shuyuan Tu, Qi Dai, Zuxuan Wu, Zhi-Qi Cheng, Han Hu和Yu-Gang Jiang。他们来自中国科学院自动化研究所、南京大学和腾讯AI Lab。其中,Han Hu曾在2020年发表了题为“Swin Transformer: Hierarchical Vision Transformer using Shifted Windows”的论文,该论文提出了一种新的层次视觉Transformer模型。

相关研究:近期的相关研究包括:“Temporal Pyramid Network for Action Recognition”(作者:Jiawei Wu, Wei Liu, Junjie Yan,机构:Tencent AI Lab、Nanyang Technological University)、“Spatio-Temporal Graph Reasoning for Video Action Recognition”(作者:Yanshao Sun, Ji Zhang, Xinyu Zhou,机构:Shanghai Jiao Tong University)等。

论文摘要:本文提出了一种新颖的隐式可学习对齐(ILA)方法,旨在在最小化时间建模的同时实现极高的性能。具体而言,对于一对帧,每个帧都预测一个交互点,作为相互信息丰富的区域。通过增强交互点周围的特征,两个帧被隐式对齐。对齐的特征然后被汇总成一个单一的令牌,在随后的空间自注意中得到利用。我们的方法允许消除视频中昂贵或不足的时间自注意。基准测试的大量实验表明了我们模块的优越性和普适性。特别是,在Kinetics-400上,所提出的ILA方法的top-1准确率为88.7%,与Swin-L和ViViT-H相比,FLOPs要少得多。代码已经在https://github.com/Francis-Rings/ILA上发布。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 4 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...