StepFormer：自监督式步骤发现与定位在教学视频中的应用

StepFormer: Self-supervised Step Discovery and Localization in
Instructional Videos

解决问题：这篇论文旨在解决在教学视频中自动发现和定位关键步骤的问题，而且是在无需人工干预的情况下进行的。这个问题在以前的研究中已经得到了一定的关注，但是传统的方法需要人工标注，不适用于大规模数据集。

关键思路：论文提出了一种自监督学习的模型StepFormer，它是一个Transformer解码器，通过可学习的查询来关注视频，并生成一个包含视频中关键步骤的序列。该模型使用自动生成的字幕作为唯一的监督来源，并通过一种有序感知的损失函数对文本叙述序列进行监督。相比以前的研究，该模型的主要创新之处在于无需人工标注即可实现关键步骤的自动发现和定位，并且在多步骤定位方面表现出了出色的性能。

其他亮点：论文的实验结果表明，StepFormer模型在三个具有挑战性的基准测试中均优于以前的无监督和弱监督方法。此外，该模型还展现了解决零样本多步骤定位的新颖性质，并在此任务中优于所有相关基线。该论文没有提供开源代码，但是使用的数据集是公开可用的，这为相关研究提供了便利。

关于作者：主要作者包括Nikita Dvornik、Isma Hadji、Ran Zhang、Konstantinos G. Derpanis、Animesh Garg和Richard P. Wildes。他们来自加拿大的多伦多大学和约克大学。这些作者以前的代表作包括：Nikita Dvornik在CVPR 2021上发表的论文“Instance-Aware, Context-Focused, and Memory-Efficient Weakly Supervised Object Detection”；Animesh Garg等人在ICRA 2021上发表的论文“Unsupervised Learning of Manipulation Sequences with Spatial and Temporal Consistency Constraints”。

相关研究：近期其他相关的研究包括：1）“Weakly Supervised Learning of Human-Object Interaction Detection Using Incomplete Annotations”（作者：Xueting Yan等，机构：香港科技大学）；2）“Learning to Localize Steps in Instructional Videos Using Self-supervision and Multi-modal Attention”（作者：Nikhil Churamani等，机构：印度理工学院）；3）“Temporal Localization of Key Steps in Instructional Videos Using Weakly Supervised Learning”（作者：Yunpeng Li等，机构：加州大学洛杉矶分校）。

论文摘要：这篇论文介绍了一种名为StepFormer的自监督模型，可以在没有人类监督的情况下发现和定位教学视频中的关键步骤。教学视频是学习过程中的重要资源，但其中的指导步骤通常很短且稀疏，大部分视频内容与过程无关。因此，需要对这些视频中的指导步骤进行时间定位，即所谓的关键步骤定位。传统的关键步骤定位方法需要视频级别的人工注释，因此不适用于大型数据集。本文的StepFormer模型通过学习可学习的查询来关注视频，并生成一系列槽，捕捉视频中的关键步骤。作者使用自动生成的字幕作为唯一的监督来源，在大型教学视频数据集上对系统进行训练。具体而言，作者使用有序感知损失函数对文本叙述序列进行监督，过滤掉无关短语。作者展示了他们的模型在三个具有挑战性的基准测试中在步骤检测和定位方面优于所有以前的无监督和弱监督方法。此外，作者的模型表现出了解决零样本多步骤定位的新颖性质，并在这项任务上优于所有相关基线。

2023 年 4 月
一	二	三	四	五	六	日
	1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

StepFormer：自监督式步骤发现与定位在教学视频中的应用

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

老外对屏狂拍！海信全新一代RGB-Mini LED电视亮相轰动CES2026

三赴CES，睿尔曼以三大底层能力构建全球化具身智能新基建

刚开年，马斯克就到账了200亿美金！

首家央企AI独角兽浮出水面！背靠自研大模型，4家国家队资本背书

8块钱跑通一次强化学习全流程，潞晨云重塑微调赛道：1名算法工程师=1支Infra团队

文心AIGC