AssemblyHands: 通过三维手部姿势估计实现自我中心活动理解

897次阅读
没有评论

AssemblyHands: Towards Egocentric Activity Understanding via 3D Hand
Pose Estimation

解决问题:
这篇论文试图解决的问题是针对具有挑战性的手部与物体交互的自我中心活动理解。同时,论文还验证了高质量的手部姿态估计对于行动识别的影响。

关键思路:
论文提出了一个大规模的数据集AssemblyHands,其中包含了准确的3D手部姿态注释,以便研究具有挑战性的手部与物体交互的自我中心活动。为了获得高质量的3D手部姿态注释,论文开发了一个有效的流程,使用一个手动注释的初始数据集来训练一个模型,自动注释一个更大的数据集。同时,论文还提出了一个新颖的行动分类任务,以评估预测的3D手部姿态。

其他亮点:
AssemblyHands是目前最大的自我中心3D手部姿态估计基准数据集,提供了3.0M的注释图像,包括490K的自我中心图像。论文还提出了一个强的单视角基线,用于从自我中心图像中估计3D手部姿态。此外,论文还展示了高质量的手部姿态估计对行动识别的影响。

关于作者:
Takehiko Ohkawa, Kun He, Fadime Sener, Tomas Hodan, Luan Tran, Cem Keskin是本篇论文的作者,他们都来自微软公司。之前,他们在计算机视觉领域也有很多代表作,例如Takehiko Ohkawa在2017年发表了一篇名为“Learning to Navigate the Energy Landscape”的论文,Kun He在2019年发表了一篇名为“Spatial-Aware Object Embeddings for Zero-Shot Localization and Classification of Actions” 的论文。

相关研究:
最近的相关研究包括:

  1. “Ego-Topo: Environment Affordance and Human Action Recognition from Egocentric Videos”,作者:Shiwen Shen, Jianqiao Li, Yifan Zhang,机构:University of California, San Diego
  2. “Egocentric Action Recognition with Latent Space Models”,作者:Yu-Jhe Li, Yen-Yu Lin, Shih-Yang Su,机构:National Taiwan University
  3. “Egocentric Action Recognition with Temporal Attention”,作者:Jingwei Xu, Xinyu Huang, Hui Cheng,机构:University of Electronic Science and Technology of China

论文摘要:本文介绍了一个名为AssemblyHands的大规模基准数据集,其中包含准确的3D手势注释,旨在促进对具有挑战性的手部物体交互的自我中心活动的研究。该数据集包括从最近的Assembly101数据集中采样的同步自我中心和外部中心图像,其中参与者组装和拆卸了可拆卸的玩具。为了获得自我中心图像的高质量3D手势注释,作者开发了一个高效的流水线,使用一个初始的手动注释集来训练模型,自动注释更大的数据集。作者的注释模型使用多视图特征融合和迭代优化方案,平均关键点误差为4.20毫米,比Assembly101中原始注释的误差降低了85%。AssemblyHands提供了300万个带注释的图像,其中包括49万个自我中心图像,是目前最大的自我中心3D手势估计基准数据集。作者利用这些数据,开发了一个强大的单视角基线,用于从自我中心图像中估计3D手势。此外,作者设计了一种新的动作分类任务,以评估预测的3D手势。作者的研究表明,具有更高质量的手势直接提高了识别动作的能力。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy