KAUST | Video ChatCaptioner:走向丰富的时空描述

883次阅读
没有评论

【推荐理由】本文采用ChatGPT模型作为控制器,用于创建更全面的时空视频描述。实验证明该方法可以生成包含更多视频细节的字幕。

Video ChatCaptioner: Towards the Enriched Spatiotemporal Descriptions
Jun Chen, Deyao Zhu, Kilichbek Haydarov, Xiang Li, Mohamed Elhoseiny

[King Abdullah University of Science and Technology]

【论文链接】https://arxiv.org/pdf/2304.04227.pdf

【项目链接】https://github.com/Vision-CAIR/ChatCaptioner

【摘要】视频字幕旨在使用自然语言传达视频中的动态场景,从而促进我们对环境中的时空信息的理解。虽然最近取得了一些进展,但生成详细和丰富的视频描述仍然是一个重大挑战。在这项工作中,作者介绍了Video ChatCaptioner,一种创新的方法,用于创建更全面的时空视频描述。该方法采用ChatGPT模型作为控制器,专门设计用于选择适合提出视频内容驱动的问题的帧。随后,使用强大的算法回答这些视觉查询。这种问答框架有效地揭示了复杂的视频细节,并显示出增强视频内容的方法的前景。在多次对话轮之后,ChatGPT可以根据以前的对话总结丰富的视频内容。实验证明了本文的Video ChatCaptioner可以生成包含更多视频细节的字幕。

KAUST | Video ChatCaptioner:走向丰富的时空描述

KAUST | Video ChatCaptioner:走向丰富的时空描述

 

 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy