精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

1,513次阅读
没有评论

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

字节&复旦大学多模态理解大模型来了:

可以精确定位到视频特定事件的发生时间

比如在下面这个视频中:

狗子转身看镜头时的时间戳是多少?

什么时候用爪子推开滑板?

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

在这里,视频中的宝宝什么时候推起眼镜、舒展了一下身体?又是什么时候翻的书?

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

对于这样的问题,这个叫做LEGO的模型全都读得懂,并毫不犹豫给出正确答案。

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

看起来,有了这些研究成果,以后我们看视频查资料都要方便一大截咯?

可精确识别局部信息的多模态LLM来了

LEGO全称是一个语言增强的多模态grounding模型。

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

它主要解决的是多模态LLM跨多种模态进行细粒度理解的能力,此前业内的成果主要强调全局信息。

为了实现该目标,作者主要先从数据集下手,打造了一套用于模型训练的多模式、多粒度问答形式数据集(即将开源

该数据集的构建涉及两个关键流程。

一是数据集转换(Dataset Conversion)

在这个阶段,作者的目的是构建用于模态对齐和细粒度对齐的基础多模态数据集。

由于数据集质量相对较低,主要通过转换公开数据集获得。

如下图上部分所示,他们向GPT-3.5提供任务描述以生成特定于任务的问题库,最终生成单轮对话格式的问答对。

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

生成的数据集会进行过滤以确保其质量。

其中对于图像模态,作者利用LLaVA-pretrain595K数据集进行模态对齐,细粒度对齐则使用特定数据集如RefCOCO。

视频模态用Valley-Pretrain-703K进行模态对齐,Charades-STA数据集用于细粒度对齐。

二是指令调整数据集生成(Instruction-tuning Dataset Generation)

这个数据集的目的是让模型更好地理解和遵循人类指令。

如上图下部分所示,作者也选择了公开可用的数据集(Flickr30K Entities、VCR、DiDeMo等)的子集进行人工注释,以创建上下文示例。它用于指导GPT-3.5在生成指令调整数据集时遵循类似的模式。

随后,特定任务的系统提示和随机选择的示例被输入到GPT-3.5中,以生成单轮或多轮对话。最后,进行数据过滤以确保数据集质量。

下面是经过三阶段训练产生的最终数据样本示例:

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

下面是LEGO模型的架构

每个模态的输入通过独立的编码器进行处理,提取特征,然后使用适配器将这些特征映射到LLM的嵌入空间。

图中演示的是视频和图像模式的两个示例,蓝色方框表示视频作为输入,而黄色方框表示图像作为输入。

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

由于其基于模块化设计和适配器的架构,LEGO可以无缝集成新的编码器,处理额外的模态,如点云和语音,主打一个好扩展。

最后,LEGO使用Vicuna1.5-7B作为基础语言模型,训练由三个阶段完成:多模态预训练,细粒度对齐调整和跨模式指令调整。

下面是实验评估:

图像任务中,LEGO模型和其他模型在REC任务中的性能如下表所示,可以看到它在所有数据集上都表现出了比较有竞争力的性能。

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

视频任务中,由于LEGO侧重对于整个视频的理解,相比VideoLLaMA、VideoChat和Valley这三个模型,性能表现相当优异:

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

更多能力展示

如上所说,LEGO的能力不仅在于视频定位,对图片、音频等多模态任务都很在行。

指的就是以下这些:

  • 图像内容解读

在这张风景图中,它准确给出了游玩风险提示。

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

在这个meme图中,它也准确发现这是一个炸鸡拼成的简单地图。

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

  • 视频内容概括简介

可以看到它能识别出非常细节的城市坐标和景点。

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

  • 音频解析

当然,这里测试的只是一个比较简单的纯雨声短音频。

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

  • 声音定位

给一段狗叫音频+一张狗狗奔跑的图像,它可以准确圈出声音来源在狗嘴部。

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

作者介绍

本文一共12位作者。

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

除了一作Zhaowei Li来自复旦大学,还有一位叫做的Dong Zhang的也来自这里。

其余均为字节跳动员工,通讯作者为Tao Wang。

论文地址: 
https://arxiv.org/abs/2401.06071

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 1 月
1234567
891011121314
15161718192021
22232425262728
293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...