大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友

1,381次阅读
没有评论

白交 发自 凹非寺
量子位 | 公众号 QbitAI

语言模型击败扩散模型,在视频和图像生成上实现双SOTA!

这是来自谷歌CMU最新研究成果。

据介绍,这是语言模型第一次在标志性的ImageNet基准上击败扩散模型。

而背后的关键组件在于视觉分词器(video tokenizer) ,它能将像素空间输入映射为适合LLM学习的token。

谷歌CMU研究团队提出了MAGVIT-v2,在另外两项任务中超越了之前最优视觉分词器。

大语言模型击败扩散模型

已经形成共识的是,大语言模型在各个生成领域都有出色的表现。比如文本、音频、代码生成等。

但一直以来在视觉生成方面,语言模型却落后于扩散模型。

团队认为,其主要原因在于缺乏一个好的视觉表示,类似于自研语言系统,能有效地对视觉世界进行建模。与自然语言不同,人类会对视觉世界尚未演化出最佳的词汇。而这也限制了大语言模型的视觉生成能力。

基于这样的判断,这篇研究主要完成了三项工作:

  • 提出一种新的视觉tokenizer,在视觉生成、视频压缩以及动作识别都优于此前最优表现。

  • 一种全新无查找(lookup-free)的量化方法,可通过学习大量词汇来提高语言模型的视觉生成质量;

  • 首次有证据表明,在相同训练数据、等效模型大小和类似训练预算的条件下,语言模型在ImageNet上击败扩散模型。

据作者介绍,这也是视觉分词器首次成功地实现了与标准编解码器相媲美的效果。

在原有SOTA视觉tokenizerMAGVIT (Masked Generative Video Transformer)基础上,该方法主要完成了两种设计:无查找量化(Lookup-Free Quantization ,LFQ)以及图像-视频联合tokenizer。

大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友

最终在视频/图像生成,ImageNet 512×512和Kinetics-600,都优于Diffusion Model。

大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友

而在视频压缩、动作识别上,也优于以往的结果。

大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友

一作是北大校友

一作于力军目前是CMU计算机科学学院语言技术研究所博士生,师从Alexander G. Hauptmann教授,同时也是谷歌学生研究员。研究兴趣在于多模态基础模型,特别是多任务视频生成。

在来到CMU前,他在北大获得了计算机和经济学双学士学位。

大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友

在研究团队中也看到了其他不少华人面孔。

通讯作者蒋路,目前是谷歌研究院科学家以及CMU的兼职教授。

他的研究主要针对多模态大数据科领域,特别是鲁棒深度学习、生成式人工智能和多模态基础模型。

论文链接:
https://arxiv.org/abs/2310.05737
https://magvit.cs.cmu.edu/v2/

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情

大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 10 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...