谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

150次阅读
没有评论

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

不造芯片造“超感知”

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

“寒武纪”这个名字在AI圈里火得发烫。

由谢赛宁牵头,李飞飞和Yann LeCun站台搞的“寒武纪”,大获好评。

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

此寒武纪究竟是什么?

Cambrian-S(寒武纪-S),不造硅基芯片,而是专注于解决AI领域一个更核心的问题:人工智能真正学会感知世界

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

它的具体成果,是一款主打空间感知的多模态视频大模型,还兼顾了通用视频、图像理解能力,在短视频空间推理中拿下了SOTA。

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

更厉害的是,加了预测感知模块后,连超长视频的空间任务都能扛下来——要知道,这可是很多主流模型的软肋。

这个李飞飞和LeCun都关注的空间智能领域的新模型,到底有哪些突破?

超感知:让数字生命真正体验世界

先从它的发展历程说起。

2024年6月,团队先推出了Cambrian-1,这是针对图像多模态模型的一次开放性探索。

在这次尝试中,他们从5个方面方向进行了突破。

一是系统测评了20多种视觉编码器及组合,明确不同类型模型(语言监督、自监督等)的适配场景与优势;

二是设计了空间视觉聚合器SVA,以更少视觉token高效整合多源视觉特征,兼顾高清处理与计算效率;

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

三是构建并优化视觉指令训练数据集,从1000万条原始数据筛选出700万条高质量数据,平衡类别分布并通过系统提示提升模型交互能力;

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

四是推出了CV-Bench基准测试,聚焦2D/3D视觉理解核心任务,弥补现有测评对视觉能力考核的不足;

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

五是总结了最优训练方案,证实两阶段训练、解冻视觉编码器等策略能显著提升模型性能。

按常理,下一步工作该是扩大规模搞Cambrian-2、Cambrian-3,跟主流模型拼参数、拼数据量。

但团队并没有这么做,而是停下来反思“什么是真正的多模态智能”

在他们看来,现在很多多模态模型,看似能看图说话,实则只是把图像信息转换成文字,再用语言模型处理——就像人只看了照片的文字说明,没真正看到照片里的场景。

于是,他们提出了超感知的概念。

超感知并不是换个更高级的摄像头、加个更灵敏的传感器那么简单。

谢赛宁一句话点透核心:

这关乎数字生命如何真正体验世界,吸收输入流并学习的能力。

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

简单说,就是让 AI 不止能看到物体,还能记住物体的位置、理解物体间的关系,甚至预判物体接下来的变化。

他还补了句更关键的:

在构建出超感知之前,不可能真正构建出超级智能。

顺着这个思路,团队又把目标聚焦到视频上,毕竟人感知世界,靠的不是一张张孤立的照片,而是连续的生活片段。

于是,视频空间超感知又成了核心方向:让AI能从视频里读懂空间关系,比如“人从门口走到沙发旁,拿起桌上的书”,不只是识别人、沙发、书,还要懂“门口到沙发的位置距离”、“书在桌上的具体方位”。

Cambrian-S:从“考倒 AI”到“做好示范”

有了方向,团队没急着先做模型,而是先解决了两个关键问题:

  • 怎么判断AI有没有空间感知能力?
  • 用什么数据教AI学空间感知?

带着这两个问题,他们先搞了个叫VSI-SUPER的基准测试,专门考AI的空间感知。

里面有两个看似简单的任务:一个是长时程空间记忆(VSR),让AI看几小时的室内漫游视频,之后回忆出视频里不寻常物体的位置;

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

另一个是持续计数(VSC),让AI在长视频里数清楚特定物体的总数。

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

现在市面上的模型一经测试,结果挺打脸,像Gemini-Live、GPT-Realtime这些号称能处理实时视觉输入的商业模型,在10分钟视频上的平均准确率还不到15%,视频拉长到120分钟,基本就 记不住了。

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

这也证明,主流模型的空间感知能力,确实没跟上。

解决了“怎么考”,再解决“怎么教”。

团队建了个VSI-590K数据集,里面有59万条训练样本,既有真实场景的视频,也有模拟的空间场景,重点标了物体位置、动态变化这些关键信息,就相当于给AI准备了一套空间感知教材。

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

有了测试标准和训练数据,Cambrian-S模型家族才算正式登场。

参数规模从0.5B到7B,不算特别大,但针对性极强。

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

核心训练逻辑是,通过预测下一帧的训练机制,让模型在推理时用意外度识别关键信息,最终实现对超长视频的空间理解和任务处理。

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

成绩也很亮眼,在短视频空间推理任务里拿了SOTA;面对VSI-SUPER 基准测试,比开源模型的空间记忆准确率提升了30%以上,部分任务甚至超过了一些商业模型。

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

更关键的是它的预测感知模块,模型会主动预判视频下一帧的内容,不仅让处理超长视频时更高效,还能控制GPU内存消耗,不用靠堆硬件来撑性能。

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

团队介绍

除了谢赛宁牵头,李飞飞和LeCun两位大佬站台,寒武纪项目还有其他几位核心贡献成员。

纽约大学的博士生Shusheng Yang领导了该项目,他曾经还参与了Qwen模型的开发,也在腾讯实习过。

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

Jihan Yang,本科毕业于中山大学,后在香港大学拿到博士学位,现为纽约大学柯朗数学科学研究所的博士后研究员,研究专注于推理、智能体、长视频、空间智能、统一模型等多模态大语言模型。

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

黄品志,是纽约大学的一名本科生,曾在Google Gemini实习。

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

Ellis Brown,本科就读于范德堡大学,主修计算机科学和数学,曾在斯坦福大学、哥伦比亚大学攻读非学位研究生课程,后获得卡内基梅隆大学硕士学位,目前为纽约大学库朗数学研究所计算机科学博士生。

谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?

参考链接:
[1]https://cambrian-mllm.github.io/
[2]https://x.com/sainingxie/status/1986685063367434557

— 完 —

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 11 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...