大模型的进化方向：Words to Worlds | 对话商汤林达华

195次阅读

没有评论

大模型的进化方向：Words to Worlds | 对话商汤林达华

十三
2025-12-17
23:17:15

来源：量子位

原生多模态架构起作用了

金磊发自凹非寺

量子位 | 公众号 QbitAI

李飞飞团队最新的空间智能模型Cambrian-S，首次被一个国产开源AI超越了。

从这张展示空间感知能力的雷达图中，一个名为SenseNova-SI的模型，它在多个维度上的能力评分均已将Cambrian-S给包围。

而且从具体的数据来看，不论是开源或闭源，不论是2B或8B大小，SenseNova-SI在各大空间智能基准测试中都拿下了SOTA的成绩：

而这个SenseNova-SI背后的操刀者，正是商汤科技。

在量子位与商汤科技联合创始人、首席科学家林达华深入交流过程中，他并没有掩饰对这一进展的肯定：

在空间智能这个赛道上，基于长期的视觉积累，我们已经走到了世界前列。

但与此同时，林达华也是随即话锋一转，表示他并不愿意把这个故事简单地讲成“赢了李飞飞”或者“赢了OpenAI”。

更深层的，林达华更像是在释放一种信号，一个关于AI技术范式正在发生剧烈震荡的信号——

单纯依赖参数规模的AI范式逐渐面临瓶颈。我们站在了新的十字路口。

因为在Scaling Law的边际效应开始递减、很多人还在内卷大语言模型时，林达华和他的团队选择的却是一条很少有人走的路：Back to research（回归实验室）。

具体而言，是从最底层开始死磕原生多模态和空间智能，以此来完成一场从Words（语言）到Worlds（世界）的迁徙。

而在林达华看来，在这场迁徙中，中国科技公司已经抢到了一张船票。

我们该回归实验室了

回望过去三年，从2022年11月ChatGPT横空出世，到GPT-4的震撼登场，AI行业经历了一场狂飙式的野蛮生长。

那是一个把Scaling Law奉为圭臬的时代，只要算力足够大、GPU足够多、数据堆得足够高，模型的能力似乎就能无限增长。

但到了2024年下半年，风向变了。

人们发现，虽然榜单上的分数还在涨，从GPT-4到GPT-5.2，再到Gemini的各种升级版，分数的跃迁越来越快，但带给人们的惊艳感却在边际递减。

林达华一针见血地指出：

原来的旧路径，也就是单纯依靠Scale的主流范式，虽然把模型推到了一个很高的高度，但也逐渐触碰到了天花板。

分数提升越来越快，但模型对物理世界的解释力、对复杂逻辑的泛化能力，并没有实现质的飞跃。

与此同时，OpenAI前首席科学家Ilya Sutskever的一声疾呼“Back to Research”，在硅谷和全球AI圈里引发了不小的震动。

这与林达华的思考不谋而合：

我们之前的路是大力出奇迹，现在的路，必须是回归科研的本质。

为何会如此？简单来说，因为纯语言模型的红利快吃完了。

目前的顶尖大模型，在数学、编程上已经接近奥赛金牌水平，但在理解物理世界、处理三维空间关系上，可能连一个几岁的小朋友都不如。

未来的AGI，绝不会只是一个陪你聊天的Chatbot，也不应仅仅活在文本的逻辑里。它必须是一个能够理解物理世界、具有多感官能力的世界模型。

林达华强调说：

人类的智能不只有语言。

人类与世界的交互是多模态的——我们用眼睛看，用耳朵听，用手去触摸。AI的未来，在于从读万卷书（语言模型）进化到行万里路（空间与世界交互）。

在这个新旧交替的时间节点，商汤选择不再盲目跟随大语言模型的参数竞赛，而是掉转船头，向着原生多模态这快更难啃的方向进发。

现在的模型连手指都数不清

现在的多模态大模型，大多都是有局限性的。

对于这个观点，林达华给出了一个非常直观且略带幽默的案例。

哪怕是强如Grok或者GPT-4的早期版本，当你丢给它一张人手的照片，问它有几根手指时，它经常会自信地回答“5根”。

哪怕图片里的人手因为角度或畸变显示出6根或4根，AI的答案依旧是如此。

再比如，给模型看一张简单的三维积木图，问它“从上往下看是什么样子”，大多数模型都会选错。

它们明明看到了图片，为什么还会胡说八道呢？

因为它并没有真正在看。

林达华打了一个极其生动的比方：

这就好比一个盲人，在黑暗中闭眼学习了十年。他读了万卷书，大脑极其发达，逻辑思维严密。突然有一天，你让他睁开眼看世界。

他的第一反应是什么？是他会拼命地试图用他过去十年在书本里学到的语义概念，去硬套眼前看到的东西。

在传统的多模态架构（拼接式架构）中，通常是一个视觉编码器（Vision Encoder）加上一个大语言模型。

视觉编码器把图片翻译成语言模型能听懂的Token，然后扔给大语言模型去推理。

在这个过程中，大语言模型依然是那个“闭眼学习了十年”的大脑。它看到“手”这个图像Token，大脑里立刻调出的先验知识是“手有5根手指”，会直接覆盖掉眼睛看到的真实像素细节。

林达华分析道：

它不是真的理解了三维空间关系，它只是在靠概率猜词。

这种拼接式的路线，虽然能快速出成果，但缺陷是致命的：

视觉信号在进入大脑的那一刻，就被降维、被阉割了。大量的空间细节、三维结构、物理规律，在转化为语言Token的过程中流失殆尽。

这就是为什么现在的模型数学能拿金牌，却连手指都数不清、连积木都搭不明白的原因了。

要解决这个问题，修修补补似乎已经是无济于事。必须从底层架构上进行一场彻底的革新。

商汤原生多模态的解法

这场革新的产物，就是商汤刚刚开源的NEO架构，以及基于此架构的SenseNova-SI模型。

在深入了解这个架构之前，我们需要先理解什么是原生多模态。

林达华的解释是这样的：

模式上不再是“视觉眼睛+语言大脑”的拼接。在NEO架构里，从模型最底层的Transformer Block开始，每一个细胞都能同时处理视觉和语言信号。

这听起来很抽象，但在技术实现上却极其硬核。

在NEO架构中，视觉Token和文本Token不再是“先后进入”或“翻译关系”，而是“一块进入模型的每一层。

商汤设计了专门的混合注意力机制（Mixed Attention），让模型在进行每一次推理计算时，既能参考文本的上下文，又能实时“回头看”图像的原始特征。

为了让模型真正理解空间，林达华团队还干了一件反直觉的事——

他们不再只用预测下一个词（Next Token Prediction）来训练模型，而是引入了跨视角预测。

简单来说，就是给模型看一个物体的正面，让它去预测这个物体侧面、背面长什么样。

林达华表示：

这就像教小孩子搭积木、看世界一样，你在脑海里构建三维模型的过程，就是空间智能诞生的过程。

这种原生架构带来的效果是惊人的——

数据效率提升了10倍。

例如SenseNova-SI仅用了同类模型10%的训练数据，就达到了SOTA水平。而且，它不再是靠死记硬背，而是真正理解了三维空间关系。

正如我们前文提到的对比评测中，SenseNova-SI不仅超越了李飞飞团队的Cambrian-S，更是在空间推理、幻觉抑制等关键指标上表现更优。

林达华总结道：

我们希望把一个闭眼狂奔的盲人，变成了一个真正睁眼看世界的观察者。

落地，落地，还得看落地

技术再牛，如果不能变成生产力，终究只是实验室里的玩具。

在量子位与林达华的交流过程中，他反复提到了一个词：工业红线。

我们内部有一个标准：任何技术，如果它的使用成本高于它创造的价值，那就是没过工业红线。

这是因为大模型行业目前最大的痛点，除了不够聪明，就是太贵、太慢。

特别是在视频生成领域，虽然Sora惊艳了世界，但生成几秒钟视频需要消耗巨大的算力，推理时间动辄几分钟甚至几小时。

这种成本和延迟，根本无法支撑大规模的商业应用。

“只有当推理成本以每年1-2个数量级的速度下降时，AI才能从Demo级的炫技，变成石油级的工业生产力。”

为了跨过这条红线，商汤在落地应用上下足了功夫。林达华以商汤最新实时语音驱动数字人产品SekoTalk为例，展示了什么叫算法和系统协同的极致优化。

目前的视频生成主流模型都是基于扩散模型，生成一张图往往需要迭代几十步甚至上百步。

但这个过程的步骤就不能减少吗？答案是否定的。

林达华团队利用一种名为算法蒸馏的技术，硬生生将扩散模型的推理步数，从100步压缩到了4步。

这不是简单的偷工减料，而是基于对模型分布的深刻理解。林达华解释说：

模型在从白噪声变成图像的过程中，不同阶段处理的数据分布是完全不同的。以前是用同一套参数跑100遍，现在是分阶段用不同参数跑4遍，让专业的参数干专业的事。

如此打法之下，效果依旧是惊人：64倍的速度提升。

这就意味着在不久的将来，你只需要一张消费级的显卡（比如RTX 4090甚至更低），就能实时生成高质量的数字人视频。

大模型的进化方向：Words to Worlds | 对话商汤林达华

△SekoTalk生成的视频

聊至此处，林达华也表现出了激动之情：

以前生成20秒视频要跑一小时，现在我们能做到实时生成。这不仅是效率的提升，更是商业模式的质变。

这直接打通了AI在直播、短视频制作等领域的规模化落地路径。

从SenseNova-SI的底层架构创新，到SekoTalk的极致落地优化，商汤正在践行林达华所说的双轮驱动：

一手抓Back to Research的原始创新，一手抓击穿工业红线的落地价值。

One More Thing

在对话的最后，林达华也为当下想要投身AI大浪潮中的年轻人给予了一些宝贵的建议：

不要只盯着大语言模型来卷，这个赛道真的太拥挤了。

林达华诚恳地表示，年轻一代的研究者和创业者，应该把视野打开。

具身智能、AI for Science、工业制造、生命科学……这些都是非常好的领域。

智能不只有语言，AI的未来在于从读万卷书进化到行万里路。

林达华最后说道，在这场从Words to Worlds的宏大迁徙中，中国拥有全世界最丰富的场景、最完整的工业体系。这片土壤，天生适合培育那些能与物理世界深度交互的AI。

在这个赛道上，中国科技公司已经抢到了一张船票；而未来的头等舱，属于那些敢于回归实验室、敢于勇闯无人区的年轻人。

SenseNova-SI地址：
https://github.com/OpenSenseNova/SenseNova-SI

NEO地址：
https://github.com/EvolvingLMMs-Lab/NEO

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

大模型的进化方向：Words to Worlds | 对话商汤林达华

大模型的进化方向：Words to Worlds | 对话商汤林达华

我们该回归实验室了

现在的模型连手指都数不清

商汤原生多模态的解法

落地，落地，还得看落地

One More Thing

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

NVIDIA 发布全新物理 AI 模型，全球合作伙伴展示新一代机器人

杜比在CES 2026重塑了观影、娱乐的方式

OceanBase蝉联中国分布式数据库本地部署市场第一，领跑国产数据库

三赴CES，睿尔曼以三大底层能力构建全球化具身智能新基建

刚开年，马斯克就到账了200亿美金！

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

NVIDIA 发布全新物理 AI 模型，全球合作伙伴展示新一代机器人

杜比在CES 2026重塑了观影、娱乐的方式

OceanBase蝉联中国分布式数据库本地部署市场第一，领跑国产数据库

三赴CES，睿尔曼以三大底层能力构建全球化具身智能新基建

刚开年，马斯克就到账了200亿美金！