高通万卫星:混合AI与分布式协同是未来 | MEET2026

13次阅读
没有评论

高通万卫星:混合AI与分布式协同是未来 | MEET2026

产业正处于从生成式AI向智能体AI演进的窗口期

编辑部 整理自 MEET2026
量子位 | 公众号 QbitAI

从“感知”到“生成”,再到自主行动的“智能体”,AI正在终端侧掀起一场无声的算力革命。

量子位MEET2026智能未来大会上,高通公司AI产品技术中国区负责人万卫星指出:

尽管目前行业关注点仍然集中在生成式AI上,但整个产业其实正呈现出从生成式AI向智能体AI演进的路线。

他将这一演进过程梳理为四个阶段——从传统的感知AI出发,历经当前的生成式AI、正在到来的智能体AI,最终迈向理解真实定律的物理AI。

而目前产业正处于从“生成”向“智能体”跃迁的关键窗口期,终端侧的能力也正从单一文字模态,向全模态交互加速演进。

高通万卫星:混合AI与分布式协同是未来 | MEET2026

在他看来,在端侧运行大模型,最大的护城河在于“个性化”——在离数据产生最近的地方做推理,不仅能实现隐私保护,更能提供无需联网的即时响应。

然而,要在手机、PC等高集成度设备上部署百亿级参数模型,必须直面内存受限、带宽瓶颈与功耗控制这三大挑战。 对此,万卫星分享了高通的破局之道。

最后,对于未来的终端体验,他描绘了一个混合AI与分布式协同的图景——智能眼镜、手机、汽车将实现跨端的AI推理。

为了完整体现万卫星的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。

MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众350万+,获得了主流媒体的广泛关注与报道。

核心观点梳理

  • AI应用的演进,可以分为感知AI、生成式AI、智能体AI和物理AI四个阶段。
  • 从模态来看,终端侧正在从单一文字模态,向多模态甚至全模态方向演进。
  • 生态系统从单体模型向复合系统的转变是迈向智能体AI的基础。
  • 在终端侧运行大模型,最大的好处之一是个性化。
  • 在终端侧运行大语言模型主要面临内存限制、带宽限制和功耗控制等挑战。
  • 为解决这些挑战,高通进行了一系列技术储备与预研:量化与压缩、并行解码技术等以提高推理效率、先进NPU与异构计算架构

高通万卫星:混合AI与分布式协同是未来 | MEET2026

以下为万卫星演讲原文

AI应用演进的四个阶段

今天我想跟大家分享一下高通在终端侧AI以及混合AI上的成果和思考。

首先,我们来看一下AI应用在整个行业中的演进。

第一个阶段可以称之为感知AI,包括大家比较熟悉的、传统的自然语言处理、语音降噪、图片识别和分割等AI技术,都属于这个范畴。

这些技术其实在很多年前就已经在许多终端侧设备上实现商业化落地。

第二个阶段是生成式AI,是随着ChatGPT的兴起而来的,这一阶段主要基于大量数据进行预训练,并在人类监督下完成某类具体任务

包括文生图、聊天机器人,或是利用大模型进行翻译等在内,都属于“生成式AI”。

高通万卫星:混合AI与分布式协同是未来 | MEET2026

第三个阶段,我们称之为智能体AI

与生成式AI相比,智能体AI可以在几乎没有人类监督或无干预的情况下,进行自主行动、预测、意图理解与任务编排。

我们能够看到,尽管目前行业关注点仍然集中在生成式AI上,但整个产业其实正呈现出从生成式AI向智能体AI演进的路线

第四个阶段,我们叫做物理AI

在这个阶段,AI可以理解真实的物理世界,并根据真实的物理定律与规律做出相应的反馈和响应。

目前,物理AI尚处于研究和探索的初期。

端侧AI的优势和挑战

我们看到在终端侧生成式AI的生态中,模型尺寸正在不断增大——

  • 目前手机可以支持将近100亿参数的大模型部署;
  • PC可以支持约200亿参数的大模型终端侧部署;
  • 在车载场景中,模型支持的规模则更大,可部署的参数量级已达到200亿至600亿之间。

高通万卫星:混合AI与分布式协同是未来 | MEET2026

在模型尺寸不断扩大的同时,模型质量也不断提升。

今年年初我们已经能够将支持思维链(CoT)和推理能力的模型完全部署在端侧。

同时,端侧模型所支持的上下文长度也在显著增长——从两年前端侧仅能处理1K到2K的上下文,到去年已提升至4K,而今年则已能够支持8K到16K的典型用例在端侧进行部署。

事实上,就像我们在今年9月的骁龙峰会上展示的那样,在某些特殊场景下,已经可以实现128K上下文窗口的端侧大模型部署。

从模态的角度来看,终端侧AI也呈现出从单一的文字模态,向支持文本、图片、视频、音频、语音等多模态,甚至全模态演进的趋势。

高通万卫星:混合AI与分布式协同是未来 | MEET2026

再来看一下在端侧运行AI的优势,以及所面临的挑战。

我们认为在终端侧运行大模型或AI,最大的好处之一是个性化——

数据的产生都在终端侧,在距离数据产生最近的地方做推理,是自然而然的事情,同时也非常有利于保护用户的隐私和安全。

和云端相比,端侧还具备两个优势,一是完全免费,二是无需任何网络连接。

那么挑战有哪些呢?在这里我想着重分享两点。

首先是内存限制,终端侧有限的内存大小限制了可运行模型参数量的大小,从而约束了终端侧模型的能力上限。

其次是带宽限制,终端侧有限的带宽决定了AI的推理速度,因此会影响用户体验。

当然,在手机这类集成度非常高的终端去运行大语言模型,对能效控制也提出了极致要求,因为如果功耗过高,就容易触发设备的温控机制。

高通万卫星:混合AI与分布式协同是未来 | MEET2026

面对这些挑战,高通公司都有哪些技术储备和预研呢?

第一是量化和压缩。从8 bit、4 bit到今年实现的2 bit,通过更极致的量化压缩,我们使端侧能够支持的模型尺寸越来越大,其所占用的内存越来越小;

第二是在端侧带宽约束下,我们采用并行解码技术以提高大语言模型的token速率;

第三是通过先进的NPU,包括eNPU的架构和领先的异构计算系统,我们让端侧AI从以往的被动式服务向主动式、个性化的AI服务迈进。

高通万卫星:混合AI与分布式协同是未来 | MEET2026

接下来,我想就并行解码技术再进行展开讲解。

当前大语言模型大部分是基于自回归架构,它需要把所有的输入和权重全部加载到内存中,才能生成一个token。

从效率的角度来讲,这是非常不经济的行为。尤其是随着模型规模持续增大,token的生成速度会非常慢,进而导致时延增加、影响用户体验。

高通通过并行解码技术,先在端侧运行一个较小的草稿模型,一次性推理出多个token,然后将这些token交予原始的、较大的模型进行校验。

高通万卫星:混合AI与分布式协同是未来 | MEET2026

因为草稿模型是基于原始大模型训练而来,在原始大模型上进行token验证时,能够保证较高的接受率,从而实现并行解码,达到提高端侧解码速度的目的。

从生成式AI向智能体AI演进

我们正处在从生成式AI向智能体AI演进的路径上。

从用例的角度来讲,生成式AI主要能支持关键的“单体”用例,比如实时翻译、文生图或者内容创作、摘要、续写等任务。

高通万卫星:混合AI与分布式协同是未来 | MEET2026

智能体AI是更复合、更复杂、更主动式的AI服务。

实现智能体AI需要许多基础模块,首先需要一个具有推理能力的大模型,它可以在端侧或者云上运行以理解用户意图;

在理解用户的意图和任务之后,智能体可以通过查询个人知识图谱等个人本地数据,生成个性化的任务编排;

最后,智能体还要通过调用本地或云上的API执行相应的任务。

高通万卫星:混合AI与分布式协同是未来 | MEET2026

下面可以看一个具体的智能体AI用例。

用户可以利用智能体发布微博,这个过程中首先要通过自然语言和智能体进行交互。

当智能体理解了用户“需要发布微博”的意图后,会打开微博APP,搜索需要发布的照片,同时根据用户过往的个人偏好给照片加滤镜,最终完成整个发布过程。

不仅如此,用户还可以通过自然语言交互监测回复,并进行相应操作,比如我特别喜欢某个评论时,可以去点赞或回复。

这个用例在今年9月的骁龙峰会上进行展示时,整个流程是全部运行在端侧的。

除了手机之外,高通的芯片也覆盖了丰富品类的产品,包括智能眼镜、PC、汽车、智能手表、IoT等产品,并且我们能够支持所有骁龙设备之间的智能互联。

高通万卫星:混合AI与分布式协同是未来 | MEET2026

大家可以想象一下,智能眼镜、智能手表等算力较小的设备,可以通过Wi-Fi或者蓝牙与手机、汽车连接,去共享它们之间的本地数据,将大模型推理从较小设备中转移到手机、PC甚至汽车等算力较大的设备上,实现分布式的个性化大模型推理

最后,我们相信AI体验在未来会向混合AI的方向发展。

高通万卫星:混合AI与分布式协同是未来 | MEET2026

也就是说,在终端侧运行垂类的、比较高效的模型,提供更好的、更安全的个性化AI服务;在云端,运行更大尺寸的模型,提供能力更强、更通用、更极致的AI服务。

高通公司也将凭借低时延、高速且安全的连接技术,确保混合AI场景下的端云协同和端云连接。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy