百元级硬件流畅运行百亿参数大模型！上交&本智激活开源端侧原生大模型

衡宇
2025-07-27
17:09:53

来源：量子位

不再依赖高端CPU

允中发自凹非寺

量子位 | 公众号 QbitAI

AI的下一个战场，不在云端，而在你的口袋里。

iPhone、华为、三星、小米、OPPO等各大手机厂商几乎都在将大模型塞进手机，端侧AI已然成为兵家必争之地。

背后的逻辑清晰而坚定：最懂你的AI，必须能安全地访问你的个人数据——邮件、照片、日程，而这一切的前提，就是将计算留在本地，将隐私还给用户。

然而，想让AI在本地流畅运行，远比想象的要难得多。最好的证据，莫过于财力雄厚、软硬一体的苹果，其雄心勃勃的Apple Intelligence计划也未能如期而至，核心AI功能不得不推迟到明年。

这无疑向整个行业释放了一个清晰的信号：端侧AI，是一块难啃的硬骨头。

正当全球科技巨头在端侧AI的道路上艰难探索时，一股产学研深度融合的新兴力量，给出了独有的解决路线。

今天，上海交通大学IPADS研究所、上海交通大学人工智能学院联合初创公司本智激活（Zenergize AI），在HuggingFace开源了端侧原生大模型SmallThinker。

该系列模型采用为端侧算力、内存、存储特性而原生设计的模型架构，并从零开始预训练，具体包含两个尺寸的稀疏模型，分别是SmallThinker-4B-A0.6B和SmallThinker-21B-A3B，模型也已开源，链接如下。

https://huggingface.co/PowerInfer/SmallThinker-21BA3B-Instruct
https://huggingface.co/PowerInfer/SmallThinker-4BA0.6B-Instruct

其显著特征，就是用端侧CPU即可快速推理，不再依赖高端GPU。
其中，4B模型在1GB峰值内存下的推理速度达到惊人的19.41 tokens/s。

而更令人瞩目的是，21B旗舰稀疏模型，在一块百元级的国产RK3588开发板上，实现了相较于同等能力的主流模型（Qwen-14B）高达21倍的推理加速，将同类解决方案远远甩在身后。

SmallThinker：端侧原生大模型

主流大模型，从出生起就是为云端成千上万TOPS算力、TB级显存的GPU集群“量身定制”的。想把它们塞进算力、内存等都不到云端5%的端侧设备，传统方法只有“压缩”。

这就好比让一个“博士生”模型，通过蒸馏、量化等手段，强行“降智”，最终变成一个只会简单问答的“小学生”，牺牲了太多智能。

是否存在一种不做“模型降智”，而是一步到位的选择？

为了实现这一目标，SmallThinker系列针对端侧的弱算力、小内存、慢存储，设计了创新的大模型架构，并从零开始预训练，实现了与端侧硬件的“精巧匹配”。

具体来说，这一端侧原生的大模型架构主要拥有三大核心技术特性：

第一，端侧算力原生的双层稀疏架构，稀疏度提升5倍。

传统的MoE（混合专家模型）只在专家层面是稀疏的。而SmallThinker在此基础上，增加了专家内部的神经元稀疏。

这就好比，模型不仅能精准调用最相关的专家知识，还能只激活专家知识库里最核心的部分，避免“复述全部所学”，对端侧算力的要求大大降低。

第二，端侧存储原生的专家路由前置，显著隐藏IO开销。

在内存资源受限的端侧，通常模型权重不能完全放置在内存里，需要在推理过程中动态从慢速存储（比如SSD、UFS等）加载模型专家权重，而在这个过程中，端侧的慢速I/O会严重影响推理速度。

传统方案是算完注意力，再计算路由，最后排队等待加载专家。

而SmallThinker在模型架构中就原生提供了机制，帮助预判需要哪个专家，在进行注意力计算的同时，就去异步加载专家。

做到了“边检查边传唤”，将I/O等待时间隐藏在注意力计算的过程中。

第三，端侧内存原生的混合稀疏注意力，KV缓存占用下降76%。

针对长文本场景，SmallThinker设计了“略读”+“精读”的混合注意力机制。它使用滑动窗口注意力（Sliding Window）进行高效的“略读”，同时保留全局注意力的能力进行“精读”。

两种方式组合，在处理16K文本时，相比传统GQA机制，KV缓存占用降低76%，让端侧设备也能轻松处理长文档

生态兼容性与极致性能：SmallThinker与PowerInfer的完美结合

一个真正优秀的开源模型，不仅自身要强大，更要拥抱广阔的开放生态。
SmallThinker模型系列在设计上充分考虑了开发者的使用习惯，能够无缝兼容HuggingFace Transformers、vLLM、SGLang、llama.cpp、KTransformers等一系列主流推理框架。

在硬件适配上，它实现了对英特尔、英伟达、高通等主流芯片，甚至已经可以在国产鸿蒙操作系统上进行推理。这种开箱即用的灵活性，极大地降低了开发者的使用门槛。

而要体验SmallThinker最极致的端侧加速与内存优化效果，则需要使用团队为其量身打造的端侧原生Infra——PowerInfer（https://github.com/SJTU-IPADS/PowerInfer/blob/main/smallthinker/README.md）。

PowerInfer是团队于2023年12月开源的业界首个稀疏大模型端侧推理框架，发布后迅速获得全球开发者的高度关注，目前GitHub星标已达8.2K，并曾连续两天蝉联GitHub全球项目趋势榜第一。

它能够深度激活SmallThinker原创的双层稀疏架构，在推理时只调用必要的专家及神经元，并能在不影响推理速度的情况下降低内存占用。

它就像是为SmallThinker这台“F1赛车”专门打造的引擎，为开发者提供了一套从模型到部署、真正完整的全栈优化解决方案。

SmallThinker模型智力与推理性能兼具

理论再好，也要看疗效。SmallThinker团队交出的，是一份模型能力与端侧推理性能兼备的答卷。

为了真正实现“端侧原生”，团队从零开始预训练，基于高质量数据语料，训练了两种规模的模型：

SmallThinker-4B-A0.6B：基于2.5T Tokens数据预训练，拥有40亿参数，激活6亿参数，主打极速响应。
SmallThinker-21B-A3B：基于7.5T Tokens数据预训练，拥有210亿参数，激活30亿参数，主打旗舰性能。它能够在百元级RK3588上流畅部署，全内存情况下的CPU推理速度也能达到10.84 tokens/s。

口说无凭，评测见真章。

在MMLU、GPQA等多个权威评测基准上，SmallThinker的智力水平均超越了同尺寸甚至更大尺寸的开源模型，充分证明了其“原生”架构设计的优越性。

而在更关键的实际运行性能上，当SmallThinker与PowerInfer结合时，其在内存约束场景下的优势尽显。团队在旗舰移动平台和个人电脑PC上，对业界主流模型进行了正面硬刚。

场景一：手机极限内存瓶颈（1GB RAM）

在主流手机上，SmallThinker-4B-A0.6B模型的Q4量化版本，在仅调用4个CPU核心的情况下，推理速度便高达79 tokens/s。

而在对模型架构与推理框架构成终极考验的极限内存瓶颈（1GB）场景下，SmallThinker的优势则体现得淋漓尽致；4B模型依然跑出了19.91 tokens/s的流畅速度。

作为对比，Qwen3-1.7B模型速度仅为1.07 tokens/s，几乎无法正常使用。

近19倍的性能差距，充分证明了SmallThinker在极端资源受限环境下的卓越运行能力。这不仅是一次技术的胜利，更是将高端AI平民化的关键一步。

场景二：主流PC配置（8GB RAM）

当内存放宽到旗舰PC的8GB时，SmallThinker的架构优势依然显著。

SmallThinker-21B-A3B的4核CPU（Intel i9 14990K）推理速度达到20.30 tokens/s，而Qwen3-30B-A3B的4核CPU速度为 10.11 tokens/s，加速比达到2倍。

未来展望：不止于此，通往端侧原生智能

在这训练过程中，团队发现；即使在如此庞大的数据投喂之后，模型的loss曲线仍在稳步下降，仍未达到饱和。

未来，团队会围绕两条路线演进。

第一条路线，继续Scaling：更大更强。

既然模型尚未“吃饱”，那么最直接的路径就是——继续投喂。

团队的下一步计划，将继续遵循被验证有效的Scaling Law，利用更多的高质量Tokens进行进一步训练。进一步压榨模型潜力，在知识储备、逻辑推理和代码生成等核心能力上，将SmallThinker推向新的高度，打造出更强大的端侧基础模型。

第二条路线，打造“个人贾维斯”：从模型到可信赖的智能体。

如果说Scaling Law是让模型变得更“博学”，那么团队的终极野心，则是打造一个真正属于每个人的“贾维斯式”智能体。

这个智能体的独特之处在于，它完全运行在你的个人设备上，能够安全、完整地理解你的全部数字生命——从邮件、日程，到聊天记录和相册。正是在这片独一无二的私有数据土壤之上，才能生长出“千人千面”、真正懂你的可信赖AI。

相信未来，随着端侧原生AI能力的不断进步，未来的AI能力就会像今天的水和空气一样，主动融入我们每个人的日常工作和生活，提供安全私密、成本低廉、充满智慧的AI体验。

2025 年 7 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

百元级硬件流畅运行百亿参数大模型！上交&本智激活开源端侧原生大模型

百元级硬件流畅运行百亿参数大模型！上交&本智激活开源端侧原生大模型

SmallThinker：端侧原生大模型

生态兼容性与极致性能：SmallThinker与PowerInfer的完美结合

SmallThinker模型智力与推理性能兼具

场景一：手机极限内存瓶颈（1GB RAM）

场景二：主流PC配置（8GB RAM）

未来展望：不止于此，通往端侧原生智能

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

test

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

test

文心AIGC

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

test

手把手教你用AI 10分钟生成一个APP！零基础也能搞定

test

百元级硬件流畅运行百亿参数大模型！上交&本智激活开源端侧原生大模型

百元级硬件流畅运行百亿参数大模型！上交&本智激活开源端侧原生大模型

SmallThinker：端侧原生大模型

生态兼容性与极致性能：SmallThinker与PowerInfer的完美结合

SmallThinker模型智力与推理性能兼具

场景一： 手机极限内存瓶颈 （1GB RAM）

场景二： 主流PC配置（8GB RAM）

未来展望：不止于此，通往端侧原生智能

文心AIGC

场景一：手机极限内存瓶颈（1GB RAM）

场景二：主流PC配置（8GB RAM）