真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

903次阅读
没有评论

真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

8500+LLM、12个榜单、2亿记录

MilkThink团队 投稿

量子位 | 公众号 QbitAI

事关路由LLM(Routing LLM),一项截至目前最全面的研究,来了——

共计收集和整理了涉及8500+个LLM,在12个Benchmark上的共2亿条性能记录!

真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

先来简单科普一下路由LLM。

这种方法主要是把像ChatGPT、Qwen、DeepSeek这些成型的LLM当作 “专家” ,当给一个输入的时候,有分类能力的Router(路由器)就会把这个输入分配给合适的LLM处理。

如此一来,就能实现高性能、低计算消耗、低幻觉等目标。

而来自中山大学普渡大学的研究人员在基于上述海量的记录做了一番探索之后,发现了一个现象,叫做Model-level Scaling Up

一言蔽之,就是一个好的Router,可以让路由LLM范式的性能随着LLM候选数量的增加迅速变强。

随后,他们通过这些数据构建了针对Router设计的评测RouterEval

值得注意的是,其他研究人员,也可以通过RouterEval在很少的计算资源下(如笔记本单卡GPU上)就能参与到该路由LLM的研究当中。

2亿条记录中发现的新现象

当大多数研究人员和开发者第一次听到Mixture-of-Expert (MoE) 的时候,可能第一反应不是现在常见的对结构中的FFN层进行扩展,以FFN层作为”expert”。

而是直接将每一个成型的LLM,比如ChatGPT、Qwen、DeepSeek等直接看做是”expert”。

实际上,这种范式也称为路由LLM(Routing LLMs)。

真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

简单地说,就是给定一个输入input,一个具有一定分类能力的Router (路由器)会将input分配给指定的LLM进行处理,以达到高性能、低计算消耗或者是低幻觉等各种各样的目标,或组合目标。

这类问题可以被认为是分类问题、推荐系统问题、Agent规划甚至是检索问题(注意,不是检索数据for LLM,而是检索LLM for 数据)。

一些典型的例子有:

  1. 人机客服切换:机器人客服无法解决问题的时候自动切换到更高级的客服,比如更智能的机器人,甚至人类;
  2. 强弱LLM切换:比如困难问题给GPT4解决(费用贵),简单问题给GPT3解决(费用低)
真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

△路由LLM (Routing LLMs)示意图

路由LLM具有很高的应用潜力和兼容性,不同LLM都可以被添加到LLM候选Pool中参与routing(包括异构LLM,各种tuning/pretraining方法下得到的LLM,等等),而且可以发挥很强的性能。

比如最近UCB提出的Prompt-to-Leaderboard以很低的训练成本,以路由LLM的范式下实现和需要数十万个GPU训练得到的Grok3相当的性能,并登上Arena排行榜第一。

然而当前路由LLM领域仍然存在一些挑战影响了Router的发展:

  1. 缺乏统一的benchmark。各个研究都在小范围的构建各种的benchmark进行研究;
  2. 当前benchmark不够全面:当前的工作一般只涉及少量的LLM、evaluations,而且大多数是闭源不公开。

于是,研究团队收集并整理且开源了涉及8567个不同LLMs在12个evaluations下2亿条性能记录,并通过这些记录发现:

  1. Model-level Scaling Up现象:有一定能力的Router,可以使得routing llm范式下的性能随着llm pool的扩大而迅速上升。过去的研究由于涉及的不同LLM较少,不容易观察到这个现象。
  2. 通过这些数据,我们构建了全面的针对Router设计的评测RouterEval。其全面性可以大大帮助Router设计的探索。鉴于该测评已经整理良好且很简洁,可以被看做是传统的分类问题,所有研究者都可以以很少的计算消耗(甚至单卡或笔记本电脑)参与该大模型的研究当中。
真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

△Model-level Scaling Up现象示意图

利用2亿条性能记录,可以构建完美Router,即oracle Router ro:

真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

接着,根据上式可以构建不同性能的Router ro(p),其中wm为随机Router,当p→1时,Router ro(p)越解决上界分类性能,当p→0时,ro(p)越接近随机Router。

从上图结果来看,随着LLM候选的数量增加,不同的evaluation在具有一定能力的Router下呈现了Scaling Up现象。

而性能一般的Router,比如随机Router则几乎没有Scaling Up现象。

且快速超过参考模型Ref. LLM的性能(参考模型一般是GPT4)。

另外团队还可以发现两个有趣的现象:

真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

RouterEval涉及的LLM的参数分布

  1. 弱LLM也能组合出非常强的性能。上图给出了RouterEval中涉及的LLM的参数分布,LLM的参数为7B或以下的情况占优。文章发现,即使较弱的LLM也可以组合出不错的性能,比如5个性能在少于0.3的情况下,ro可以让他们互补优势在MMLU上达到0.95(超越GPT4)的性能。
  2. 少量的LLM候选已经足够。从Model-level Scaling Up现象示意图可以看到3-10个LLM候选的时候已经可以达到非常不错的性能。而且此时的部署成本并不高,具有很高的性价比。

当前Router的结果

通过测试当前的已有的Routers的性能,可以发现现在Router仍然有很大的提升空间。

不过幸运的是,RouterEval进行的Router设计的实验不需要大量的计算资源,且可以融入不同的已有技术,包括few-show learning,数据增强、推荐系统、正则化方法、预训练模型、额外数据等等.

因此Router将有希望快速得到实质性改进。

真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究

以及,和当前一些其他范式的区别和关系如下:

真·MoE?路由LLM最全面探索:一种笔记本也能玩的大模型Scaling Up研究
  1. 推荐系统:Routing LLM其实是特殊的推荐系统,LLM的input是推荐系统中的user信息,LLM候选是推荐系统中的商品item,而性能记录则是推荐系统中的历史用户书记记录;
  2. LLM集成:一般LLM集成是post-decision,即让多个LLM完成推理后再合并。而Routing LLM是pre-decision,即在LLM推理前就要决定是哪个LLM来处理;
  3. LLM Fusion:LLM融合主要针对是同质的LLM的“合作”,而Routing LLM可以让“异质”(包括不开源)的LLM进行“合作”
  4. Mixture-of-Experts (MoE): Routing LLM是model-level的MoE

当然,研究团队也提出一些未来的挑战。

首先就是缺乏数据

要获得足够好的Router,当然的数据仍然远远不够,因为这些性能记录的数据一般不开源,且掌握在大公司手中,这需要全社区的共同努力。目前也可以通过算法一定程度缓解数据缺乏的问题。

其次是如何保持在多LLM候选情况下的Router性能的问题。

当LLM候选越多的时候,意味着Router要进行更多类的分类,这对于Router的训练来说具有很高的挑战性;

除此之外,还包括RouterEval目前只关注在性能

尽管routing llm可以考虑计算消耗、幻觉等其他目标。但是目前性能的水平还远远不够,如果现在就过度关注其他目标的话,可能言辞尚早。另外,计算消耗和幻觉等目标的数据不容易搜集,可能采集不到足够多的LLM的记录数据,仍然需要全社区的努力。

最后,就是部署的难度

即使足够强的Router可以获得,但是此时LLM候选的部署可能是新的瓶颈,这在计算机系统等领域中也有很多的研究角度,如计算负载,高效分配、动态模型激活等。幸运的是,从论文的观察来看,3-10个LLM已经能得到出色的结果。

GitHub和论文等地址放下面了,感兴趣的小伙伴可以深入研究一下哦~

代码地址:
https://github.com/MilkThink-Lab/RouterEval

论文地址:
https://arxiv.org/abs/2503.10657

论文合集:
https://github.com/MilkThink-Lab/Awesome-Routing-LLMs

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 3 月
 12
3456789
10111213141516
17181920212223
24252627282930
31  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」

AI金矿上打盹的小红书,刚刚醒了一「点点」 鱼羊 2025-12-26 17:04:08 来源:量子位 一个积...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光

海信CES发布全新一代RGB-Mini LED,全球首创玲珑4芯真彩背光 量子位的朋友们 2026-01-06...
英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货

英特尔CES奇袭老黄大本营!英伟达显卡刚涨价,最强酷睿量产出货 十三 2026-01-06 13:54:54 ...
陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能

陈天桥代季峰打响2026大模型第一枪:30B参数跑出1T性能 鹭羽 2026-01-06 14:28:58 来...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...