给AI打个分,结果搞出17亿估值独角兽???
「匿名对战」出圈了
闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
大模型竞技场LMArena官宣拿下1.5亿美元A轮融资。
估值升至17亿美元,妥妥的新年开门红!

这波融资由Felicis和加州大学投资公司UC Investments领投,Andreessen Horowitz、The House Fund等机构跟投。
资本用真金白银投票,足以见得AI时代大模型评估这个赛道有多香~
而这支90后华人含量99%团队的走红之路,还得从2023年ChatGPT横空出世后说起。
从学术探索到商业崛起
LMArena的前身是曾经火爆AI圈的Chatbot Arena,最早由LMSYS这个自发的开源组织创建。
组织的核心成员全是来自UC伯克利、斯坦福、UCSD、CMU等顶尖高校的学霸。
他们的开源推理引擎SGLang在业内首次实现了在96块H100上跑出几乎媲美DeepSeek官方报告吞吐量的开源方案。
目前SGLang已经实现大规模部署,被xAI、英伟达、AMD、谷歌云、甲骨文云、阿里云、美团、腾讯云等企业和机构采用。
不过,比起硬核技术,他们最主要也更出圈的工作是对大模型进行评估。
在ChatGPT、Claude一众模型刚刚面世之际,他们率先创办了Chatbot Arena这么一个第三方众包基准测评平台。
LMSYS的创办人之一、SGLang主导者郑怜悯曾对我们透露,当时之所以创建Chatbot Arena,是因为他们自己训练了小羊驼Vicuna的开源模型。

当时他们觉得自己模型还不错,但市面上已有的各种基准测试很难真正区分出模型是“真好”还是“假好”。
团队认为,评估模型最好的方式就是将其放到网上,让用户试用并投票。于是乎他们就搞了个众包测试平台Chatbot Arena,通过实际的用户交互来评估模型性能。
结果没想到的是后来Chatbot Arena已独立成一家公司,而小羊驼Vicuna等大模型的研发已经停滞。

早期的Chatbot Arena搞的是双盲测试,让用户在不知道模型身份的情况下盲选最优回答,这种模式吸引了大量AI爱好者来打卡。
后来,全球各地一有新模型更新都会在里面偷偷测一把,Chatbot Arena逐渐成为模型测评首选的排行榜。
这样的影响力让Chatbot Arena在AI领域崭露头角,获得资本市场的认可。
它独立出来成为一家商业公司lmarena.ai,专注于AI模型评估。
2025年5月,被曝获种子轮1亿美元投资,估值达到6亿美元。
动态竞技场
lmarena.ai的主要项目就是如今全球大模型的动态竞技场LMArena。

核心评估规则围绕匿名对战、Elo式评分和人机协同框架展开,方式也比较有意思。
用户只要输入问题,系统就会随机匹配两个模型来做匿名回答。
这时候大家不用管模型是谁,只需要根据回答的好坏投票选出更优的那个,系统在投完票之后才会揭晓模型的真实身份。
在评分上,平台基于Bradley–Terry模型设计了Elo评分机制,每个模型都有初始分数,赢了就加分,输了就扣分,随着对战次数越来越多,分数会慢慢稳定下来,最终形成实时更新的排行榜。
除此之外,平台还采用了人机协同的评估模式,用人类的真实投票来反映大家对模型的偏好,再通过算法去平衡各个模型的出场次数、任务类型和样本分布,避免有的模型因为曝光多就被高估,或者因为曝光少就被低估,确保整个评估过程公平客观。
就这样,LMArena成了各家新模型“出道”时的必测榜单。当前Gemini 3 Pro以1490分位居榜首。

去年拿到1亿美元种子轮融资后,LMArena的发展迅速超出预期。
在短时间内不仅累计了涵盖文本、视觉、网络开发等跨模态的5000万张投票,完成了400余种开放及专有模型的评估,还产出了覆盖文本、多模态、专家及职业等多个类别的14.5万个开源战斗数据点。
现在,LMArena计划将新筹集的资金用于平台运营,确保平台稳定且高效运行,提升用户体验。同时扩大技术团队,为平台发展注入更多专业技术力量。
参考链接:https://news.lmarena.ai/series-a/
— 完 —


