MiniMax 发布首个 MoE 大语言模型,开放平台日均处理数百亿token

1,280次阅读
没有评论

MiniMax 发布首个 MoE 大语言模型,开放平台日均处理数百亿token
今天,MiniMax 全量发布了首个 MoE 架构的大模型 abab6,参数比上一版本大一个量级,可以更好地从训练语料中学到更精细的规律,完成更复杂的任务。

「基于 MoE 结构,abab6 可以具备大参数带来的处理复杂任务的能力;计算效率也会得到提升,模型在单位时间内能够训练足够多的数据。」

据悉,MiniMax 从 2023 年 6 月开始研发 MoE 模型,当前发布的是第二个版本,第一版已用于 MiniMax 的 C 端产品中。

对比法国大模型初创公司 Mistral 不久前发布的 Mistral-Medium,「abab6 在指令遵从和中文综合能力上都优于 Mistral-Medium,在英文综合能力上与 Mistral- Medium 旗鼓相当。

以下内容来自 MiniMax 开放平台。

MiniMax 发布首个 MoE 大语言模型,开放平台日均处理数百亿token

今天,经过了半个月的部分客户的内测和反馈,MiniMax 全量发布大语言模型 abab6,为国内首个 MoE 大语言模型。在 MoE 结构下,abab6 拥有大参数带来的处理复杂任务的能力,同时模型在单位时间内能够训练足够多的数据,计算效率也可以得到大幅提升。改进了 abab5.5 在处理更复杂、对模型输出有更精细要求场景中出现的问题。

我们会在这篇文章中与大家分享为什么使用 MoE 架构,abab6 大语言模型的测评情况,以及在最后附上申请使用的链接。

01

为什么使用 MoE 架构?

2023 年 4 月,MiniMax 发布了开放平台。过去半年多,我们陆续服务了近千家客户,包括金山办公、小红书、腾讯、小米和阅文在内的多家头部互联网公司,MiniMax 开放平台平均单日的 token 处理量达到了数百亿这半年多来,客户给我们提供了很多有价值的反馈和建议。例如,大家认为我们做得比较好的地方有:在写作、聊天、问答等场景中,abab5.5 的表现不错,达到了 GPT-3.5 的水平。

但是和最先进的模型 GPT-4 相比,我们仍有显著的差距。主要体现在处理更复杂的、对模型输出有精细要求的场景时,存在一定概率违反用户要求的输出格式,或是在推理过程中发生错误。当然,这不仅是 abab5.5 的问题,也是目前除 GPT-4 以外,几乎所有大语言模型存在的缺陷。

为了解决这个问题,进一步提升模型在复杂任务下的效果,从 6 月份我们开始研发 MoE 模型——abab6 是我们的第二版 MoE 大模型(第一版 MoE 大模型已应用我们 C 端产品中)。Abab6 的参数比上一个版本大一个量级,更大的模型意味着 abab6 可以更好的从训练语料中学到更精细的规律,完成更复杂的任务。但仅扩大参数量会带来新的问题:降低模型的推理速度以及更慢的训练时间。在很多应用场景中,训练推理速度和模型效果同样重要。为了保证 abab6 的运算速度,我们使用了 MoE  (Mixture of Experts 混合专家模型)结构。在该结构下,模型参数被划分为多组「专家」,每次推理时只有一部分专家参与计算。基于 MoE 结构,abab6 可以具备大参数带来的处理复杂任务的能力;计算效率也会得到提升,模型在单位时间内能够训练足够多的数据。目前大部分大语言模型开源和学术工作都没有使用 MoE 架构。为了训练 abab6,我们自研了高效的 MoE 训练和推理框架,也发明了一些 MoE 模型的训练技巧。到目前为止,abab6 是国内第一个千亿参数量以上的基于 MoE 架构的大语言模型。

02

测评结果:abab6 在复杂场景下表现更好

我们对 abab6、abab5.5、GPT-3.5、GPT-4、Claude 2.1 和 Mistral-Medium 商用进行了自动评测。在简单的任务上,abab5.5 已经做得比较好,因此我们选择了三种涵盖了较复杂的问题的评测方法:

  • IFEval:这个评测主要测试模型遵守用户指令的能力。我们会问模型一些带有约束条件的问题,例如「以 XX 为标题,列出三个具体对方法,每个方法的描述不超过两句话」,然后统计有多少回答严格满足了约束条件。
  • MT-Bench:这个评测衡量模型的英文综合能力。我们会问模型多个类别的问题,包括角色扮演、写作、信息提取、推理、数学、代码、知识问答。我们会用另一个大模型(GPT-4)对模型的回答打分,并统计平均分。
  • AlignBench:该评测反映了模型的中文综合能力测试,测试形式与 MT-Bench 类似。

测评及对比结果如下:

MiniMax 发布首个 MoE 大语言模型,开放平台日均处理数百亿token

注:对比模型均选择各自最新、效果最好的版本,分别为 Claude-2.1、Mistral-Medium 商用、GPT-3.5-Turbo-0613、GPT-4-1106-preview;GPT-3.5-Turbo-0613 略好于 GPT-3.5-Turbo-1106。abab6 是 1 月 15 号的版本。

可以看出,abab6 在三个测试集中均明显好于我们前一代模型 abab5.5。在指令遵从、中文综合能力和英文综合能力上,abab6 大幅超过了 GPT-3.5。和 Claude 2.1 相比,abab6 也在指令遵从、中文综合能力和英文综合能力上略胜一筹。相较于 Mistral 的商用版本 Mistral-Medium,abab6 在指令遵从和中文综合能力上都优于 Mistral-Medium,在英文综合能力上与 Mistral- Medium 旗鼓相当。

这些数据指标也符合我们实际体验中的感受。以下是几个 abab6 实现的具体案例:

乐趣辅导

用一个简单易懂且有趣的方式来教 7 岁左右儿童以下的数学题目:一个篮子里有 5 个苹果,小明吃掉了 2 个苹果,然后妈妈又放了 3 个苹果进去,请问篮子里现在有多少个苹果?同时,为保持孩子们的学习兴趣,需要模拟海绵宝宝的口吻来表达。

嘿,小伙伴们,我是你们的好朋友海绵宝宝!今天我们来玩一个数学游戏,看看篮子里的苹果发生了什么变化。

一开始,我们的篮子里有 5 个苹果,就像海底世界里的宝藏一样。然后,我们的好朋友小明来了,他吃掉了 2 个苹果,就像吃掉了海底的 2 颗珍珠。这时候,篮子里就剩下了 5-2=3 个苹果。

但是,不要担心,因为小明的妈妈很善良,她又放了 3 个苹果进去,就像又找到了 3 颗珍珠一样。所以,篮子里现在又有了 3+3=6 个苹果。

所以,现在篮子里有 6 个苹果,就像海底世界里又多了 6 颗闪亮的珍珠。你们都明白了吗?记得,数学就像海底探险一样,总是充满了惊喜哦!

游戏构建

为我创造一款虚构的桌游,这款游戏的主题围绕着上海展开,游戏中需包括上海市的主要旅游景点、历史文化以及独特美食。请将回答格式化为一个清晰的游戏规则说明书,其中每个游戏组件的描述必须用有序列表来组织。

游戏名称:《魔都探秘》

游戏类型:城市建设与文化探索

游戏目标:

玩家需要成为上海的城市规划者,通过投资旅游景点、历史文化地标和美食街区,发展自己的城市,吸引游客,最终成为上海最成功的城市规划者。

游戏人数:2-4 人

游戏时间:约 60 分钟

游戏组件:

1. 游戏板:

  • 展示上海市地图,包含主要旅游景点、历史文化区域和美食街区。

  • 地图上有不同颜色的区域,分别代表不同类型的地块。

2. 地标卡:

  • 描述上海著名的旅游景点,如外滩、豫园、东方明珠等。

  • 每张卡片上有投资成本和游客吸引力分数。

3. 历史文化卡:

  • 介绍上海的历史文化,如上海博物馆、中共一大会址等。

  • 每张卡片上有投资成本和历史文化分数。

4. 美食街区卡:

  • 列出上海的特色美食,如小笼包、生煎、南翔小笼等。

  • 每张卡片上有投资成本和美食分数。

5. 发展骰子:

  • 六面骰子,用于决定玩家行动顺序和发展阶段。

6. 货币:

  • 代表玩家拥有的资金,用于购买地块和投资。

7. 计分板:

  • 跟踪玩家的游客吸引力分数、历史文化分数和美食分数。

8. 玩家棋子:

  • 代表玩家在游戏板上的位置。

游戏规则:

  1. 游戏开始时,玩家各自选择一个颜色的棋子放置在游戏板的起点。

  2. 玩家轮流掷骰子,按照骰子点数移动棋子,并根据所处位置抽取相应类型的卡片。

  3. 玩家可以选择购买抽取到的地标卡、历史文化卡或美食街区卡,并放置在自己的城市规划区域内。

  4. 每张卡片都有相应的投资成本,玩家需要支付相应的货币。

  5. 玩家在自己的回合可以选择投资已有的建筑来提高其吸引力或历史文化分数,或者购买新的地块和卡片。

  6. 游戏进行预定的回合数后结束。

  7. 游戏结束时,玩家根据游客吸引力分数、历史文化分数和美食分数的总和来计算总分。

  8. 总分最高的玩家成为上海最成功的城市规划者,赢得游戏。

游戏策略提示:

  • 平衡投资,不要只专注于某一种类型的建筑。

  • 观察对手的布局,尝试通过竞争热门旅游景点或美食街区来干扰对手。

  • 合理规划资金流,确保有足够的现金进行投资和应对突发事件。

  • 利用历史文化卡来增加城市的文化底蕴,吸引对历史文化感兴趣的游客。

《魔都探秘》将带领玩家深入了解上海的文化与魅力,通过有趣的城市建设和经济竞争,让玩家在享受游戏的同时,更加喜爱和了解上海。

指令遵从

《秦时明月》讲了个什么故事?

分两段回答;第一段第一句以「海螺」开头,第一段第二句以「极」开头,第一段第三句以「智」开头;第二段以「星野」开头,并在合适的位置添加「明日」「梦」两个关键词。

海螺壳中藏着历史的秘密,《秦时明月》便是以这样的神秘物品作为引子,展开了一段跨越时空的冒险故事。极尽想象与创意,这部作品将秦朝末年的历史背景与武侠、奇幻元素相结合,讲述了一群英雄儿女在动荡的时代背景下,为了理想和信念而战斗的故事。智勇双全的主角们,不仅要面对强大的敌人,还要解开一个个历史谜团,他们的冒险充满了挑战与成长。

星野之下,明日的梦想在《秦时明月》中显得尤为珍贵。主角们在历史的洪流中,不断追寻着属于自己的明天,他们的故事激励着观众去思考个人与历史的关系,以及如何在逆境中坚持自己的梦想。明日的曙光,似乎总在最黑暗的时刻闪现,而《秦时明月》正是通过这样的故事,传达了对未来的美好憧憬和对梦想的执着追求。

会议总结

我们要求 abab 6 根据总时长为 10 分钟的,共 7 人参与的会议内容,总结出【会议记录内容】中的全部议题,如果有【Action】要在会议内容中明确。议题的数量不多于 5 个,请按以下格式输出:

议题 1: xxxxx

议题内容:xxxxx

时间:xxxxx

议题 2: xxxx

议题内容:xxxx

时间:xxxx

以下是 abab6 的回答:

议题 1:加快项目进度并保证质量

议题内容:发言人 5 强调在加快进度的同时要保证工作质量,张华表示稳妥是前提。

时间:10:02:15

议题 2:深入探讨数据模型

议题内容:发言人 8 提出要深入讨论昨天讨论的数据模型,发言人 2 和发言人 5 表示将参与并提供材料和想法。

时间:10:02:33

议题 3:备份问题

议题内容:发言人 3 询问上次会议提到的备份问题是否已解决,发言人 6 表示仍在处理中,预计明天能解决。

时间:10:03:00

议题 4:市场调研与问卷制定

议题内容:发言人 7 询问前两天讨论的市场调研的调查问卷制定情况,发言人 2 表示已准备初稿,计划周末前完成。

时间:10:03:56

议题 5:工作分配与技能汇总

议题内容:发言人 5 提出要讨论接下来的工作分配,让每个人在最擅长的领域发挥,张华表示将汇总大家的技能和偏好,再做讨论定下来。

时间:10:04:42

写首诗吧

写个英文藏头诗,一共 5 句,句首连起来是「ABAB6」,主旨是 MiniMax 的 ABAB6 文本大模型发布了。

Astonishing breakthroughs in AI,

Bringing forth a new era of digital intelligence,

Awesome power in the palm of your hand,

Beyond imagination, the ABAB6 model shines,

Sixth sense in technology, MiniMax leads the way.

03

来试用吧!

我们深知,测评数据只是衡量大模型的一个方面。对模型迭代来说,用户实际的体验和反馈才更有价值。刚上线的 abab6 在处理复杂问题上距离最新版本的 GPT4 仍有一定差距。这篇文章,一是想跟大家同步 MiniMax 最新模型 abab6 的进展;二是邀请大家接入我们的大模型。Abab6 大模型在持续训练中,欢迎大家多提出宝贵建议。

想要接入 abab6 大模型的朋友,欢迎访问 MiniMax 开放平台官网 api.minimax.chat 登记。

我们知道距离真正实现 AGI,还有很长的路要走、很多的事要做。我们会一步一个脚印,不断根据大家的反馈,提升模型的能力和稳定性。

如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。MiniMax 发布首个 MoE 大语言模型,开放平台日均处理数百亿token

更多阅读

Adobe 放弃收购 Figma,真正的原因是 AI 正在重构交互设计行业

CES 2024:AI硬件「狂欢」的背后,是噱头大于实用的大模型落地困境

CES上的惊喜AI硬件!199美元、真正的AI助手rabbit r1,可以帮用户操作任意app

苹果官宣 Vision Pro 2 月 2 日上市!它为什么能值 3499 美元?

那些百亿美金 APP 的前 1000 个用户都是怎么来的?

专访 VideoPoet 作者:视频模型技术会收敛,LLM 将取代diffusion带来真正的视觉智能

转载原创文章请添加微信:geekparker

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy