7B开源数学模型干翻千亿GPT-4,中国团队出品

1,582次阅读
没有评论

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

7B开源模型,数学能力超过了千亿规模的GPT-4!

它的表现可谓是突破了开源模型的极限,连阿里通义的研究员也感叹缩放定律是不是失效了。

7B开源数学模型干翻千亿GPT-4,中国团队出品

无需借助任何外部工具,它就能在竞赛水平的MATH数据集上达到51.7%的准确率。

在开源模型中,它第一个在该数据集上达到一半的准确率,甚至超过了早期和API版本的GPT-4。

7B开源数学模型干翻千亿GPT-4,中国团队出品

这一表现让整个开源社区为之震撼,Stability AI的创始人Emad Mostaque也表示研发团队属实让人印象深刻,而且潜力被低估了。

7B开源数学模型干翻千亿GPT-4,中国团队出品

它,就是深度求索团队最新开源的7B数学大模型DeepSeekMath。

7B模型力压群雄

为了评估DeepSeekMath的数学能力,研究团队使用了中(MGSM-zh、CMATH)(GSM8K、MATH)双语的数据集进行了测试。

在未使用辅助工具、仅靠思维链(CoT)提示的情况下,DeepSeekMath的表现均超越了其他开源模型,其中包括70B的数学大模型MetaMATH。

和自家推出的67B通用大模型相比,DeepSeekMath的成绩也有大幅提升。

7B开源数学模型干翻千亿GPT-4,中国团队出品

如果考虑闭源模型,DeepSeekMath也是在几个数据集上都超越了Gemini Pro和GPT-3.5,在中文的CMATH上超越了GPT-4,MATH上的表现也与之接近。

但要注意的是,GPT-4按泄露规格是一个千亿参数的庞然大物,而DeepSeekMath参数量只有7B。

7B开源数学模型干翻千亿GPT-4,中国团队出品

如果允许使用工具Python进行辅助,DeepSeekMath在竞赛难度(MATH)数据集上的表现还能再提高7个百分点。

7B开源数学模型干翻千亿GPT-4,中国团队出品

那么,DeepSeekMath优异表现的背后,都应用了哪些技术呢?

基于代码模型打造

为了获得比从通用模型更好的数学能力,研究团队使用了代码模型DeepSeek-Coder-v1.5对其进行初始化。

因为团队发现,无论是在两阶段训练还是一阶段训练设置下,代码训练相比于通用数据训练都可以提升模型的数学能力。

7B开源数学模型干翻千亿GPT-4,中国团队出品

在Coder的基础上,研究团队继续训练了5000亿token,数据分布如下图:

7B开源数学模型干翻千亿GPT-4,中国团队出品

训练数据方面,DeepSeekMath使用的是从Common Crawl提取的120B高质量数学网页数据,得到了DeepSeekMath Corpus,总数据量是开源数据集OpenWebMath的9倍。

数据采集过程是迭代式进行的,经过四次迭代,研究团队收集了3500多万个数学网页,Token数量达到了1200亿。

7B开源数学模型干翻千亿GPT-4,中国团队出品

为了确保训练数据中不包含测试集的内容(因为GSM8K、MATH中的内容在互联网上大量存在),研究团队还专门进行了过滤。

为了验证DeepSeekMath Corpus的数据质量,研究团队分别用MathPile等多个数据集训练了1500亿token,结果Corpus在多个数学基准上效果明显领先。

7B开源数学模型干翻千亿GPT-4,中国团队出品

对齐阶段,研究团队首先构建了一个776K样本的中英文数学指导监督微调(SFT)数据集,其中包括CoT、PoT和工具集成推理等三种格式。

而在强化学习(RL)阶段,研究团队使用了一种名为“基于组的相对策略优化”(Group Relative Policy Optimization ,GRPO)的高效算法。

GRPO是近端策略优化(PPO)的一种变体,过程中传统的价值函数被替换为一个基于组的相对奖励估计,可以减少训练过程中的计算和内存需求。

同时,GRPO通过迭代过程进行训练,奖励模型会根据策略模型的输出不断更新,以确保策略的持续改进。

7B开源数学模型干翻千亿GPT-4,中国团队出品

曾推出首个国产开源MoE模型

推出DeepSeekMath的深度求索团队,是国内开源模型领域的一名“头部选手”。

此前,该团队就曾推出过首个国产开源MoE模型DeepSeek MoE,它的7B版本以40%的计算量击败了相同规模的密集模型Llama 2。

作为通用模型,DeepSeek MoE在代码和数学任务上的表现就已十分亮眼,而且资源消耗非常低。

7B开源数学模型干翻千亿GPT-4,中国团队出品

代码方面,该团队推出的DeepSeek-Coder的编程能力在代码生成、跨文件代码补全、以及程序解数学题等多个任务上均超过了同等规模的开源标杆CodeLllama。

同时,它也击败了GPT-3.5-Turbo,成为最接近GPT-4-Turbo的开源代码模型。

7B开源数学模型干翻千亿GPT-4,中国团队出品

如前文所说,此次推出的DeepSeekMath,也正是在Coder的基础之上打造的。

而在X上,已经有人开始在期待Coder和Math的MoE版本了。

7B开源数学模型干翻千亿GPT-4,中国团队出品

论文地址:
https://arxiv.org/abs/2402.03300
参考链接:
[1]
https://twitter.com/deepseek_ai/status/1754701472363958581
[2]https://mp.weixin.qq.com/s/CPyKHnBNzJuCn-wZ1wpPoA

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

7B开源数学模型干翻千亿GPT-4,中国团队出品

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 2 月
 1234
567891011
12131415161718
19202122232425
26272829  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026

跳过“逐字生成”!蚂蚁集团赵俊博:扩散模型让我们能直接修改Token | MEET2026 一水 2025-1...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地

预见未来:96位前沿先锋超万字核心观点总结,抢抓未来产业新高地 henry 2025-12-11 10:27:...
Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了…

Meta公开抄阿里Qwen作业,还闭源了… Jay 2025-12-11 11:48:25 来源:量子位 Ja...
MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这

MEET2026挤爆了,AI圈今年最该听的20+场演讲&对谈都在这 西风 2025-12-11 15:...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...