用GPT无需计算器也能求解数学问题

1,736次阅读
没有评论

GPT Can Solve Mathematical Problems Without a Calculator

Z Yang, M Ding, Q Lv, Z Jiang, Z He, Y Guo, J Bai, J Tang
[Tsinghua University & Zhipu.AI]

用GPT无需计算器也能求解数学问题

  • 本文挑战了一个普遍观点,即像GPT-4这样的大型语言模型在没有计算器的情况下,难以准确执行复杂的多位数算术运算,尤其是含小数/分数的运算。
  • 提出MathGLM,它从头训练,使用课程学习和逐步分解算式的策略,这使其能学习算术运算的基本规则和模式。
  • 20亿参数的MathGLM在9592个样本的测试集上取得了93%的准确率,远远超过了GPT-4的18.84%准确率,即使只有1亿参数的MathGLM也优于GPT-4。
  • 在用重构数据集(包含逐步解法)微调GLM-10B的基础上,MathGLM在5000个中文数学文本问题的数据集上也达到了与GPT-4相当的表现。
  • 逐步解法是MathGLM取得强大算术表现的关键,直接计算答案会大幅降低准确率。
  • 结果表明,通过充分的训练数据和逐步学习,大型语言模型可以在数学推理任务上获得优秀的表现。

动机:以往的研究普遍认为大型语言模型无法准确执行算术运算,特别是超过8位数字的乘法运算,以及涉及小数和分数的运算,而无需使用计算器工具。本文旨在挑战这一误解。

方法:通过充足的训练数据,一个拥有20亿参数的语言模型可以在没有数据泄漏的情况下,准确执行多位数的算术运算,准确率接近100%,大大超过GPT-4(其多位数乘法的准确率仅为4.3%)。本文还证明,所提出的MathGLM模型在一个包含额外多步算术运算和文本描述的数学问题数据集上进行微调后,与GPT-4在一个包含5000个样本的中文数学问题测试集上的表现相似。

优势:MathGLM模型能准确执行复杂的算术运算,包括超过8位数字的乘法运算,以及涉及小数和分数的运算。相较于其他大型语言模型,MathGLM在算术任务上表现出色。

介绍了一种能准确执行多位数算术运算的语言模型,展示了该模型在数学问题上的优越性能。

https://arxiv.org/abs/2309.03241 

用GPT无需计算器也能求解数学问题
用GPT无需计算器也能求解数学问题
用GPT无需计算器也能求解数学问题

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
手把手教你用AI 10分钟生成一个APP!零基础也能搞定

手把手教你用AI 10分钟生成一个APP!零基础也能搞定

今日,我将向大家展示DeepSeek的全新玩法——从零开始,利用AI创建一个完整的应用程序。借助DeepSee...
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二! 西风 2026-01-08 19:02:20 来源:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
给AI打个分,结果搞出17亿估值独角兽???

给AI打个分,结果搞出17亿估值独角兽???

给AI打个分,结果搞出17亿估值独角兽??? 闻乐 2026-01-07 17:32:01 来源:量子位 「匿...
全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026

全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026

全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026 量子位的朋友们 2026-01-06 16...
杜比在CES 2026重塑了观影、娱乐的方式

杜比在CES 2026重塑了观影、娱乐的方式

杜比在CES 2026重塑了观影、娱乐的方式 十三 2026-01-07 12:47:06 来源:量子位 树立...
OceanBase蝉联中国分布式数据库本地部署市场第一,领跑国产数据库

OceanBase蝉联中国分布式数据库本地部署市场第一,领跑国产数据库

OceanBase蝉联中国分布式数据库本地部署市场第一,领跑国产数据库 闻乐 2026-01-07 12:36...