人工智能模型“深呼吸”会导致数学分数在学习中飙升

1,221次阅读
没有评论

谷歌DeepMind研究人员最近开发了一种技术,通过使用其他人工智能模型来改善提示,以提高ChatGPT等人工智能语言模型中的数学能力——告诉人工智能模型该做什么的书面说明。它发现,使用人类风格的鼓励极大地提高了数学技能,这与之前的结果一致。

在本月在arXiv上列出的一篇名为“作为优化器的大型语言模型”的论文中,DeepMind科学家介绍了通过PROmpting优化(OPRO),这是一种提高OpenAI的ChatGPT和谷歌的PaLM 2等大型语言模型(LLM)性能的方法。这种新方法通过使用自然语言来指导法学硕士解决问题,从而回避了传统数学优化器的局限性。“自然语言”是人类日常语言的一种花哨的表达方式。

研究人员写道,我们不是正式定义优化问题并使用编程求解器推导更新步骤,而是用自然语言描述优化问题,然后指导LLM根据问题描述和之前找到的解决方案迭代生成新的解决方案。

通常,在机器学习中,使用基于衍生优化器等算法的技术是提高人工智能模型性能的指南。将模型的性能想象为图形上的曲线:目标是找到这条曲线上的最低点,因为这是模型犯错误最少的地方。通过使用曲线的斜率进行调整,优化器有助于模型越来越接近理想的低点,使其在设计完成的任何任务时都更加准确和高效。

OPRO没有依靠正式的数学定义来执行这项任务,而是使用自然语言描述的“元提示”来为优化过程奠定基础。然后,LLM根据问题的描述和以前的解决方案生成候选解决方案,并通过给每个解决方案分配质量分数来测试它们。

在OPRO中,两个大型语言模型扮演着不同的角色:记分器LLM评估准确性等目标函数,而优化器LLM根据过去的结果和自然语言描述生成新的解决方案。评估了记分器和优化器LLM的不同配对,包括PaLM 2和GPT变体等模型。OPRO可以通过让优化器迭代生成更高得分的提示来优化得分者LLM的提示。这些分数有助于系统识别最佳解决方案,然后将这些解决方案重新添加到下一轮优化的“元提示”中。

“深呼吸,一步一步地做这件事”

也许DeepMind研究中最有趣的部分是特定短语对输出的影响。像“让我们一步一步地思考”这样的短语促使每个人工智能模型在对照数学问题数据集进行测试时产生更准确的结果。(由于一篇名为“大型语言模型是零射击推理者”的著名论文,这项技术在2022年5月广为人知。)

考虑一个简单的单词问题,例如,“Beth在一周内烤了四批二十几批饼干。如果这些cookie在16人之间平等共享,那么每个人消耗多少cookie?”2022年的论文发现,您不只是向聊天机器人单独输入这样的单词问题,而是在它前面加上“让我们一步一步地思考”,然后粘贴问题。人工智能模型结果的准确性几乎总是提高,并且与ChatGPT配合良好。

有趣的是,在这项最新研究中,DeepMind研究人员发现,当与谷歌的PaLM 2语言模型一起使用时,“深呼吸并逐步解决这个问题”是最有效的提示。该短语在针对GSM8K的测试中获得了80.2%的最高准确率分数,GSM8K是小学数学单词问题的数据集。相比之下,在没有任何特殊提示的情况下,PaLM 2在GSM8K上仅获得了34%的准确率,而经典的“让我们一步一步地思考”提示获得了71.8%的准确率。

那么,为什么这有效呢?显然,大型语言模型不能深呼吸,因为它们没有肺或身体。他们也不像人类那样思考和推理。他们所做的“推理”(而“推理”在一些人中是一个有争议的术语,尽管它很容易被用作人工智能中的艺术术语)是从从书籍和网络中抓取的大量语言短语数据集中借来的。这包括问答论坛等内容,其中包括许多“让我们深呼吸”或“一步一步思考”的例子,然后再展示更仔细的推理解决方案。这些短语可以帮助LLM利用更好的答案,或者从它在训练期间吸收到神经网络的数据集中产生更好的推理或解决问题的例子。

尽管找出给予LLM人类般的鼓励的最佳方式对我们来说有点困惑,但这对OPRO来说不是问题,因为该技术利用大型语言模型来发现这些更有效的提示短语。DeepMind研究人员认为,OPRO最大的胜利是它能够筛选许多可能的提示,以找到为特定问题提供最佳结果的提示。这可以让人们在未来从法学硕士中产生更有用或更准确的结果。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...