我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

1,343次阅读
没有评论

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

大模型要在数学竞赛上跟人类同场竞技啦!

最新消息,阿里巴巴全球数学竞赛,今日官宣开启报名。依然不限年龄、国籍、职业,有意思的是,这次甚至突破了碳基硅基的限制——

首次向AI开放,诚邀全球大模型参赛。

不仅如此,获胜AI最高还可获得10000美元(约合7.2万元人民币)奖金。

我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

如此因崔斯汀的消息,当即引起了网友们的关注。

我们还打听到,国内外有不少高校研究团队和大模型创业公司已经表达出浓厚兴趣,准备参赛。

新设「AI挑战赛」

具体来看规则。

2024阿里全球数赛,在预选赛阶段增设了一场AI挑战赛

和参加常规赛的人类选手一样,大模型们也要对同一套预赛试题作出解答,考核内容的难度相当于数学本科一年级水平,重点考察AI的数学逻辑推理与问题解决的能力。

我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

赛制方面,数赛官网已在今天(3月14日)开放统一报名通道,大模型参赛团队须在报名页勾选AI参赛选项。

完成报名后,官方会提供历届数赛初赛的真题和答案,让大模型选手们可以在正式比赛前先刷刷题练练手。

4月13日-15日,官网将开启初赛考试通道,参赛选手需要在此期间完成答题,并在系统中提交人类评委看得懂的答卷。

组委会将根据大模型在此过程中展现出的创新性、解题效率、解题过程的逻辑性等因素综合评分,并给出具体评语。

最终得分排名前三的AI将依次获得10000美元5000美元2000美元的奖金。如果所有AI均不能有效作答,则奖金会累积滚动到下届赛事的奖金池。

值得一提的是,AI挑战赛允许人类使用提示词工程来调教大模型。

但为了确保公平竞赛,避免人类替考,参赛者需要在开赛前就提交模型代码或Prompt,以供校验复现。

(这波是反向防作弊了)

我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

大模型挑战数学竞赛·实测版

正式比赛尚未开始,但显然,面对数学竞赛题,AI具体会有怎样的表现,已经成为这届阿里数学竞赛的关注焦点之一。

为了满足大家伙儿(包括我们自己)的好奇心,量子位已经率先要到了历届初赛的真题和参考答案,咱们就请出当前最强的两位通用大模型选手——GPT-4和Claude 3,来个真题演练,先睹为快。

Round 1:选择题

开胃小菜。先来这道2023年阿里数学竞赛初赛的一道图论题:

我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

还是先来看GPT-4的表现。

在代码解释器的加持之下,GPT-4成功选对了C选项,即90≤S≤100。并且,GPT-4也给出了具体的解释:

它通过简化模型估算出等待总时间最小可能值是81,考虑到实际线路中可能出现更多必须直行和左转的情况,结合选项,S值会更接近90而小于100。

我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走
GPT-4真的很话痨

同样的题目抛给Claude 3:

我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

Claude 3成功判断了题型,但很遗憾回答错误。

不过如果我们稍稍给点提示,比如:是否能将小明行驶的路线看成一个100边形,来尝试解题。

Claude 3瞬间就get到了思路,这次计算正确:S=96,选C。

我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

这么看来,大模型的表现还是可圈可点的。它们在工具加持又或者在人类点拨的情况下,能够给出正确答案的同时,还能给出具体的解题思路。

Round 2:证明题

选择题之外,证明题也是阿里数学竞赛必出的题型。我们也挑选了一道题来进行测试。

我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

先说正确结论:对于第一问,答案是存在;对于第二问,答案是不存在。

来看GPT-4的答题情况:

我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

Claude 3的答案:

我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

这一次,打分权交给你,你觉得GPT-4和Claude 3各能得几分?

我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

总结一下,从测试结果来看,大模型们挑战阿里数学竞赛题,还是难度不小。

尽管基础知识丰富,能够初步判断出所考题型;计算速度也飞快,但也常会出现胡言乱语的状况,仍需要人类的指正和点拨。

“AI改变数学的时代正在到来”

在我们的初步测试中,大模型的解题表现虽然不如那些能闯入决赛的人类选手,但已经可以想见,在这种新的碰撞中,我们可以期待看到更多AI在抽象思维、逻辑思辨和巧妙解题方面能力的展示。

对此,阿里全球数学竞赛组委会也做出了阐释:

我们希望通过引入AI参赛,可以推动人工智能在数学领域的研究和应用创新,特别是探索AI在解决复杂数学问题方面的潜力,催生新的模型和训练方法。

虽然我们预计今年AI还可能不及人类选手的水平,但是未来差距无疑会不断缩短,甚至于超越。这一旦发生,会倒逼竞赛难度提升,也会让人类选手迸发更大潜能。

此外,数学本身就是AI的基础,我们也会去解读一些优秀AI背后的数学原理,向公众展示数学对于AI的重要性和应用前景,希望能够提升大众,特别是青少年对基础学科的兴趣。

我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

早在ChatGPT刚开始流行之时,以陶哲轩等人为代表的数学家们,就对大模型保持高度关注。

陶哲轩本人不仅将多种AI工具都纳入了自己的工作流,还大胆预言:

当与形式证明验证器、互联网搜索和数学符号包等工具整合时,2026年的AI,如果使用得当,将成为数学研究中值得信赖的共同作者,并且在许多其他领域也是如此。

我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

而《纽约时报》更是在对多位知名数学家进行采访后,给出了这样的评论:

AI改变数学的时代正在到来。

AI is coming for mathematics, too.

现在,阿里全球数学竞赛这样备受关注的赛事主动拥抱AI,再次印证了这一新趋势。

背后透露出的,还有数学界面对新一轮技术变革所产生的期待。

对于人类选手而言,AI与数学更深入的结合趋势已经显现,这样的比赛,可以作为新一类接触的桥梁。

对于数学家和AI研究者们而言,这样的平台为AI for Math提供了一个测试研究成果的基准,有助于推动更多数学与AI的前沿研究。

而对于大众,这也是进一步理解AI能力,和数学魅力的一扇窗口。

据说,此次大赛主办方还将联合魔搭社区,准备招募更多的开发者来参与;到时候一些国内主流的开源数学模型也出来打配合,同开发者一道与一众数学爱好者们同场竞技!

哦莫,已经可预见的是,数学界的人机混战一触即发~

我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

所以广大开发者们也不要光看了,赶紧来试试,没准儿还能赚点生活费……

你说是吧~

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

我用GPT-4参加阿里数学竞赛!官方:今年欢迎,7万奖金凭本事拿走

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 3 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...