代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

1,217次阅读
没有评论

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

一款号称代码能力超越GPT-4的模型,引发了不少网友的关注。

准确率比GPT-4高出超过10%,速度却接近GPT-3.5,而且窗口长度也更长。

开发者描述,他们的模型取得了74.7%的Pass@1通过率,超过了原始GPT-4的67%,登上了Big Code榜首。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞
代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

这个模型名叫Phind,和以其为基础的面向开发者的AI搜索工具同名。

它是由开发团队在CodeLlama-34B的基础之上微调得到的。

Phind利用TensorRT-LLM在H100上可以跑出每秒100个token的速度,是GPT-4的5倍。

此外,Phind的上下文长度达到了16k,其中12k可供用户输入,另外4k保留给检索结果中的文本。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

针对这个产品,网友们议论纷纷,结果是喜忧参半:

支持的人,如著名创业投资公司YCombinator创始人Paul Graham表示,Phind可以让人们用更少的资源和大厂抗衡。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

也有网友具体列出了Phind的优点:

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

不认可Phind的网友则说,自己之前用GPT-4写的代码,Phind写不出来:

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

更是有人吐槽说,GPT“每天都在被打败”,但是从来没被超越过。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

有意思的是,在Phind应用当中,自研模型又被称作“fast model”,而“best model”仍然是GPT-4。

(虽然没明说,但是GPT-4和best model的剩余可用次数是同步变化的)

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

所以,这个号称“击败了GPT-4”的模型到底是不是真的那么好用,我们进行了一番实测。

Phind vs GPT-4

正式开始之前,先来说说对Phind的第一印象。

它的界面十分简洁,主要就是一个搜索框,而且不需要登录就能无限量使用。

左下角有一个Pair Programmer的开关,直观上的区别就是开启之后回答界面更侧重对话,不开启的话则更像搜索引擎。

此外,还可以从自研模型和GPT-4中选择,GPT-4则需要登录,而且每天只能用10次。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

接下来就是和GPT-4进行的对比测试,GPT-4没有开启代码解释器。

首先还是从LeetCode题目开始测起,Prompt就是是原问题加上下面这段话:

请用Python写一段代码解决这个问题,给出通用的解法,不需要设定参数值,代码需要以如下内容开头:
(LeetCode页面中给出的起始片段)

为了防止Phind通过检索来“作弊”,我们还在Phind的Prompt结尾加入了这句话:

不要检索任何信息,靠你自己的能力创建代码

第一题在LeetCode中被归为组合数学问题,难度为困难,通过率67.1%。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

Phind给出了这样的代码和解释,经过测试,20条测试数据中有19项正确。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

出错的是这一条,这里的输出结果应该是3,但Phind给出的程序运行结果是4。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

我们试着反馈给Phind,看它能不能找出错误的原因,结果分析一番之后给出了新的代码,并通过了测试。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

而GPT-4这边,则是一次性通过。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

进入下一题,这道题目涉及到了动态规划,通过率为53.9%。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

这次Phind和GPT-4都是以一次通过。
代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞
代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

第三道题目的通过率只有约30%,但它的难度可能在于用来判题的测试数据太庞大了。

Phind给出的这段代码就在通过前12组测试数据之后出现了运行时间超限的现象。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

我们让它试着进行优化,结果这次直接是算不对了。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞
代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

而GPT-4则轻松解决,不过在解释说明部分有些错误,因为超级回文数的概念中的描述是“回文数的平方”而不是“平方是回文数”。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

三道LeetCode题目测试下来,Phind以一平两负的成绩输给了GPT-4。

但需要说明的是,这里我们为了测试模型本身表现,通过提示词关闭了Phind的检索功能,但从实用角度出发,如果保留搜索,Phind还是能很好地解决这些问题的。

接着,我们又测试了一下他们的实际开发能力,这次的题目是扫雷游戏

Phind会问我们有没有什么特殊要求,这里我们直接点跳过。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

然后Phind会对任务进行拆解,对每个子任务又分别进行检索。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

这时的代码也是分段给出的,有趣的是,在生成过程中,Phind会使用不同来源中的代码。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

然后我们让Phind给出完整代码,并通过链接的第三方平台直接运行。

结果呢,我们一进去就看到程序已经非常“贴心”地把雷的位置清楚地标注好了。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

不过这次,GPT-4的代码更加离谱一些,运行出来是这样的:

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

虽然都没做对,但硬要比较的话,这一轮,Phind略胜一筹。

一路测试下来,很难判断它们孰优孰劣,但考虑到搜索能力,以及免费免登录的特性,Phind还是可圈可点的。

参考链接:

https://www.phind.com/blog/phind-model-beats-gpt4-fast

《2023年度十大前沿科技报告》案例征集

量子位智库《2023年度十大前沿科技报告》,启动案例征集。诚邀顶级研究机构、一流投资大咖、前沿科技创新公司,参与共创,分享案例。

扫描图片二维码参与前沿科技案例征集。了解更多细节可联系报告负责人:郑钰瑶(微信:CarolineZheng_,请备注企业+姓名)。

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 11 月
 12345
6789101112
13141516171819
20212223242526
27282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议

钉钉又发新版本!把 AI 搬进每一次对话和会议 梦晨 2025-12-11 15:33:51 来源:量子位 A...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了

读懂2025中国AI走向!公司×产品×人物×方案,最值得关注的都在这里了 衡宇 2025-12-10 12:3...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案

戴尔 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案 十三 2025-12-10 1...
九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局

九章云极独揽量子位三项大奖:以“一度算力”重构AI基础设施云格局 量子位的朋友们 2025-12-10 18:...
乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头

乐奇Rokid这一年,一路狂飙不回头 梦瑶 2025-12-10 20:41:15 来源:量子位 梦瑶 发自 ...