打脸奥特曼，GPT-4今年比去年还懒！网友在线实测出炉

克雷西发自凹非寺
量子位 | 公众号 QbitAI

GPT-4变懒的问题，又有新进展。

就在今天凌晨，奥特曼发推称，GPT-4这个毛病在新的一年应该好多了！

关于GPT-4变懒，网友的吐槽已是不计其数，其中最多的就是与代码相关的任务：

完成度不高不说，还会被分割成一个一个小块，使用时需要逐一复制。

对于最新版本，一位博主体验之后表示，自己尝试给一年级的孩子做了个学习用的小游戏，效果还不错。

打脸奥特曼，GPT-4今年比去年还懒！网友在线实测出炉

但也有人不认同，比如这位网友就发现，ChatGPT回复的长度虽然增加了，但是很多都是车轱辘话，干正事依旧摆烂。

他让ChatGPT把一些文本翻译成17种语言，结果叽里呱啦说了一堆就是不翻译。

打脸奥特曼，GPT-4今年比去年还懒！网友在线实测出炉

为了消除个体差异，有网友用数据集测试了新的ChatGPT，结果……

新版反而更懒了？

这位网友用GitHub上开源的一套“lazy benchmark”测试了0125（24年1月最新版）和1106（23年11月的上一版）GPT-4模型，发现新版甚至还不如以前，变得更懒了。

打脸奥特曼，GPT-4今年比去年还懒！网友在线实测出炉

这个测试数据集包含了与代码相关的任务，用正确完成的比例间接反应“懒惰”程度，完成率越高说明“惰性”越小。

结果，对于其中的代码比较（Unified diffs）任务，旧版能完成的比例尚且超过了一半，为57%，新版的完成率却仅有44%，降低了近四分之一。

打脸奥特曼，GPT-4今年比去年还懒！网友在线实测出炉

直观感受上，也有人发现ChatGPT的“懒惰”变本加厉了——

以前就算偷懒至少还会糊弄一下，给出个大概的框架让用户自行补充，现在直接就是摆烂说自己干不了。

打脸奥特曼，GPT-4今年比去年还懒！网友在线实测出炉

而针对网友们的这番发现，也有人给出了锐评：

几周之前奥特曼就说过GPT-4表现变好了，但是有人感觉到差别吗？

打脸奥特曼，GPT-4今年比去年还懒！网友在线实测出炉

这次，关于GPT-4变懒的原因，以及到底采用了什么优化策略，奥特曼也未做进一步说明。

“土办法”可降低惰性

不过，之前的一项研究表明，GPT-4的惰性可能与时间相关，这一结论与GPT-4“变懒”的现象出现在年末的12月相吻合。

打脸奥特曼，GPT-4今年比去年还懒！网友在线实测出炉

按照这一理论，新年伊始，模型的表现的确会有所提升，但似乎解释不了表现不升反降的现象。

不过，网友们也总结了一些“土办法”，能在一定程度上降低ChatGPT的惰性。

比如告诉它“我没有手指”，就能得到相对完整的代码，而不是一段段碎片。

打脸奥特曼，GPT-4今年比去年还懒！网友在线实测出炉

又或者，告诉ChatGPT自己会“给小费”，也能激发它的工作动力。

甚至有人专门针对“小费”的金额进行了研究，发现10美元的性价比是最高的。

打脸奥特曼，GPT-4今年比去年还懒！网友在线实测出炉

那么，你觉得ChatGPT是变好了还是更懒了？

参考链接：
[1]https://twitter.com/sama/status/1754172149378810118
[2]https://aider.chat/docs/benchmarks-0125.html

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

打脸奥特曼，GPT-4今年比去年还懒！网友在线实测出炉

2024 年 2 月
一	二	三	四	五	六	日
	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

打脸奥特曼，GPT-4今年比去年还懒！网友在线实测出炉

克雷西发自凹非寺
量子位 | 公众号 QbitAI

新版反而更懒了？

“土办法”可降低惰性

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

悲报！Stack Overflow彻底凉了，比18年前上线首月问题数量还少

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

悲报！Stack Overflow彻底凉了，比18年前上线首月问题数量还少

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

打脸奥特曼，GPT-4今年比去年还懒！网友在线实测出炉

克雷西 发自 凹非寺量子位 | 公众号 QbitAI

新版反而更懒了？

“土办法”可降低惰性

文心AIGC

克雷西发自凹非寺
量子位 | 公众号 QbitAI