见证历史！AI想的科研idea，真被人类写成论文发表了

一水
2024-12-18
13:24:14

来源：量子位

出自首位“AI科学家”

天啦撸！！AI想出来的idea，还真有人写成论文了。

甚至预印本arXiv、博客、代码全都有了。

今年8月，Sakana AI（由Transformer论文8位作者的最后一位Llion Jones创业成立）这家公司推出了史上首位“AI科学家”，且一登场就一口气生成了十篇完整学术论文。

而现在，受其中一篇论文想法的启发，人类研究员真的写出相关论文并在arXiv上公开了。

OpenAI前研究团队负责人Jeff Clune激动直言：

简直不敢相信！这是它产生的我最喜欢的想法之一。看到与人类达成一致真是太酷了，人类确实执行得更好。

话不多说，让我们来康康论文具体内容。

Claude提的idea，被人类写成论文了

翻开“AI科学家”之前撰写的论文，我们找到了Jeff Clune提到的这一篇。

《Grokking Through Compression: Unveiling Sudden Generalization via Minimal Description Length》
通过压缩实现Grokking：借助最小描述长度（MDL）揭示突然泛化现象

根据描述，这篇论文的想法由Claude 3.5 Sonnet在第22次迭代时提出。

它主要探讨了神经网络中最小描述长度（MDL）与 “grokking” 现象（模型经长时间训练后突然泛化）的关系，从信息论视角研究突然泛化的机制。

其中，MDL可以被看成一种衡量模型复杂度和可压缩性的方法，即模型既要能够很好地拟合数据，又不能过于复杂（避免过拟合）。

具体而言，研究引入了一种基于权重剪枝的新型MDL估计技术，并将其应用于多种数据集，包括模块化算术和排列任务。相关实验揭示了MDL减少与泛化能力提高之间存在强烈的相关性（下图），MDL的转变点通常在“grokking”事件发生之前或与之同时出现。

此外，研究观察到在“grokking”与非“grokking”情境下MDL演变模式的差异，前者以快速的MDL减少后持续泛化为特征。这些发现为理解“grokking”的信息论基础提供了见解，并表明在训练期间监控MDL可以预测即将发生的泛化。

Okk，了解了原论文，我们再来看人类选手最新发表的内容。

概括而言，他们研究了神经网络在 “grokking” 现象中的复杂性动态，即网络从记忆训练数据到实现完美泛化的过渡过程，并提出了一种基于失真压缩理论的新方法来衡量神经网络的复杂性。

首先，作者之一Branton DeMoss自述，他们受到了Sean Carroll和Scott Aaronson之前研究的启发。

通过观察咖啡与奶油混合的现象，Scott等人发现复杂性随着时间的推移首先上升，然后下降，这一过程与熵单调增加的趋势相似。

而DeMoss团队形式化了这一直觉，并将其应用于神经网络，以跟踪这些网络学习的抽象复杂度。

展开来说，作者们同样先介绍了grokking现象，即神经网络在长时间过度拟合训练数据后突然能够泛化的能力。

其中x轴表示优化步数，y轴表示准确率；红线代表训练集的准确率，绿线代表验证集的准确率。

可以看到，如果训练一个小型Transformer来进行模拟，在几百个训练步骤之后，模型已经完美地拟合了训练数据；然而，它直到大约10^5个训练步骤才能实现泛化。

为了解释这一现象，团队引入了一种基于失真压缩和Kolmogorov复杂性的新方法来衡量神经网络的复杂性，并通过这一框架追踪了grokking过程中网络复杂性的动态变化。

按照作者的比喻，这就像“神经网络的JPEG”。

研究结果表明，网络在从记忆到泛化的过渡中，其复杂性首先上升，随后在泛化发生时下降。

进一步地，研究发现如果神经网络没有任何形式的正则化（一种防止过拟合的技术），它将无法从记忆阶段过渡到泛化阶段，而是会无限期地保持记忆模式。

没有正则化的反应：

有正则化的反应：

此外，作者指出传统的复杂性评判标准（如参数数量和权重范数）并不能准确描述模型的复杂性，因为它们忽略了训练过程中的变化。

对此，他们采用了最小描述长度（MDL）原则和Kolmogorov复杂度来定义和近似复杂性，并通过实验验证了这种方法，并强调了简单模型在数据压缩中的优势。

最终，研究表明理解复杂性对预测模型泛化能力至关重要。

更多细节感兴趣可以查阅原论文（地址文末）。

可以看出，一个由AI最初提出的想法，最终由人类来完成了更细致的论证。

有网友就分析指出AI写的那篇实验结果不及人类研究员：

而之前撰写过“AI科学家”总论文的共同一作Cong Lu也表示：

谁知道未来AI还会激发出哪些其他想法……

BTW，就在Sakana AI公布“AI科学家独立生成10篇学术论文”的消息后，公司在9月份还拿到了一笔2亿美元的A轮融资，里面还有英伟达的参与。

总之，AI以后不仅能自己写论文，还能和人类搭配干活了。

2024 年 12 月
一	二	三	四	五	六	日
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

见证历史！AI想的科研idea，真被人类写成论文发表了

见证历史！AI想的科研idea，真被人类写成论文发表了

Claude提的idea，被人类写成论文了

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

杜比在CES 2026重塑了观影、娱乐的方式

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

开源“裸考”真实世界，国产具身智能基座模型拿下全球第二！

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

杜比在CES 2026重塑了观影、娱乐的方式

全自主、更好用！北京人形 “干活机器人” 惊艳亮相 CES2026

1956-2026：人类与机器智能的七十年对话

港科大教授实测AI眼镜“作弊”：30分钟碾压95%的学生，把传统教学评估体系整破防了