Emergent and Predictable Memorization in Large Language Models
解决问题:该论文旨在解决大型语言模型(LLMs)中的记忆化问题,即模型会完整地输出其训练数据中的序列,这可能包含个人身份信息(PII)等敏感数据。论文试图预测哪些序列会被记忆化,以便在模型训练期间进行干预,从而避免敏感信息的泄露。
关键思路:论文的关键思路是通过在较低计算量的试运行中推断出模型在完整训练期间的记忆化行为,以预测哪些序列会被记忆化。研究还发现,中间检查点比小型完全训练模型更好地预测了模型的记忆化行为。相较于目前该领域的研究,该论文的新意在于提供了一种早期预测记忆化行为的方法。
其他亮点:该论文的实验使用了Pythia模型套件,并在模型和数据的记忆化得分分布方面提供了新的发现。该论文没有提供开源代码,但提供了数据集和模型的详细信息。在未来的研究中,值得深入探讨的是如何更好地预测模型的记忆化行为,并开发更有效的方法来减少模型的记忆化。
关于作者:主要作者包括Stella Biderman、USVSN Sai Prashanth、Lintang Sutawika、Hailey Schoelkopf和Quentin Anthony。他们所在的机构是OpenAI。在过去的研究中,Stella Biderman曾参与撰写“Scaling Laws for Neural Language Models”一文,USVSN Sai Prashanth曾参与撰写“GPT-2: Language Models are Unsupervised Multitask Learners”一文,Lintang Sutawika曾参与撰写“Benchmarking Zero-shot Text Classification: Datasets, Evaluation and Entailment Approach”一文,Hailey Schoelkopf曾参与撰写“Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”一文,Quentin Anthony曾参与撰写“Learning to Summarize from Human Feedback”一文。
相关研究:近期的相关研究包括“Learning to Stop: Predicting When Neural Language Models Will Under- or Overfit”(作者:Nelson F. Liu、Roy Schwartz、Noah A. Smith,机构:University of Washington、Allen Institute for AI)和“Controlling Information Flow in Large Language Models”(作者:Alexey Romanov、Shivendra Singh、Kyle Lo、Patrick Lewis、Mohammad Shoeybi、Michael Mozer、Christopher Ré,机构:University of Colorado Boulder、NVIDIA、Stanford University)。
论文摘要:大型语言模型的紧记现象,即倾向于完整输出其训练数据序列,是安全部署语言模型的一个关键问题。特别是,最小化模型对包含个人身份信息(PII)等敏感数据点的记忆至关重要。这种不良记忆的普遍存在可能会给模型训练者带来问题,甚至可能需要放弃一个本来功能正常的模型。因此,我们试图在大型模型的全面训练之前通过外推较低计算试验运行的记忆行为来预测哪些序列将被记忆。我们测量了Pythia模型套件的记忆,并发现中间检查点比较小的完全训练模型更能预测模型的记忆行为。我们还提供了关于模型和数据的记忆分数分布的进一步新发现。