大型语言模型的涌现记忆和可预测记忆

816次阅读
没有评论

Emergent and Predictable Memorization in Large Language Models

介绍了大型语言模型(LLM)在训练数据中完全输出序列的趋势,即记忆化(Memorization),以及如何预测模型将记忆化哪些特定数据点的方法。研究发现,采用部分训练checkpoints来预测完全训练后模型的记忆化行为要比使用更小的完全训练模型来预测更有效。

S Biderman, U S Prashanth, L Sutawika, H Schoelkopf, Q Anthony, S Purohit, E Raf
[EleutherAI]

大型语言模型的涌现记忆和可预测记忆

要点:

  • 动机:为了预测大型语言模型在训练数据中记忆化哪些敏感数据点,并最小化此类不必要的记忆化。
  • 方法:使用intermediate checkpoints来预测大型语言模型的记忆化行为,发现此方法比使用更小的完全训练模型来预测更有效。
  • 优势:提供了一种新的方法来预测大型语言模型的记忆化行为,并发现小型模型的记忆化预测结果不可靠。

https://arxiv.org/abs/2304.11158 
大型语言模型的涌现记忆和可预测记忆
大型语言模型的涌现记忆和可预测记忆
大型语言模型的涌现记忆和可预测记忆

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy