Microsoft|高性能RLHF:减少PPO的内存使用

581次阅读
没有评论

Efficient RLHF: Reducing the Memory Usage of PPO

M Santacroce, Y Lu, H Yu, Y Li, Y Shen
[Microsoft]

高性能RLHF:减少PPO的内存使用

要点:

  • 研究了减少强化学习人工反馈(RLHF)中Proximal Policy Optimization(PPO)的内存使用技术
  • 发现与监督微调(SFT)相比,PPO使用了3倍以上的内存,使其对许多用户不可行。
  • 提出Hydra-RLHF,将参考和奖励模型合并为一体,并在PPO过程中动态关闭LoRA以重用模型。
  • 实验表明,与SFT相比,Hydra-PPO的内存使用类似,而在4个数据集上改进了对齐。
  • 增加批量大小以利用节省的内存,将Hydra-PPO每样本延迟降低了高达65%,比标准PPO快。
  • 得出结论Hydra-PPO通过减少内存需求同时保持准确性,使更广泛使用RLHF成为可能。
  • 确定在更多层面共享和改进Joined Hydra-PPO是未来工作的领域。

动机:解决强化学习中使用人工反馈的方法在内存使用方面的问题,以促进其更广泛的应用。
方法:提出一种名为Hydra-PPO的方法,通过整合监督微调(SFT)和奖励模型,并在训练过程中动态关闭LoRA模块,从而减少Proximal Policy Optimization(PPO)的内存使用。
优势:Hydra-PPO方法在减少内存使用的同时,保持了性能,并且能提高PPO的训练速度和批处理大小,从而更广泛地应用于强化学习中。

一句话总结: 提出Hydra-PPO方法,通过整合监督微调(SFT)和奖励模型并动态关闭LoRA模块,既减少了内存使用,又提高了PPO的性能和训练速度。

https://arxiv.org/abs/2309.00754 

Microsoft|高性能RLHF:减少PPO的内存使用
Microsoft|高性能RLHF:减少PPO的内存使用

 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy