Colossal-AI 建立了包含监督数据集收集 -> 监督微调 -> 奖励模型训练 -> 强化学习微调的完整 RLHF 流程,以 LLaMA 为基础预训练模型,推出 ColossalChat。
开源地址:https://github.com/hpcaitech/ColossalAI
包含以下内容:
1. Demo:可直接在线体验模型效果,无需注册或 waitinglist
2. 训练代码:开源完整 RLHF 训练代码,已开源至含 7B 和 13B 两种模型
3. 数据集:开源 104K 中、英双语数据集
4. 推理部署:4bit 量化推理 70 亿参数模型仅需 4GB 显存
5. 模型权重:仅需单台服务器少量算力即可快速复现
6. 更大规模模型、数据集、其他优化等将保持高速迭代添加
更多内容请参考https://mp.weixin.qq.com/s/V5pCvYvkPXwiMw-FNIErXw
正文完
可以使用微信扫码关注公众号(ID:xzluomor)