智源 Cerebras-GPT:在Cerebras Wafer-Scale集群上训练的开放式计算优化语言模型 【推荐理由】本文是第一篇比较基于计算优化的模型缩放和基于固定数据集大小训练的模型的开放和可复制的工作。 C…