量子位 突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力 突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力 闻乐 2025-…
量子位 挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16% 挑战AI数学推理极限!大规模形式化数学基准FormalMATH发布,最强模型成功率仅16% 闻乐 2025-0…