量子位 月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用 月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用 克雷西 2025-0…
量子位 多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学 多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学 衡宇 2025-02-…
量子位 1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法 1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法 西风 20…