量子位 精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优 精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优 衡宇 2025-11-28…