量子位 北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师 北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师 十三 2025-06…