首个视觉RL统一框架！推理感知两手抓，性能横扫MEGA-Bench

鹭羽
2025-05-28
22:30:45

来源：量子位

鹭羽发自凹非寺

量子位 | 公众号 QbitAI

仅需一个强化学习（RL）框架，就能实现视觉任务大统一？

现有RL对推理和感知任务只能二选一，但“大模型六小强”之一MiniMax表示：我全都要！

最新开源V-Triune（视觉三重统一强化学习系统）框架，使VLM首次能够在单个后训练流程中，联合学习和掌握视觉推理和感知任务。

通过三层组件设计和基于动态交并比（IoU）的奖励机制，弥补了传统RL方法无法兼顾多重任务的空白。

甚至基于V-Triune，MiniMax还一步到位，贴心地给大家开发了全新的Orsta（One RL to See Them All）模型系列（7B至32B），在MEGA-Bench Core基准测试中从+2.1%显著提升至+14.1%。

值得注意的是，在论文的作者一栏，MiniMax创始人兼CEO闫俊杰也参与了这项研究。

目前V-Triune框架和Orsta模型都在GitHub上实现全面开源，点击文末链接即可跳转一键获取。

那话不多说，咱们直接上细节。

推理感知“两手抓”

视觉任务可以分为推理和感知两类，在当前，RL研究主要集中于数学QA和科学QA等视觉推理任务。

而目标检测和定位等视觉感知任务，因亟需独特的奖励设计和训练稳定性保障，还没有得到一个很好的解决方案……

针对上述问题，MiniMax针对性地提出了新框架V-Triune，作为首个面向VLM后训练的统一RL系统，通过三个互补组件核心巧妙实现二者的平衡。

样本级数据格式化

让每个样本自定义其奖励设置和验证器，支持动态路由和权重调整，以处理多种任务需求。

数据模式基于HuggingFace数据集实现，包含以下三个字段：

reward_model：样本级定义奖励类型、权重。
verifier：指定验证器及其参数。
data_source：标识样本来源。

最终实现了多样化数据集的无缝集成，同时支持高度灵活的奖励控制。

验证器级奖励计算

采用异步客户端-服务器架构，将奖励计算与主训练循环解耦。

客户端通过代理工作器异步发送请求，而服务器则根据”verifier”字段路由至专用验证器。

主要使用两类验证器：

MathVerifyVerifierr：处理推理、OCR和计数任务。
DetectionVerifier：处理检测和定位任务，应用动态IoU奖励。

从而实现在无需修改核心训练流程的情况下，灵活扩展新任务或更新奖励逻辑。

数据源级指标监控

在多任务多源训练中，按数据源记录以下指标：

奖励值：追踪数据集特定稳定性。
IoU和mAP（感知任务）：记录不同阈值下的IoU和mAP。
响应长度和反思率：跟踪响应长度分布、截断率，以及15个预定义反思词（如“re-check”）的出现比例。

该监控机制帮助诊断模型行为（如过度思考或肤浅响应），并确保学习的稳定性。

动态IoU奖励

此外针对监测和定位任务，团队还创新性地提出了动态IoU奖励，分阶段调整阈值，以缓解冷启动问题，同时引导模型逐步提升定位精度：

首个视觉RL统一框架！推理感知两手抓，性能横扫MEGA-Bench

虽然V-Triune提供了可扩展的数据、任务和指标框架，但早期实验显示，联合训练可能会导致评估性能下降、梯度范数突增等不稳定现象，于是团队又通过以下调整逐步解决：

冻结ViT参数，防止梯度爆炸。
过滤伪图像特殊词元，确保输入特征对齐，提升训练稳定性。
构建随机化CoT提示池，降低提示依赖性。
由于V-Triune基于Verl框架实现，主节点内存压力较大，需解耦测试阶段与主训练循环以管理内存。

Orsta模型

另外值得一提的是，基于开源的Qwen2.5-VL模型，团队还训练出7B和32B的Orsta模型。

依据4类推理任务（数学、谜题、科学、图表分析）和4类感知任务（物体检测、目标定位、计数、OCR）的训练数据，进行规则和难度的两阶段过滤和训练优化。

最终实现在MEGA-Bench Core基准测试中，Orsta相比原始模型提升至+14.1%，尤其是在感知任务中，mAP指标显著提高，证明了该统一方法的有效性和可扩展性。

MiniMax布局多模态领域

MiniMax作为商汤背景出身的AI六小龙之一，近期在多模态领域可谓动作频频，模型横跨语言、音频、视频。

例如MiniMax的S2V-01视频模型、MiniMax-VL-01视觉多模态模型以及MiniMax-T2A-01系列语言模型等。

尤其是广受好评的MiniMax-01系列，包含基础语言模型和视觉多模态模型两种，性能上比肩DeepSeek-V3、GPT-4o等国内外顶尖模型的同时，还首次创新性实现了对新型Lightning Attention架构的大规模扩展。

最新发布的Speech-02，在AI语言生成上也是一骑绝尘，直接刷新全球权威语音基准测试榜单第一，一举打破OpenAI、ElevenLabs的行业垄断。

据悉，此番统一视觉任务的RL架构

是为后续更大规模模型的通用视觉能力做探索。

MiniMax的更多开源，感兴趣的小伙伴可以持续蹲一蹲~

论文链接：https://arxiv.org/abs/2505.18129
代码链接：https://github.com/MiniMax-AI/One-RL-to-See-Them-All

参考链接：
[1]https://x.com/MiniMax__AI/status/1926949919228600423
[2]https://huggingface.co/papers/2505.18129

2025 年 5 月
一	二	三	四	五	六	日
	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

首个视觉RL统一框架！推理感知两手抓，性能横扫MEGA-Bench

首个视觉RL统一框架！推理感知两手抓，性能横扫MEGA-Bench

推理感知“两手抓”

样本级数据格式化

验证器级奖励计算

数据源级指标监控

动态IoU奖励

Orsta模型

MiniMax布局多模态领域

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex

文心AIGC

小说创作

清库存！DeepSeek突然补全R1技术报告，训练路径首次详细公开

训具身模型遇到的很多问题，在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

「北京版幻方」冷不丁开源SOTA代码大模型！一张3090就能跑，40B参数掀翻Opus-4.5和GPT-5.2

AI金矿上打盹的小红书，刚刚醒了一「点点」

字节Seed：大概念模型来了，推理的何必是下一个token

海信CES发布全新一代RGB-Mini LED，全球首创玲珑4芯真彩背光

英特尔CES奇袭老黄大本营！英伟达显卡刚涨价，最强酷睿量产出货

陈天桥代季峰打响2026大模型第一枪：30B参数跑出1T性能

OpenAI推理第一人离职，7年打造了o3/o1/GPT-4/Codex