聚焦手机AI“超级入口”,中兴Nebula小模型让手机秒变“小秘”?
点餐订票“一句话搞定”
允中 发自 凹非寺
量子位 | 公众号 QbitAI
随着移动智能技术的飞速迭代,手机端聚合服务的AI“超级入口” 正成为行业竞争的新焦点——
GUI Agent(图形用户界面智能体)凭借重塑流量分发格局的潜力,不仅催生千亿级市场机遇,更吸引苹果、华为、字节跳动、美团、智谱AI等企业纷纷布局。
2025年9月14日,美团率先推出首个AI Agent,支持平台内“一句话点餐”,标志着该技术从研发走向实用化;而中兴通讯凭借自研技术框架,在这一赛道上交出了亮眼答卷,让手机真正实现“秒变私人小秘书”的体验升级。
据2025年10月17日SuperCLUE发布的AgentCLUE-mobile手机GUI Agent(离线)基准测评数据显示,中兴通讯Nebula-GUI模型以7B参数量斩获总榜银牌,总分84.38,其中UI元素定位得分93.17,尤其在自动点餐、订票等复杂任务中,其准确率与操作速度远超业界其他模型,充分具备手机端侧部署落地能力。
图源:AgentCLUE-Mobile手机GUI Agent(离线)测评基准目前,Nebula-GUI的 “一句话订票”“一句话拍照” 功能已在中兴终端努比亚Z70 Ultra 、Z80 Ultra及红魔新品手机商用。
截至当前,该模型已覆盖30余款主流APP,常用场景平均准确率超90%,未来计划进一步覆盖手机绝大多数APP与使用场景,并新增购物比价、旅游出行等场景级服务,持续深化“手机小秘”的实用价值。
图源:AgentCLUE-Mobile手机GUI Agent(离线)测评基准攻克手机数据困局:端到端数据制备系统夯实技术根基
GUI Agent的性能好坏,数据是核心支撑。但当前屏幕自动技术的训练数据获取面临多重行业难题:
- 高质量中文GUI数据稀缺,公开英文数据集已达百万级,中文数据却仅数千组,且标注粒度粗、属性缺失;
- 跨APP操作的复杂任务轨迹数据不足;
- 人工标注流程低效,不仅难以记录触控坐标与UI控件元数据;
- 还存在思维链等语义信息缺失、核查成本高的问题;
- 人工标注易受主观影响,导致数据泛化性差。
端到端数据制备系统为解决上述数据获取的核心痛点,中兴开发了一套完整的端到端数据制备系统:包括数据标注工具、自动化数据PIPELINE、自动化轨迹数据生成系统,显著提升了数据标注效率,有效提升数据质量。
目前,基于该系统生成的数据占训练数据的90%,整体覆盖了出行、社交、生活服务等多元场景下的主流APP,能够为项目高效、稳定地输出高质量数据。
一体化数据标注工具:提升数据标注效率效率
GUI数据标注工具,将原本分散、依赖人工的截屏、操作、标注、核查、归档流程整合为一站式自动化流水线,显著提升了数据标注的效率、精度和丰富度,为模型训练提供了高质量、多维度的高价值数据。
其核心价值是通过一体化标注方案,系统性解决了屏幕交互数据制作中的效率、精度与成本难题,该工具核心功能如下:
GUI数据标注工具核心功能通过引入GUI数据标注工具,数据标注效率实现了3倍提升。
标注数据样例高效智能化数据PIPELINE:赋能标注数据质量跃迁
为实现对大模型训练数据的质量优化,中兴开发了一套自动化数据Pipeline,旨在系统化解决因人工标注导致的语言表达单一、思维链缺失或逻辑不一致等问题,从而提升数据的多样性与逻辑完整性,增强模型泛化能力。
这一举措有助于显著提升训练数据的质量,进而提升模型的最终能力。
自动化数据PIPELINE流程全时数据飞轮:显著提升数据标注规模
面对屏幕数据标注对人力与设备资源的双重依赖,中兴推出了一个集任务调度、任务管理、联邦设备管理与GUI Agent于一体的数据自动化生成平台。
该平台通过对分散的实体手机和虚拟机进行集约化管控,有效解决了设备资源利用率低、管理分散的痛点。
基于高效的任务调度引擎,平台能够全时自动化运行,构建了从任务下发到数据生成的闭环流水线。
这不仅大幅降低了对人工标注的依赖,更实现了数据生产规模与整体效率的同步飞跃,为AI模型的快速迭代提供了强大助力。
任务调度和设备管理系统监督微调:从 “看见” 到 “执行”,打造会思考的 “小秘”
业界现有多模态大模型在处理GUI屏幕时,往往表现出三大局限:
- 首先,感知失准,它们可能识别出界面中的“一个红色方形图标”,却无法精准理解这是一个“可点击的、用于删除项目的按钮”;
- 其次,推理脱节,模型虽能描述屏幕内容,却难以将“帮我订一张明天去上海的机票”这样的高阶指令,转化为一连串具体的点击、输入、滚动等原子操作;
- 最后,交互缺失,模型缺乏输出结构化、可执行操作指令的能力,使其止步于“观察者”而非“执行者”。
中兴通讯通过构建VLA(屏幕截图+操作指令+执行动作)数据对,对模型进行系统性监督微调,成功让通用多模态模型进化为具备“感知-理解-执行-规划-纠错”能力的GUI操作智能体:
多阶段精调通过上述面向基础能力、指令操作、任务规划与自我反思能力的系统性监督微调,中兴成功地将一个通用的多模态大模型,专项优化为一个具备高鲁棒性的GUI操作智能体。
其带来的实际效果是显著且多层次的:
- 基础操作鲁棒性显著增强:模型对中文GUI页面,UI元素的动态变化(如广告弹窗、布局调整)具备了更强的理解能力,能够准确识别目标组件,有效抵御界面噪音干扰,大幅降低了单步操作的失败率;
- 长任务流程成功率有效提升:得益于规划能力的注入与自我纠错机制,智能体不再因单步的偶然失误或页面的意外跳转而导致整个任务链中断。它能够像人类用户一样,在执行中监测状态,在偏离时回溯路径,从而保证了复杂多步任务的完成度;
- 从“实验室原型”迈向“商业可用”:最终,这些能力的综合作用,使得GUI智能体从一个表现尚可的“原型”,进化为一个能够适应真实世界、动态GUI环境的“准生产级”助手。其核心标志便是——在不确定的现实场景中,稳定、可靠完成任务的能力。
1、从“看见”到“洞悉”:基础能力的质的飞跃
为了让模型精准理解中文GUI界面的复杂结构与语义,中兴针对开源视觉模型严重缺乏中文场景训练数据的问题,整合开源与自研数据,并构建了一套融合XML解析、OCR识别、UI元素检测与大语言模型标注的自动化数据标注流程,显著提升了中文基础数据的构建效率与质量。
最终,中兴自主构建了百万级规模的中文GUI数据集,覆盖数十款主流中文APP及数百种高频交互场景。
同时,从开源数据集中筛选整合了数百万条以英文为主的GUI样本,共同构成覆盖描述生成、功能理解、元素定位等多类任务的基础训练集。
该混合数据集的引入,显著提升了模型在GUI界面上的基础感知与语义理解能力。
2、从“指令”到“执行” :实现高精准的原子操作
基于单个GUI截图,模型需要能够像人一样对屏幕进行操作,中兴构建了几十万的单步指令数据,用来训练模型将用户指令映射到正确的UI操作上。
由于单步错误会导致多步任务成功率指数下降,中兴通过以下方法提升基础模型能力和单步操作精度:
- 指令泛化:针对单一UI元素,人们常常会有多种口语化说法,比如点个外卖、点个奶茶、买个外卖;因此在指令上,中兴针对单一元素会标注多个指令数据,从而加强模型对UI元素的真实功能理解;
- 执行思维链:针对指令,模型需要输出思考过程,来决定自己该执行什么操作,以及操作的位置在哪里,思维链可以增强模型操作的准确性。
- 图像思考:传统思维链模式通常以文本输出为主,导致模型出现幻觉,或者思考执行出现偏差。因此引入图像思维链,模型在思考中需要输出关注的图像区域,绑定grounding信息来增强结果的置信度。
通过大量的指令数据和精确的思维链引导,模型在单步上的能力大大提升,平均准确率超过95%,部分简单指令操作达到99%准确率。
3、复杂任务的规划与执行:实现端到端闭环
复杂任务通常指需要多步操作完成的任务,也称为GUI导航任务,它的核心目标是引导模型完成基于特定APP内,甚至多个APP间的多步骤操作流程。
每个操作步骤(点击/滑动等)都会引发页面状态变更,从而形成包含操作序列与对应页面截图的动态轨迹,模型每一步都需要根据任务信息、当前状态进行决策下一步的操作。
端到端的导航任务除了依赖模型基础能力和单步执行能力外,通常还需要模型具备规划能力,思考能力。
为了提升模型在多步任务上的能力,中兴标注了大量的APP轨迹数据,并基于这些标注的轨迹进行了多类型精调数据:
- 多训练范式:模型支持思考模式、非思考模式、以及自适应思考模式;特别是自适应思考模式,根据任务和当前状态,自行决定是否输出思考过程,兼顾准确度和效率;
- 格式化输出:模型所有的输出格式均保持格式化规范,如<think>…</think><action>…</action>,格式化后的范式提升了可解析性,也为强化打下了基础;
- 平衡场景+重点采样:通过精确到步骤级的数据采样配比,提升复杂易出错场景的数据配比,降低简单场景的配比。大大提升了模型的整体准确性,以及场景的泛化性。
多种精调范式不仅提升了模型的规划能力和反思能力,也大大提升了模型的泛化能力,在未见任务上展现出来了更好的规划和执行成功率。
4、构建自我反思纠错能力:提升智能体系统韧性
在线应用(APP)的界面布局时常动态变化,尤其是广告内容等区域,甚至可能出现页面自动跳转的情况。
此外,模型在实际操作过程中也可能发生点击错误,导致跳转至非预期页面。因此,模型需具备自主判断与纠错能力,能够识别异常页面状态,并从中退出以回到正确的任务流程中。
- 多图训练:在常规设定中,业界通常仅将当前页面截图输入模型,但这会限制模型对操作历史的感知,进而影响其反思准确性,甚至导致“反思幻觉”。引入前后多幅截图作为上下文,虽能提升模型决策的可靠性,但也会带来额外的数据传输与Token开销;
- 状态转移理解:该类任务以前后两张页面截图及对应操作作为输入信息,要求模型通过反思判断该操作是否正确,并阐述其决策依据。该方法旨在增强模型对界面操作所引发状态变化的深层理解能力。
自我反思和纠错能力的引入,是构建鲁棒GUI智能体的关键进展。它使模型从被动的指令执行者,转变为能够主动监测状态、管理异常的任务主导者,从而在复杂的真实环境中保持稳定输出。
双层强化学习:让 “小秘” 更智能、更鲁棒
经过监督微调(SFT)的模型往往更倾向于模仿训练数据中的界面操作模式和交互风格,而非真正理解任务背后的用户意图与交互逻辑。
如果训练数据本身存在偏差或覆盖场景有限,模型会不加辨别地复现这些局限,导致其在未见过的界面或复杂任务中表现不佳。
由于缺乏对自身行为效果的“判断力”,模型无法评估其输出是否合理或高效。而引入强化学习(RL)后,中兴不再要求模型简单地模仿“标准操作”,而是为其设定一个明确的目标——即奖励函数。
当前,基于强化学习(RL)的GUI智能体已在自动化任务中展现出潜力,但其性能天花板已然显现。
核心瓶颈在于:
- 其一,主流的离散奖励(如0/1)无法对智能体的决策过程进行细粒度指导,导致其学习效率低下且行为不可控;
- 其二,纯粹依赖于静态离线数据集的训练,使得智能体在面对动态、多变的真实软件环境时泛化能力严重不足。
中兴提出一种全新的双层强化学习范式,通过离线步骤级连续奖励与在线任务级强化的协同训练,从根本上解决了这些问题,引领GUI智能体进入“精细化推理”与“自主进化”的新时代。
1、离线步骤级强化:多维度精细化奖励
针对GUI agent在任务中奖励粒度粗糙的问题,中兴改进了传统的GRPO离散奖励框架,设计了细粒度的连续性奖励信号。
该信号体系能够对智能体的每一步推理与操作进行实时、精准的评估与引导,从而将宏观任务目标转化为稳定的微观训练信号,有效提升了智能体在图形界面环境中的学习效率与最终性能。
多维度精细化奖励- 准确性奖励:自适应空间感知的准确性奖励
对于每个点击操作,中兴摒弃了传统的0/1离散奖励,设计了一种基于目标控件边界框的自适应空间感知连续奖励函数。
该函数综合考虑了控件在全局界面中的相对尺寸以及点击位置在框内相对于中心的归一化距离,通过一种融合了尺寸感知与边界敏感性的机制,使得奖励值随着定位精度的提升而平滑且非线性地增加。
此举为策略优化提供了远比简单欧氏距离更丰富、更平滑的梯度信号,能引导模型自适应地学习对不同尺寸控件的精准定位策略,从而显著提升了模型的决策效率、泛化能力与行为可解释性。
- 置信度奖励:基于概率模型的推理质量评估
对于生成正确答案概率越高的推理过程,中兴认为应该给予更高的奖励,在模型的推理的每一步,中兴不仅获取其动作决策,同时获取模型对于最终任务成功的预测概率,中兴将该概率值作为置信度奖励。
此举将远期回报的期望以一种密集奖励的形式注入到当前步骤。它激励模型在每一步都选择那些能够引导至最终成功的高可能性路径,有效压制了随机探索和逻辑断裂的决策,提升了整个推理过程的连贯性与可靠性。
- 一致性奖励:基于奖励模型的逻辑对齐
中兴训练了一个专用的推理奖励模型,该模型以智能体的“思考过程”和“最终执行的动作”作为输入,输出一个衡量二者逻辑一致性的分数。
解决了“认知不协调”问题。例如,模型推理“需要点击登录按钮”,却执行了“点击注册按钮”的操作。该奖励模型强制智能体的“思考”与“行动”对齐,这对于复杂任务中的可解释性和故障排查至关重要。
2、在线任务级强化:在动态环境中锻造“自主进化”能力
在真实的GUI任务场景中,由于每次动作执行后的环境状态都处于动态变化之中,仅仅依赖离线数据难以覆盖任务执行过程中可能出现的全部复杂情况。
因此,中兴引入了在线任务级强化机制,通过调用联邦调度系统,高效率生成大量执行轨迹,以多样化的交互经验驱动策略优化。
该机制以达成最终任务目标为核心导向,训练模型在交互过程中自主探索不同决策路径,并具备通过多种方式实现目标的能力。
该方法旨在显著增强模型在未知或动态环境下的泛化性能,进一步提升GUI agent在实际应用中的适应性与鲁棒性。
在线任务级强化- 奖励模型:任务级奖励的关键组件
中兴收集了大量包含成功与失败的人类演示轨迹和智能体探索轨迹,训练了一个任务级轨迹奖励模型,用于判断任务是否正确完成。
对在线学习中对轨迹进行即时评分,大幅提升了训练效率,为模型提供了更丰富、更及时的反馈信号。
- 稀疏奖励分配:“按功行赏”的信用归因
中兴采用了一种结合了轨迹长度和时序差分的混合信用分配方法。
对于一条完整的成功轨迹,根据相同任务执行轨迹的长度和离最终执行成功结果距离的远近设置奖励衰减系数,形成最终的回报。
这种方法实现了“按功行赏”。它自然地对更短、更高效的路径赋予更高的累积回报,从而激励智能体不仅追求成功,更追求效率,最终演化出高度优化的行为策略。
结语
从AgentCLUE-mobile榜单的银牌认可,到努比亚Z70 Ultra、Z80_Ultra 手机上的商用落地,中兴通讯Nebula-GUI模型不仅彰显了其在GUI Agent领域的技术积累,更让“手机变身为私人小秘书”从概念走向现实。
未来,随着技术在智能办公、软件开发、自动化流程等领域的深度渗透,中兴通讯或将进一步推动GUI Agent成为手机“超级入口”的核心载体,让移动智能服务真正赋能各行各业,为用户带来更便捷、更智能的使用体验。