开云体育但 Mobile Agent 教师真确需要的-开云(中国)kaiyun体育网址-登录入口

发布日期：2026-06-07 14:43 点击次数：198

畴昔一年，Mobile Agent 发展很快。从看懂屏幕、点击按钮，到跨 App 完成长序任务，模子才气正在不休普及。但限度 Mobile Agent 陆续 scaling 的，可能不仅仅模子自己，而是环境：环境既决定了教师数据从那处来，也决定了 Agent 的作为能否被扩充、辨别能否被考据、失败能否被复现。

以 Google AI Studio “一句话生成 App” 为代表，AI 正在大幅裁减 App 构建门槛。畴昔需要拓荒者手写代码的转移诈欺，当今不错通过当然谈话快速生成原型，以至生成可运行的 Android App。这也让畛域化创造 App 环境变得前所未有地本质，Mobile Agent 有契机在更多界面、任务和交互经过中教师。

但问题是：这些从零自动生成的 App，确凿像实在 App 吗？

要是生成的 App 仅仅 “看起来像”，但页面结构、导航线径、气象变化和用户举止溜达齐与实在 App 存在显明 gap，那么在这些环境里教师出来的 Agent，就很难真确迁徙到实在手机场景。

腾讯混元牵头，谄媚港中深、东说念主大高瓴、武汉大学等机构的最新商量 PhoneWorld: Scaling Phone-Use Agent Environments 恰是要处治这个问题：

怎样畛域化地构建可教师、可考据、且与实在手机使用场景有余接近的 App 环境。

论文地址：https://arxiv.org/abs/2605.29486

为什么不径直用实在 App？

既然实在 App 依然存在，为什么还要再行构建一批 mock Android App？中枢原因是：实在 App 有余实在，但很难被康健地用于大畛域教师。

1. 实在 App 的气象很难重置。Agent 一朝扩充储藏、发音讯、下单、修改树立等操作，账号和 App 里面气象就会被蜕变。念念要让并吞个任务反复扩充，就必须规复数据、缓存和账号气象，老本很高。

2. 实在 App 的辨别很难自动考据。Agent 是否确凿完成任务，不可只看它终末说 “完成了”。音讯是否确凿发出、商品是否确凿加入购物车、树立是否确凿修改，齐需要可靠的 verifier。但实在 App 的里面气象常常不可径直拜谒，很难康健查验。

3. 实在 App 还有好多不彊壮噪声。登录气象、风险限度、东说念主机锤真金不怕火、权限弹窗、告白推流、收罗波动、版块更新，齐可能导致环境在不休被侵扰，让并吞个任务在不同时间出现不同旅途。

是以，实在 App 是最接近策画场景的环境，却不一定是最相宜畛域化教师和可复现评测的环境。

PhoneWorld 要处治的，即是怎样保留实在 App 中对 Agent 最紧迫的页面结构、导航线径和气象变化，同期把它们融合为可运行、可重置、可考据的教师环境。

PhoneWorld 怎样把实在 App 变成 mock App？

PhoneWorld 的构建经过不错详尽为一句话：先从实在 App 的截图和操作轨迹中规复 “使用结构”，再把这种结构融合为可运行、可重置、可考据的 mock Android App。

具体来说，PhoneWorld 会先分析实在用户在 App 中经过了哪些页面、页面之间怎样跳转、哪些操作会蜕变气象；然青年景页面级 PRD、数据 schema 和可复用组件；终末由 coding agent 自动完毕 App，并经过自动测试和东说念主工审计，确保它保留实在 App 中对 Mobile Agent 最紧迫的交互旅途。

复刻的不仅仅截图，还有实在 App 的功能骨架

一个实在 App 可能有多量页面和功能，但 Mobile Agent 教师真确需要的，常常是用户最常经过的中枢旅途。

因此，PhoneWorld 不会盲目复刻总共这个词 App，而是先从实在轨迹中规复页面结构：哪些是首页、搜索页、笃定页、聊天页、订单页；哪些页面出现频率最高；用户常常从哪个页面跳到哪个页面。

在确定 “哪些页面紧迫” 之后，PhoneWorld 还会为每类要津页面生成结构化 PRD。PRD 很是于 mock App 的 “施工图”：它会描述页面布局、交互元素、跳转逻辑和视觉属性，告诉 coding agent 这个页面应该长什么样、有哪些按钮、点击之后应该去那处、哪些气象需要被更新。

这一步的意旨在于，PhoneWorld 不是在 “照着截丹青界面”，而是在复兴一个更紧迫的问题：实在用户到底是何如使用这个 App 的？又怎样把这种使用方式融合成 AI 不错自动构建的 App 规格？

mock App 不仅仅会跳转，还要有实在可变的气象

好多自动生成的 App 原型，看起来有页面、有按钮、有跳转，但对 Agent 教师来说还不够。

因为好多实在任务常常不是 “点到某个页面” 就扫尾了，而是要蜕变环境气象：储藏一条骨子、加入购物车、发送一条音讯、修改一个树立、提交一条挑剔。

是以，PhoneWorld 在构建 mock App 时，会同期构建一个可控的数据层。

一部分是只读骨子，举例商品、帖子、研讨东说念主、场地、视频、音乐等，用来撑捏浏览、搜索和信息查询

另一部分是可变气象，举例储藏、购物车、音讯、挑剔、订单等，会跟着 Agent 的操作写入腹地数据库。

这让 mock App 从一个 “能看的原型”，变成了一个 “能被操作的环境”。

Agent 作念过什么，环境会记着；任务扩充完之后，系统也不错把气象重置到运行版块，陋劣反复教师和评测。

App 不错由 AI 自动构建，但环境不可放任生成

有了页面结构、跳转关系、PRD 和数据层之后，PhoneWorld 会让 coding agent 生成 Kotlin / Jetpack Compose 名目，并编译成可运行的 Android APK。

但生成 APK 仅仅脱手。

对 Mobile Agent 来说，一个环境不可仅仅 “能怒放、能跳转”，还必须经得起实在任务扩充：按钮是否确凿可点，储藏、发音讯、加入购物车等操作是否确凿蜕变气象，任务扫尾后环境是否还能被重置。

因此，每个 mock App 齐会被装置到模拟器中，经过自动测试和东说念主工审计。自动测试查验中枢经过是否跑通，东说念主工审计则对比实在 App 和 mock App，说明主要页面、交互旅途和气象变化是否有余接近实在场景。

平庸 App 生成更关切 “能不可快速作念出一个 App”

PhoneWorld 更关切 “这个 App 能不可成为 Mobile Agent 可教师、可评测、可考据的环境”。

有了 App 还不够，要津是任务能扩充、辨别能考据

构建出 mock App 仅仅第一步。对 Mobile Agent 来说，环境真确有价值，不仅仅因为它能怒放、能点击、能跳转，而是因为它能承载任务、记载气象，并自动判断任务是否确凿完成。

PhoneWorld 的任务并不是杜撰生成的，而是来自 App 背后的页面 PRD、只读骨子和数据库 schema。也即是说，任务中出现的商品、研讨东说念主、场地、群聊等实体，齐实在存在于环境中；任务条款的储藏、发音讯、加入购物车等操作，也齐对应实在可蜕变的气象。

这让 PhoneWorld 不错为每个任务配套 verifier：

关于信息查询任务，系统查验最终谜底是否包含正确值

关于气象蜕变任务，系统径直查询腹地数据库，说明音讯、储藏、挑剔等气象是否确凿被写入。

基于这套机制，PhoneWorld 面前依然变成了一套可同期用于评测和教师的手机环境基础方法：

34 个 mock Android App

16 个徒然级转移诈欺领域

120 个经过东说念主工审计的评测任务

3,354 条告捷轨迹

36,193 个交互才略。

mock App 不是玩物环境：PhoneWorld 让四个 benchmark 同期普及

PhoneWorld 最中枢的问题其实很径直：

这种从实在轨迹中重建出来的 mock 环境，到底有没灵验？scale 起来之后，能不可确凿匡助 Mobile Agent？

论文用三个实验复兴了这个问题。

mock 环境有莫得教师价值？

商量者莫得或者加多数据量，而是只用 10K PhoneWorld steps 替换一部分原有 AndroidWorld 扶持数据。辨别模子在四个 benchmark 上同期普及：

HYMobileBench 普及 17.7

AndroidControl 普及 6.0

AndroidWorld 普及 14.7

PhoneWorld 普及 52.5

PhoneWorld 不是只在 mock 环境里自我普及，而是能把可控环境中的教师信号迁徙到实在 App 评测中。

mock 环境能不可实足替代实在 App？

实验进一步把替换比例拉满：用 PhoneWorld 数据实足替换扶持 AndroidWorld 数据。

辨别泄漏，PhoneWorld 自身发挥陆续普及，同期 HYMobileBench 和 AndroidControl 也保捏显明增益；但 AndroidWorld 出现下跌。

这个辨别并不是说 PhoneWorld 数据无效，更准确的论断是：PhoneWorld 不是或者替代实在 App 数据，而是与实在 App 数据变成互补。实在 App 数据提供实在溜达遮掩，PhoneWorld 则提供可控、可重置、可考据、可畛域化膨胀的教师环境。

mock 环境 scale 起来有莫得辨别？

要是 PhoneWorld 环境陆续扩大，收益会不会陆续加多？

Scaling step data: 跟着 PhoneWorld supervision 从 0 加多到 10K、20K、36K，PhoneWorld task success rate 从 14.2 普及到 64.2、70.0、73.3。也即是说，PhoneWorld 不错跟着可考据轨迹加多，捏续为模子带来收益。

Scaling app data: 在固定 10K PhoneWorld 教师预算下，商量者进一步比拟了来自 5、10、20、34 个 App 的教师数据。辨别泄漏，在 4 个 benchmark 上齐普及了辨别。这也评释了，PhoneWorld 不错跟着 App 环境千般性的普及，为模子带来收益。

写在终末：Mobile Agent 的下一站，是环境 scaling

Mobile Agent 的竞争，正在从 “模子能不可点对屏幕”，走向 “模子有莫得有余实在的天下不错教师”。

实在 App 最接近用户场景，但难重置、难考据、难畛域化；从零生成 App 有余快，但又可能和实在使用存在 gap。PhoneWorld 试图走中间门路：从实在 GUI 轨迹中规复页面结构、导航线径、气象变化和任务策画，再把它们融合为可运行、可重置、可考据的 mock Android 环境。

是以，PhoneWorld 真确复兴的不是 “能不可造一个 App”，而是：

当 Mobile Agent 需要大畛域教师时，咱们怎样系统性地修复更多接近实在手机使用的天下？

AI 手机期间，模子会越来越强。

但能让模子陆续变强的，可能恰是这些可交互、可考据、可膨胀的天下。

转载请研讨本公众号获取授权

投稿或寻求报说念：liyazhou@jiqizhixin.com开云体育

开云体育但 Mobile Agent 教师真确需要的-开云(中国)kaiyun体育网址-登录入口

热点资讯

相关资讯