开云(中国)kaiyun体育网址-登录入口

开云体育但 Mobile Agent 教师真确需要的-开云(中国)kaiyun体育网址-登录入口

发布日期:2026-06-07 14:43    点击次数:198

开云体育但 Mobile Agent 教师真确需要的-开云(中国)kaiyun体育网址-登录入口

畴昔一年,Mobile Agent 发展很快。从看懂屏幕、点击按钮,到跨 App 完成长序任务,模子才气正在不休普及。但限度 Mobile Agent 陆续 scaling 的,可能不仅仅模子自己,而是环境:环境既决定了教师数据从那处来,也决定了 Agent 的作为能否被扩充、辨别能否被考据、失败能否被复现。

以 Google AI Studio “一句话生成 App” 为代表,AI 正在大幅裁减 App 构建门槛。畴昔需要拓荒者手写代码的转移诈欺,当今不错通过当然谈话快速生成原型,以至生成可运行的 Android App。这也让畛域化创造 App 环境变得前所未有地本质,Mobile Agent 有契机在更多界面、任务和交互经过中教师。

但问题是:这些从零自动生成的 App,确凿像实在 App 吗?

要是生成的 App 仅仅 “看起来像”,但页面结构、导航线径、气象变化和用户举止溜达齐与实在 App 存在显明 gap,那么在这些环境里教师出来的 Agent,就很难真确迁徙到实在手机场景。

腾讯混元牵头,谄媚港中深、东说念主大高瓴、武汉大学等机构的最新商量 PhoneWorld: Scaling Phone-Use Agent Environments 恰是要处治这个问题:

怎样畛域化地构建可教师、可考据、且与实在手机使用场景有余接近的 App 环境。

论文地址:https://arxiv.org/abs/2605.29486

为什么不径直用实在 App?

既然实在 App 依然存在,为什么还要再行构建一批 mock Android App?中枢原因是:实在 App 有余实在,但很难被康健地用于大畛域教师。

1. 实在 App 的气象很难重置。Agent 一朝扩充储藏、发音讯、下单、修改树立等操作,账号和 App 里面气象就会被蜕变。念念要让并吞个任务反复扩充,就必须规复数据、缓存和账号气象,老本很高。

2. 实在 App 的辨别很难自动考据。Agent 是否确凿完成任务,不可只看它终末说 “完成了”。音讯是否确凿发出、商品是否确凿加入购物车、树立是否确凿修改,齐需要可靠的 verifier。但实在 App 的里面气象常常不可径直拜谒,很难康健查验。

3. 实在 App 还有好多不彊壮噪声。登录气象、风险限度、东说念主机锤真金不怕火、权限弹窗、告白推流、收罗波动、版块更新,齐可能导致环境在不休被侵扰,让并吞个任务在不同时间出现不同旅途。

是以,实在 App 是最接近策画场景的环境,却不一定是最相宜畛域化教师和可复现评测的环境。

PhoneWorld 要处治的,即是怎样保留实在 App 中对 Agent 最紧迫的页面结构、导航线径和气象变化,同期把它们融合为可运行、可重置、可考据的教师环境。

PhoneWorld 怎样把实在 App 变成 mock App?

PhoneWorld 的构建经过不错详尽为一句话:先从实在 App 的截图和操作轨迹中规复 “使用结构”,再把这种结构融合为可运行、可重置、可考据的 mock Android App。

具体来说,PhoneWorld 会先分析实在用户在 App 中经过了哪些页面、页面之间怎样跳转、哪些操作会蜕变气象;然青年景页面级 PRD、数据 schema 和可复用组件;终末由 coding agent 自动完毕 App,并经过自动测试和东说念主工审计,确保它保留实在 App 中对 Mobile Agent 最紧迫的交互旅途。

复刻的不仅仅截图,还有实在 App 的功能骨架

一个实在 App 可能有多量页面和功能,但 Mobile Agent 教师真确需要的,常常是用户最常经过的中枢旅途。

因此,PhoneWorld 不会盲目复刻总共这个词 App,而是先从实在轨迹中规复页面结构:哪些是首页、搜索页、笃定页、聊天页、订单页;哪些页面出现频率最高;用户常常从哪个页面跳到哪个页面。

在确定 “哪些页面紧迫” 之后,PhoneWorld 还会为每类要津页面生成结构化 PRD。PRD 很是于 mock App 的 “施工图”:它会描述页面布局、交互元素、跳转逻辑和视觉属性,告诉 coding agent 这个页面应该长什么样、有哪些按钮、点击之后应该去那处、哪些气象需要被更新。

这一步的意旨在于,PhoneWorld 不是在 “照着截丹青界面”,而是在复兴一个更紧迫的问题:实在用户到底是何如使用这个 App 的?又怎样把这种使用方式融合成 AI 不错自动构建的 App 规格?

mock App 不仅仅会跳转,还要有实在可变的气象

好多自动生成的 App 原型,看起来有页面、有按钮、有跳转,但对 Agent 教师来说还不够。

因为好多实在任务常常不是 “点到某个页面” 就扫尾了,而是要蜕变环境气象:储藏一条骨子、加入购物车、发送一条音讯、修改一个树立、提交一条挑剔。

是以,PhoneWorld 在构建 mock App 时,会同期构建一个可控的数据层。

一部分是只读骨子,举例商品、帖子、研讨东说念主、场地、视频、音乐等,用来撑捏浏览、搜索和信息查询

另一部分是可变气象,举例储藏、购物车、音讯、挑剔、订单等,会跟着 Agent 的操作写入腹地数据库。

这让 mock App 从一个 “能看的原型”,变成了一个 “能被操作的环境”。

Agent 作念过什么,环境会记着;任务扩充完之后,系统也不错把气象重置到运行版块,陋劣反复教师和评测。

App 不错由 AI 自动构建,但环境不可放任生成

有了页面结构、跳转关系、PRD 和数据层之后,PhoneWorld 会让 coding agent 生成 Kotlin / Jetpack Compose 名目,并编译成可运行的 Android APK。

但生成 APK 仅仅脱手。

对 Mobile Agent 来说,一个环境不可仅仅 “能怒放、能跳转”,还必须经得起实在任务扩充:按钮是否确凿可点,储藏、发音讯、加入购物车等操作是否确凿蜕变气象,任务扫尾后环境是否还能被重置。

因此,每个 mock App 齐会被装置到模拟器中,经过自动测试和东说念主工审计。自动测试查验中枢经过是否跑通,东说念主工审计则对比实在 App 和 mock App,说明主要页面、交互旅途和气象变化是否有余接近实在场景。

平庸 App 生成更关切 “能不可快速作念出一个 App”

PhoneWorld 更关切 “这个 App 能不可成为 Mobile Agent 可教师、可评测、可考据的环境”。

有了 App 还不够,要津是任务能扩充、辨别能考据

构建出 mock App 仅仅第一步。对 Mobile Agent 来说,环境真确有价值,不仅仅因为它能怒放、能点击、能跳转,而是因为它能承载任务、记载气象,并自动判断任务是否确凿完成。

PhoneWorld 的任务并不是杜撰生成的,而是来自 App 背后的页面 PRD、只读骨子和数据库 schema。也即是说,任务中出现的商品、研讨东说念主、场地、群聊等实体,齐实在存在于环境中;任务条款的储藏、发音讯、加入购物车等操作,也齐对应实在可蜕变的气象。

这让 PhoneWorld 不错为每个任务配套 verifier:

关于信息查询任务,系统查验最终谜底是否包含正确值

关于气象蜕变任务,系统径直查询腹地数据库,说明音讯、储藏、挑剔等气象是否确凿被写入。

基于这套机制,PhoneWorld 面前依然变成了一套可同期用于评测和教师的手机环境基础方法:

34 个 mock Android App

16 个徒然级转移诈欺领域

120 个经过东说念主工审计的评测任务

3,354 条告捷轨迹

36,193 个交互才略。

mock App 不是玩物环境:PhoneWorld 让四个 benchmark 同期普及

PhoneWorld 最中枢的问题其实很径直:

这种从实在轨迹中重建出来的 mock 环境,到底有没灵验?scale 起来之后,能不可确凿匡助 Mobile Agent?

论文用三个实验复兴了这个问题。

mock 环境有莫得教师价值?

商量者莫得或者加多数据量,而是只用 10K PhoneWorld steps 替换一部分原有 AndroidWorld 扶持数据。辨别模子在四个 benchmark 上同期普及:

HYMobileBench 普及 17.7

AndroidControl 普及 6.0

AndroidWorld 普及 14.7

PhoneWorld 普及 52.5

PhoneWorld 不是只在 mock 环境里自我普及,而是能把可控环境中的教师信号迁徙到实在 App 评测中。

mock 环境能不可实足替代实在 App?

实验进一步把替换比例拉满:用 PhoneWorld 数据实足替换扶持 AndroidWorld 数据。

辨别泄漏,PhoneWorld 自身发挥陆续普及,同期 HYMobileBench 和 AndroidControl 也保捏显明增益;但 AndroidWorld 出现下跌。

这个辨别并不是说 PhoneWorld 数据无效,更准确的论断是:PhoneWorld 不是或者替代实在 App 数据,而是与实在 App 数据变成互补。实在 App 数据提供实在溜达遮掩,PhoneWorld 则提供可控、可重置、可考据、可畛域化膨胀的教师环境。

mock 环境 scale 起来有莫得辨别?

要是 PhoneWorld 环境陆续扩大,收益会不会陆续加多?

Scaling step data: 跟着 PhoneWorld supervision 从 0 加多到 10K、20K、36K,PhoneWorld task success rate 从 14.2 普及到 64.2、70.0、73.3。也即是说,PhoneWorld 不错跟着可考据轨迹加多,捏续为模子带来收益。

Scaling app data: 在固定 10K PhoneWorld 教师预算下,商量者进一步比拟了来自 5、10、20、34 个 App 的教师数据。辨别泄漏,在 4 个 benchmark 上齐普及了辨别。这也评释了,PhoneWorld 不错跟着 App 环境千般性的普及,为模子带来收益。

写在终末:Mobile Agent 的下一站,是环境 scaling

Mobile Agent 的竞争,正在从 “模子能不可点对屏幕”,走向 “模子有莫得有余实在的天下不错教师”。

实在 App 最接近用户场景,但难重置、难考据、难畛域化;从零生成 App 有余快,但又可能和实在使用存在 gap。PhoneWorld 试图走中间门路:从实在 GUI 轨迹中规复页面结构、导航线径、气象变化和任务策画,再把它们融合为可运行、可重置、可考据的 mock Android 环境。

是以,PhoneWorld 真确复兴的不是 “能不可造一个 App”,而是:

当 Mobile Agent 需要大畛域教师时,咱们怎样系统性地修复更多接近实在手机使用的天下?

AI 手机期间,模子会越来越强。

但能让模子陆续变强的,可能恰是这些可交互、可考据、可膨胀的天下。

© THE END

转载请研讨本公众号获取授权

投稿或寻求报说念:liyazhou@jiqizhixin.com开云体育