覆蓋桌面、移動(dòng)和 Web,7B 模型超越同類開源選手,32B 模型挑戰(zhàn) GPT-4o 與 Claude 3.7,通義實(shí)驗(yàn)室全新Mobile-Agent-v3現(xiàn)已開源。
一眼看到實(shí)力:關(guān)鍵成績(jī)速覽。
備注:分?jǐn)?shù)來源于公開基準(zhǔn),包括桌面 + 移動(dòng)環(huán)境的任務(wù)規(guī)劃、定位、推理、執(zhí)行等全鏈路能力
開源地址:https://github.com/X-PLUG/MobileAgent
背景:為什么 GUI Agent 要這么強(qiáng)?
GUI 智能體,就像你的跨平臺(tái)虛擬操作員,能看懂屏幕、點(diǎn)鼠標(biāo)、敲鍵盤、滑手機(jī),在辦公、測(cè)試、RPA 等場(chǎng)景自動(dòng)執(zhí)行任務(wù)。然而,要實(shí)現(xiàn)這一愿景,現(xiàn)有方案卻面臨重重挑戰(zhàn)。它們往往能力割裂,比如精于定位 UI 元素卻拙于長(zhǎng)任務(wù)規(guī)劃,或難以融入靈活的多智能體框架。
同時(shí),許多方案嚴(yán)重依賴特定的硬件和操作系統(tǒng),適配成本高昂;而依賴閉源模型的方案則缺乏靈活性,遇到全新任務(wù)時(shí)常常束手無策。
更現(xiàn)實(shí)的是,高昂的推理成本、多圖輸入帶來的延遲以及部署困難,都成為阻礙 GUI 智能體廣泛應(yīng)用的瓶頸。
亮點(diǎn)一
GUI-Owl + Mobile-Agent-v3 + 云環(huán)境
這是一個(gè)基于云環(huán)境的全鏈路開源解決方案—— 它既是當(dāng)前最強(qiáng)的開源單體 GUI Agent 模型,也包含為其深度優(yōu)化的多智能體框架。我們通過搭建覆蓋 Android、Ubuntu、macOS、Windows 的多操作系統(tǒng)云環(huán)境基礎(chǔ)設(shè)施,并結(jié)合阿里云的云手機(jī)與云電腦,實(shí)現(xiàn)了直接在云端沙箱中運(yùn)行、調(diào)試、采集數(shù)據(jù)的全新范式。
在大多數(shù) GUI Agent 方案中,采集高質(zhì)量訓(xùn)練數(shù)據(jù)是最大的瓶頸,不僅慢,而且貴。為此,我們沒有走傳統(tǒng)的人工標(biāo)注老路,而是直接打造了一整套跨平臺(tái)的云環(huán)境基礎(chǔ)設(shè)施與一套名為「自我進(jìn)化 GUI 軌跡生產(chǎn)鏈路」的數(shù)據(jù)閉環(huán)系統(tǒng)。這套系統(tǒng)讓 GUI-Owl 和 Mobile-Agent-v3 自己生成任務(wù)軌跡、篩選出正確軌跡,再反過來對(duì)自身進(jìn)行迭代優(yōu)化,將人類的參與降到最低,形成一個(gè)跨平臺(tái)、自動(dòng)化、可持續(xù)的數(shù)據(jù)生產(chǎn)與模型優(yōu)化循環(huán)。
整個(gè)流程的核心是讓模型在實(shí)踐中自我成長(zhǎng)。 首先,系統(tǒng)會(huì)在覆蓋 Android、Ubuntu、macOS 和 Windows 的云端環(huán)境中動(dòng)態(tài)構(gòu)建虛擬實(shí)驗(yàn)室,確保每次任務(wù)都在貼近真實(shí)用戶場(chǎng)景的干凈快照中運(yùn)行。隨后,高質(zhì)量的任務(wù)生成模塊會(huì)為模型「出題」,它針對(duì)移動(dòng)端,通過人工標(biāo)注的有向無環(huán)圖(DAG)來模擬真實(shí) App 流程,并用 LLM 生成多約束的自然語言指令;而對(duì)于元素更密集的桌面端,它則結(jié)合可訪問性樹(Accessibility Tree)與深度搜索鏈來挖掘復(fù)雜軟件的操作路徑,確保生成的任務(wù)既真實(shí)又可控。
有了任務(wù),GUI-Owl 模型和 Mobile-Agent-v3 框架便開始在虛擬環(huán)境中執(zhí)行操作,產(chǎn)出完整的交互軌跡。然而,并非所有軌跡都是完美的。因此,一個(gè)精密的軌跡正確性評(píng)估模塊會(huì)介入,它包含一個(gè)「Step-Level Critic」,能細(xì)致分析每一步操作前后的界面變化,判斷其有效性;還有一個(gè)「Trajectory-Level Critic」,采用純文本和多模態(tài)雙通道機(jī)制,從全局視角評(píng)估整個(gè)任務(wù)是否成功。只有通過雙重校驗(yàn)的軌跡才會(huì)被采納。
對(duì)于那些模型反復(fù)嘗試依舊失敗的困難任務(wù),系統(tǒng)還會(huì)啟動(dòng)困難任務(wù)指南生成模塊。它會(huì)分析已有的成功軌跡(可能來自人工或其他模型),用 VLM 提煉出每一步的關(guān)鍵動(dòng)作描述,并由 LLM 總結(jié)成一份「通關(guān)攻略」。這份指南將在后續(xù)嘗試中作為提示,有效提高成功率。最后,所有經(jīng)過篩選和強(qiáng)化的優(yōu)質(zhì)軌跡數(shù)據(jù),都會(huì)被用于對(duì) GUI-Owl 進(jìn)行強(qiáng)化學(xué)習(xí)微調(diào),讓模型的能力在真實(shí)交互中穩(wěn)步增強(qiáng),最終實(shí)現(xiàn)真正的自我進(jìn)化。
亮點(diǎn)二:全棧 GUI 能力構(gòu)建
從「看得懂」到「想得全」到「做得準(zhǔn)」
GUI-Owl 在安卓和桌面兩端同時(shí)拿下 SOTA,關(guān)鍵在于我們?yōu)槠錁?gòu)建了全棧式的 GUI 能力,確保它不僅「看得懂」,更能「想得全」、「做得準(zhǔn)」,并具備天然的泛化與適配能力。
首先是極致的 UI 元素定位(Grounding)能力。 為了讓模型精準(zhǔn)找到屏幕上的目標(biāo),我們構(gòu)建了涵蓋功能、外觀、布局等多維信息的復(fù)合型 Grounding 數(shù)據(jù)集。我們不僅融合了 InternVL、UI-Vision 等多個(gè)主流開源數(shù)據(jù)集,還創(chuàng)新地利用 Accessibility Tree 自動(dòng)生成帶有功能描述的標(biāo)注數(shù)據(jù),并輔以多模態(tài)模型補(bǔ)全外觀和布局信息。
特別針對(duì)元素密集的 PC 界面,我們開創(chuàng)性地使用 SAM 對(duì)截圖進(jìn)行子區(qū)域分割,再讓 MLLM 在小范圍內(nèi)進(jìn)行精細(xì)定位,有效解決了定位難題。所有數(shù)據(jù)都經(jīng)過嚴(yán)格清洗,包括與 Omniiparser V2 的檢測(cè)結(jié)果進(jìn)行比對(duì)篩選,并用 LLM 將生硬的指令改寫得更自然,確保了訓(xùn)練數(shù)據(jù)的質(zhì)量與真實(shí)性。
其次是深度的長(zhǎng)任務(wù)規(guī)劃(Task Planning)與動(dòng)作語義理解(Action Semantics)。 為了應(yīng)對(duì)復(fù)雜任務(wù),GUI-Owl 的規(guī)劃能力來自兩個(gè)方面:一方面,它能從歷史成功軌跡中「蒸餾」出經(jīng)驗(yàn),形成可復(fù)用的任務(wù)執(zhí)行手冊(cè);另一方面,它也從 Qwen3-235B 這樣的大規(guī)模語言模型中學(xué)習(xí)跨應(yīng)用、跨功能的通用規(guī)劃知識(shí),使其面對(duì)全新場(chǎng)景也能從容制定計(jì)劃。
更重要的是,模型通過學(xué)習(xí)海量的「操作前 / 后」截圖對(duì)比,深刻理解了每個(gè)動(dòng)作與界面狀態(tài)變化之間的因果關(guān)系,真正做到了知其然,更知其所以然。
最后,我們?yōu)槠渥⑷肓藦?qiáng)大的穩(wěn)健推理(Robust Reasoning)與泛化適配能力。 GUI-Owl 不只是機(jī)械地模仿操作,而是理解其背后的決策邏輯。我們開創(chuàng)性地從 Mobile-Agent-v3 多智能體框架中蒸餾推理數(shù)據(jù),讓單一模型學(xué)會(huì)從管理者、執(zhí)行者、反思者等多個(gè)角色的視角進(jìn)行思考,顯著減少了決策盲區(qū)。
同時(shí),結(jié)合離線提示式拒絕采樣和迭代式的在線訓(xùn)練,模型的推理能力在真實(shí)任務(wù)中被反復(fù)打磨和驗(yàn)證。這種全面的訓(xùn)練方式,使得 GUI-Owl 不再是為某個(gè)特定框架「定制」的,而是天然具備了跨環(huán)境、跨角色的泛化能力。
實(shí)驗(yàn)證明,即使將其「即插即用」到從未訓(xùn)練過的第三方 Agent 框架中,其性能依舊遠(yuǎn)超其他專用或通用模型。
亮點(diǎn)三:可擴(kuò)展環(huán)境強(qiáng)化學(xué)習(xí)(RL)
讓模型「更穩(wěn)、更聰明、更貼近真實(shí)使用」
僅靠離線數(shù)據(jù)還不足以讓一個(gè) GUI Agent 在真實(shí)環(huán)境中長(zhǎng)期穩(wěn)定運(yùn)行,它需要真正「泡在環(huán)境里」邊做邊學(xué)。為此,我們專門為 GUI-Owl 設(shè)計(jì)了一套可擴(kuò)展的環(huán)境級(jí)強(qiáng)化學(xué)習(xí)(RL)體系,旨在讓模型「更穩(wěn)、更聰明、更貼近真實(shí)使用」。
我們的 RL 訓(xùn)練基礎(chǔ)設(shè)施在設(shè)計(jì)上兼顧了靈活性與效率。它采用統(tǒng)一的任務(wù)插件接口,無論是「一步到位」的短任務(wù)還是跨應(yīng)用的長(zhǎng)鏈路任務(wù),都能無縫接入。其核心是將經(jīng)驗(yàn)生成(Rollout)與策略更新完全解耦,這意味著我們可以將數(shù)據(jù)采集部署在為推理優(yōu)化的硬件上以最大化吞吐量,同時(shí)在訓(xùn)練端保持策略更新的穩(wěn)定性,從而在優(yōu)化質(zhì)量、速度與成本之間取得最佳平衡。
針對(duì) GUI 自動(dòng)化任務(wù)獎(jiǎng)勵(lì)信號(hào)稀疏且延遲的特性,我們引入了Trajectory-aware Relative Policy Optimization (TRPO) 算法。該算法不再試圖為每一步操作精確分配獎(jiǎng)勵(lì),而是在整個(gè)任務(wù)完成后,對(duì)整條軌跡進(jìn)行一次性評(píng)估,并根據(jù)成功、失敗或格式錯(cuò)誤給予一個(gè)明確的軌跡級(jí)獎(jiǎng)勵(lì)。這個(gè)獎(jiǎng)勵(lì)信號(hào)經(jīng)過歸一化處理后,會(huì)均勻地分配到該軌跡的每一個(gè)步驟上,從而有效緩解了長(zhǎng)任務(wù)中棘手的「信用分配問題」,讓模型能夠從最終結(jié)果中穩(wěn)定地學(xué)習(xí)。
為了進(jìn)一步提升學(xué)習(xí)效率,我們還引入了Replay Buffer 機(jī)制,它會(huì)緩存歷史上成功的案例。當(dāng)某一輪訓(xùn)練中全是失敗的嘗試時(shí),系統(tǒng)會(huì)自動(dòng)從緩存中「注入」一個(gè)成功樣本,確保模型在每個(gè)批次都能學(xué)到正向反饋。這些專門的優(yōu)化,使得 GUI-Owl 在在線環(huán)境中能夠持續(xù)提升長(zhǎng)任務(wù)的成功率,表現(xiàn)更接近真實(shí)用戶所需的高穩(wěn)定性。
總結(jié)
GUI-Owl的發(fā)布,為開源社區(qū)帶來了一個(gè)能力強(qiáng)大的原生端到端多模態(tài) GUI 智能體。它不僅在 AndroidWorld、OSWorld 等關(guān)鍵基準(zhǔn)上刷新了開源模型的記錄,其 32B 版本更是在多項(xiàng)評(píng)測(cè)中展現(xiàn)了超越閉源頂級(jí)模型的實(shí)力。更重要的是,它以單一模型之身,即可勝任復(fù)雜的單體任務(wù)與多智能體協(xié)作中的不同角色,顯著降低了部署和資源開銷。
而Mobile-Agent-v3框架則是為充分釋放 GUI-Owl 潛力而生的最佳拍檔。它通過精巧的多智能體協(xié)作機(jī)制,進(jìn)一步提升了模型的跨任務(wù)執(zhí)行能力,結(jié)合云端沙箱的靈活性,使其能夠快速適應(yīng)并解決各類新場(chǎng)景下的自動(dòng)化難題。
一句話總結(jié):開源,Mobile-Agent-v3 也能跑在最前面。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.