夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

清華AgentCPM-GUI讀懂中文屏幕并執(zhí)行操作,溝通高效不拖沓

0
分享至

始智AI wisemodel.cn開源社區(qū)

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel社區(qū)上線,價格實惠,靈活方便,支持在線微調(diào)訓練模型,及和,并。


想象一下,你的手機里住著一個私人助理:你輸入“幫我定個霸王茶姬”,它自動點單;你輸入“觀看 B站某位博主的視頻”,它一鍵打開。這就是GUI Agent——一種能“看懂”屏幕并執(zhí)行操作的智能體。

與傳統(tǒng) Agent相比,GUI Agent 更強調(diào)通過圖形界面的窗口、按鈕而非文本去執(zhí)行用戶指令進行交互,從而跳出單一的、固定的工作流,讓非技術(shù)用戶也能輕松地與復雜系統(tǒng)進行交互。在 Agent 發(fā)展的多樣化方向中,GUI Agent 作為一條重要分支,拓展了 Agent 應(yīng)用的場景和形式。

目前學界已有一批面向英文 APP 操作的開源 GUI Agent 模型,如 DigiRL、OdysseyAgent、UI-TARS 等。然而,整個開源生態(tài)仍缺乏專門針對中文 APP 精細優(yōu)化的高質(zhì)量 GUI Agent。同時,現(xiàn)有模型在復雜決策推理、長鏈任務(wù)執(zhí)行能力上仍有待加強,大模型端側(cè)部署的困難也帶來了隱私保護與應(yīng)用落地的雙重挑戰(zhàn)。

近日,清華大學、中國人民大學、面壁智能團隊聯(lián)合發(fā)布了 AgentCPM-GUI ——一個面向中文 APP 的端側(cè) GUI Agent,已在中文 Android 場景和開源 Benchmark 取得 SOTA 性能。現(xiàn)已上線始智AI-wisemodel開源社區(qū),歡迎體驗。


模型地址

https://wisemodel.cn/models/zhongzhang/AgentCPM-GUI/intro

首先,通過一個 demo 感受一下AgentCPM的性能,給出的指令是:去嗶哩嗶哩看李子柒的最新視頻,并且點贊。

從視頻中可以看出,AgentCPM-GUI 能夠根據(jù)用戶指令,進一步拆分執(zhí)行步驟,并在對應(yīng)APP中準確執(zhí)行指令。

01.

針對中文語境的端側(cè)GUI Agent

專門面向中文場景的預訓練

現(xiàn)有的中文 GUI Agent 在定位 GUI 元素時能力較弱,尤其是在面對未見過的場景時,泛化能力明顯不足。一個基于視覺語言模型(VLM)的 GUI Agent 在處理動態(tài)高分辨率視覺輸入時,可能會因定位歧義問題而無法準確識別目標元素。這種情況下,即使模型能夠識別界面元素,也可能因定位不準確而導致操作失敗。

AgentCPM-GUI 通過高質(zhì)量的 GUI Grounding 預訓練,顯著提升了模型對視覺界面元素的理解和定位能力。該模型在大規(guī)模中文安卓應(yīng)用界面數(shù)據(jù)上進行預訓練,覆蓋了常見的按鈕、輸入框、標簽、圖標等通用 GUI 控件,具備較強的跨任務(wù)、跨應(yīng)用泛化能力。


如上圖所示,AgentCPM-GUI 同時具備 GUI Grounding 和 OCR Grounding 能力。給定 GUI 元素的功能描述,模型可以準確定位該控件所在的坐標位置。同樣地,給定屏幕中的文本或文本坐標,模型可以做到準確的 OCR 定位和識別。

基于強化微調(diào)的復雜決策能力

除了傳統(tǒng)的有監(jiān)督微調(diào) SFT,AgentCPM-GUI 引入了強化微調(diào) RFT 來增強模型的推理決策能力。AgentCPM-GUI 設(shè)計了動作格式獎勵、動作類型獎勵、動作參數(shù)獎勵三個維度的獎勵函數(shù)來指導模型進行學習,引導模型自主地生成高質(zhì)量的思維鏈過程,從而更好地理解用戶意圖和規(guī)劃任務(wù),提升任務(wù)的執(zhí)行成功率。

下圖展示了模型的 RFT 訓練進程,可以看到在獎勵函數(shù)的引導下,模型不斷優(yōu)化自身策略,以獲取更高的獎勵。


從表中可看出,經(jīng)過 RFT 的模型有效地提高了動作執(zhí)行的準確率,在開源評測榜單中相比于 SFT 模型取得了7%~15%的 Exact Match 提升。


減少50%動作輸出長度,端側(cè)推理速度加快

通過對動作空間的精細設(shè)計并采用緊湊的 JSON 格式,AgentCPM-GUI 將動作平均長度壓縮至僅 9.7 個 token,相比之下 Qwen2.5-VL 則為 19.2 個 token,減少了約 50%,從而加快端側(cè)推理速度。

這意味著,AgentCPM-GUI 緊湊的動作空間設(shè)計讓 Agent 少了很多廢話,也更容易部署在端側(cè)。在實際應(yīng)用場景中,可移動的端側(cè)設(shè)備搭載 AgentCPM-GUI 在具備更強靈活性的同時,也能緩解使用者對隱私安全問題的擔憂。

02.

同一測評標準后的真較量

GUI Grounding 能力是評估 GUI Agent 的基本面,是一種評估模型在理解和定位中文圖形用戶界面(GUI)元素能力的標準測試,AgentCPM-GUI 團隊測評了目前市面上多模態(tài)能力突出的 Qwen2.5-VL、Intern2.5-VL、OS-Genesis、UI-TARS、OS-Altas、Aguvis 和 GPT-4o 模型,將這幾個模型放到中文 Grounding Benchmark 上,圖表中列出了幾種模型在三個不同任務(wù)上的性能指標,其性能表現(xiàn)得到了如下結(jié)果:


從圖表中可以看出,AgentCPM-GUI 模型在這三個任務(wù)上的平均性能最好,這表明它在理解和操作中文 GUI 方面具有優(yōu)勢。Qwen2.5-VL 和 Intern2.5-VL 緊隨其后,在中文 APP 場景中顯示出一定的通用 GUI grounding 能力。GPT-4o 則意外地缺失 GUI grounding 能力,需要使用外掛的 grounding 模型對輸入進行額外增強。

值得注意的是,包括 UI-TARS、OS-Altas 和 Aguvis 在內(nèi)的 GUI Agent 模型雖然在 fun2point 和 text2point 子任務(wù)上有不錯效果,但在 bbox2text 子任務(wù)上表現(xiàn)不佳存在性能短板。

過去,市面上的 Agent 測評大多是“自說自話”,不同模型在不同數(shù)據(jù)集上的評測代碼開源做得并不完善,瘋狂“跑分”的結(jié)果是各家模型都是“第一”,可復現(xiàn)性較低。AgentCPM-GUI 團隊首次對 Agent 的測評標準進行統(tǒng)一化,系統(tǒng)性用同一套標準,評測不同家的模型,得出的結(jié)論如下


*不同的訓練/測試集劃分

讓所有的模型答同一套題目,AgentCPM-GUI 確實是排在多個排行榜第一名的那個。AgentCPM-GUI 不僅具備強大的中文APP理解操作能力,在開源 Benchmark 上表現(xiàn)也毫不遜色。

以上的評測代碼均已開源,歡迎 GUI 方向的開發(fā)者,接入使用 AgentCPM-GUI,高分答案直接用!

編輯:成蘊年

----- END -----


wisemodel相關(guān):

系統(tǒng)升級:

大賽報名:

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實驗室、大企業(yè)研究團隊、個人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高??蒲性核⒋笮突ヂ?lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者,以及政府部門、學會協(xié)會、聯(lián)盟、基金會等,還有投資機構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
落地的鳳凰不如雞!為養(yǎng)家糊口淪落到景區(qū)賣藝,這幾位明星太可惜

落地的鳳凰不如雞!為養(yǎng)家糊口淪落到景區(qū)賣藝,這幾位明星太可惜

白面書誏
2025-08-27 11:55:17
墨菲:曼聯(lián)陣容問題不大,阿莫林體系不適合球隊

墨菲:曼聯(lián)陣容問題不大,阿莫林體系不適合球隊

雷速體育
2025-08-28 10:32:54
2.75-1.44!王欣瑜2-1殺進美網(wǎng)32強+獎金170萬?請大家拭目以待吧

2.75-1.44!王欣瑜2-1殺進美網(wǎng)32強+獎金170萬?請大家拭目以待吧

侃球熊弟
2025-08-27 23:50:55
徹底失業(yè)!2年4隊+無人問津,他才22歲啊,NBA最水17順位誕生

徹底失業(yè)!2年4隊+無人問津,他才22歲啊,NBA最水17順位誕生

球童無忌
2025-08-27 23:08:46
因媽媽姓氏太特殊,全家一致通過“隨母姓”,網(wǎng)友:是我也隨母姓

因媽媽姓氏太特殊,全家一致通過“隨母姓”,網(wǎng)友:是我也隨母姓

博覽歷史
2025-08-27 10:12:23
俄羅斯占領(lǐng)區(qū)的烏克蘭人:當年選的路,如今跪著也要走完

俄羅斯占領(lǐng)區(qū)的烏克蘭人:當年選的路,如今跪著也要走完

知兵
2025-08-27 13:13:09
對峙30個小時后,菲律賓兩艘主力船撤離,仁愛礁破船進入最后時刻

對峙30個小時后,菲律賓兩艘主力船撤離,仁愛礁破船進入最后時刻

阿龍聊軍事
2025-08-28 05:47:03
無緣歐冠!穆帥:不想把塔利斯卡紅牌當借口,我們歐聯(lián)杯表現(xiàn)不錯

無緣歐冠!穆帥:不想把塔利斯卡紅牌當借口,我們歐聯(lián)杯表現(xiàn)不錯

直播吧
2025-08-28 09:33:31
浙江人準備好!即將再破紀錄!高溫月底就緩解,可是……

浙江人準備好!即將再破紀錄!高溫月底就緩解,可是……

魯中晨報
2025-08-28 07:40:17
8月27日俄烏最新:庫皮揚斯克的危機

8月27日俄烏最新:庫皮揚斯克的危機

西樓飲月
2025-08-27 18:15:03
中國鄭重通告了全球,停止向巴基斯坦提供梟龍Block3發(fā)動機

中國鄭重通告了全球,停止向巴基斯坦提供梟龍Block3發(fā)動機

健身狂人
2025-08-27 12:50:40
男子三亞游泳溺水 妻子崩潰大哭:喊他不要去他非要去

男子三亞游泳溺水 妻子崩潰大哭:喊他不要去他非要去

大象新聞
2025-08-28 09:19:38
上海擬收緊戶籍管理政策全國效仿,300萬人保永居or保戶籍陷兩難

上海擬收緊戶籍管理政策全國效仿,300萬人保永居or保戶籍陷兩難

道術(shù)意義
2025-08-27 19:49:12
女排世錦賽16強全部出爐,各隊奪冠概率如下,中國女排成黑馬!

女排世錦賽16強全部出爐,各隊奪冠概率如下,中國女排成黑馬!

田先生籃球
2025-08-27 14:54:35
墨西哥一共喪失多少領(lǐng)土:獨立出去5個國家,還被美國占領(lǐng)一半

墨西哥一共喪失多少領(lǐng)土:獨立出去5個國家,還被美國占領(lǐng)一半

墨蘭史書
2025-08-27 15:10:03
司令員政委都犧牲!呂正操:此戰(zhàn)后,中央取消了政委的最后決定權(quán)

司令員政委都犧牲!呂正操:此戰(zhàn)后,中央取消了政委的最后決定權(quán)

鶴羽說個事
2025-08-12 15:40:50
美媒稱:200多架轟6可在3000公里外一擊必殺,是美國的致命威脅?

美媒稱:200多架轟6可在3000公里外一擊必殺,是美國的致命威脅?

陣匠
2025-08-27 02:46:10
名單來了!這些外國國家元首和政府首腦將出席中國人民抗日戰(zhàn)爭暨世界反法西斯戰(zhàn)爭勝利80周年紀念活動

名單來了!這些外國國家元首和政府首腦將出席中國人民抗日戰(zhàn)爭暨世界反法西斯戰(zhàn)爭勝利80周年紀念活動

新京報
2025-08-28 10:24:51
日本膽大包天,鼓動多國不參加93閱兵,不來的8國,有一國最尷尬

日本膽大包天,鼓動多國不參加93閱兵,不來的8國,有一國最尷尬

阿器談史
2025-08-27 11:40:06
46歲的秦海璐,每月給喪子喪夫的婆婆生活費,我是您的第三個孩子

46歲的秦海璐,每月給喪子喪夫的婆婆生活費,我是您的第三個孩子

山河月明史
2025-08-24 13:44:57
2025-08-28 12:40:49
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
353文章數(shù) 12關(guān)注度
往期回顧 全部

科技要聞

英偉達,被中國市場“反殺”

頭條要聞

女子稱251萬存款"消失" 警方發(fā)現(xiàn)被多名老人分次取走

頭條要聞

女子稱251萬存款"消失" 警方發(fā)現(xiàn)被多名老人分次取走

體育要聞

33歲,癌癥+白血病,他還不想放棄籃球

娛樂要聞

胡歌轉(zhuǎn)型從型男直接變成黝黑的老頭兒

財經(jīng)要聞

時代的“寒王”

汽車要聞

全新設(shè)計更運動/純電續(xù)航125km 吉利銀河星耀6曝光

態(tài)度原創(chuàng)

游戲
旅游
時尚
藝術(shù)
軍事航空

超30%巴西玩家認同《GTA6》賣100美元!你認同嗎?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

秋天最高級的三組配色,很好看!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

九三閱兵倒計時7天 訓練場看"中國排面"

無障礙瀏覽 進入關(guān)懷版 国产精品一区二区不卡| jizz中国女人久久久| 国产亚洲精品自在久久蜜tv| 人人干人人操AV| 躁躁躁日日躁2020麻豆| 色一情一乱一乱一区99av| 在线A久青草视频在线观看| 成人黄色视频久久| 欧美熟妇少妇多毛| 免费AV网址一区二区| 五月丁香六月婷婷在线综合观看| 国产av无码专区影视| 国产AV第一页| Av按摩xⅩⅩ| 亚洲无线码一区二区三区| 国产人妻aⅴ色偷| 国产av八区| 国产亚州精品女人久久久久久| 免费国精产品一二二区早| 无码精品久久久| 麻豆人妻少妇精品无码专区| 久久99精品久久久子伦| 久久的爱免费视频| 电影精品一区| 国产凸凹视频一区二区| 国产女人爽的流水毛片| 欲色天天婬香婬色综合网| 99久久免费只有精品国产| 俄罗斯BBW| 精品国产免费无码久久噜噜噜AV| 国产精品无码2021在线观看| 国产精品久久久久久久久软件| 波多野结衣无码在线视频| av蜜臀网站| 亚洲精品欧美日韩一区| 成人免费区一区二区三区| 国产高清无码影院| 性裸交xxx| 无码综合天天久久综合网色吧影院 | 国产国产国产国产系列| 色呦呦在线播放|