網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

阿里又一大模型開源，手機(jī)電腦樣樣玩的溜，多項(xiàng)測(cè)試秒GPT-5

2025-09-25 11:32:17　來源: 智東西

北京舉報(bào)

分享至

智東西
作者陳駿達(dá)
編輯云鵬

智東西9月24日?qǐng)?bào)道，今天，阿里通義大模型團(tuán)隊(duì)宣布推出全新升級(jí)的Qwen3-VL系列模型，并宣布旗艦版本Qwen3-VL-235B-A22B系列開源。這是Qwen系列中最強(qiáng)的視覺語言模型。

Qwen3-VL的目標(biāo)，是讓模型不僅能看到圖像或視頻，更能真正看懂世界、理解事件、做出行動(dòng)。在官方演示中，Qwen3-VL已經(jīng)展現(xiàn)出強(qiáng)大的視覺驅(qū)動(dòng)推理與執(zhí)行能力，可操作手機(jī)、電腦等設(shè)備。模型可以根據(jù)自然語言指令打開應(yīng)用、點(diǎn)擊按鈕、填寫信息等，幫你輕松完成航班的查詢和預(yù)定。

Qwen3-VL也具備識(shí)別萬物的能力，名人、美食、動(dòng)植物、汽車品牌、動(dòng)漫角色等均在其知識(shí)儲(chǔ)備范圍內(nèi)。上傳一張圖片，模型就能準(zhǔn)確報(bào)菜名，還是帶定位框的那種。

在十個(gè)維度的全面評(píng)估中，Qwen3-VL-235B-A22B-Instruct在非推理類模型中，多數(shù)指標(biāo)表現(xiàn)最優(yōu)，超越了Gemini 2.5 Pro和GPT-5等閉源模型，同時(shí)刷新了開源多模態(tài)模型的最佳成績，在復(fù)雜視覺任務(wù)上具備強(qiáng)大泛化能力與綜合性能。

而在推理模型方面，Qwen3-VL-235B-A22B-Thinking同樣在多數(shù)指標(biāo)上創(chuàng)下開源多模態(tài)模型的新高，與Gemini 2.5 Pro和GPT-5等閉源頂尖模型相比各有勝負(fù)。雖然在多學(xué)科問題、視覺推理和視頻理解方面與閉源SOTA模型仍存在一定差距，但在Agent能力、文檔理解、2D/3D Grounding等任務(wù)上展現(xiàn)出明顯優(yōu)勢(shì)。

▲左側(cè)為Qwen3-VL-235B-A22B-Instruct等非推理模型得分，右側(cè)為Qwen3-VL-235B-A22B-Thinking等推理模型得分

目前，Qwen3-VL-235B-A22B-Instruct、Qwen3-VL-235B-A22B-Thinking均已開源至Github、Hugging Face、魔搭等開源平臺(tái)，用戶也可在Qwen Chat里直接體驗(yàn)?zāi)Ｐ捅憩F(xiàn)。

開源地址：

https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b

https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

https://github.com/QwenLM/Qwen3-VL

體驗(yàn)鏈接：

https://chat.qwen.ai

一、八大能力效果驚艷，看截圖用600行代碼再造小紅書

在博客中，阿里通義大模型團(tuán)隊(duì)介紹了Qwen3-VL系列模型的八大能力。

視覺智能體

Qwen3-VL能操作電腦和手機(jī)界面、識(shí)別GUI元素、理解按鈕功能、調(diào)用工具、執(zhí)行任務(wù)，在OS World等基準(zhǔn)測(cè)試上達(dá)到世界頂尖水平，能通過調(diào)用工具有效提升在細(xì)粒度感知任務(wù)的表現(xiàn)。

官方Demo中，Qwen3-VL能在電腦中快速完成復(fù)制粘貼工作，還能把文件保存為Word文檔。或是根據(jù)用戶指令，輸出航班出發(fā)地、到達(dá)地、時(shí)間等信息，幫用戶節(jié)省繁瑣的操作流程。

文本能力

Qwen3-VL在預(yù)訓(xùn)練早期即混合文本與視覺模態(tài)協(xié)同訓(xùn)練，在純文本任務(wù)上表現(xiàn)與Qwen3-235B-A22B-2507純文本旗艦?zāi)Ｐ筒幌嗌舷?。結(jié)合視覺能力后，它能根據(jù)圖片或視頻內(nèi)容生成生動(dòng)的文字描述，適用于故事創(chuàng)作、文案撰寫、短視頻腳本等創(chuàng)意場景。

官方Demo展現(xiàn)了一個(gè)非常實(shí)用的Case，可以直接把孩子的素描作業(yè)發(fā)給Qwen3-VL，模型能根據(jù)畫面內(nèi)容和用戶提示詞，給出準(zhǔn)確的評(píng)價(jià)。

視覺Coding能力

Qwen3-VL能實(shí)現(xiàn)圖像生成代碼以及視頻生成代碼，例如看到設(shè)計(jì)圖，代碼生成Draw.io/HTML/CSS/JS代碼，真正實(shí)現(xiàn)“所見即所得”的視覺編程。

智東西將一張小紅書網(wǎng)頁版的截圖上傳給Qwen3-VL，不過，首先遇到的是其安全機(jī)制。模型認(rèn)為直接復(fù)制小紅書的設(shè)計(jì)有侵權(quán)風(fēng)險(xiǎn)，多次拒絕此類任務(wù)。

隨后，我們向模型保證了相關(guān)代碼僅用于展示，模型這才同意上手開發(fā)。最終，Qwen3-VL用600多行代碼實(shí)現(xiàn)了復(fù)刻，除了未能顯示圖片之外，網(wǎng)頁基本實(shí)現(xiàn)了90%的還原度。

空間感知能力

Qwen3-VL在2D grounding任務(wù)上從絕對(duì)坐標(biāo)變?yōu)橄鄬?duì)坐標(biāo)，支持判斷物體方位、視角變化、遮擋關(guān)系。

它也同時(shí)支持直接預(yù)測(cè)3D邊界框，還原物體在真實(shí)世界中的位置和大小。

長上下文支持和長視頻理解

Qwen3-VL全系列模型原生支持256K tokens的上下文長度，并可擴(kuò)展至1M token。這意味著，無論是幾百頁的技術(shù)文檔、整本教材，還是長達(dá)兩小時(shí)的視頻，都能完整輸入、全程記憶、精準(zhǔn)檢索。視頻定位可精確到秒級(jí)別時(shí)刻。

例如，在256K tokens上下文的“視頻大海撈針”實(shí)驗(yàn)中，Qwen3-VL的準(zhǔn)確率達(dá)到100%；當(dāng)上下文擴(kuò)展至1M tokens時(shí)，對(duì)應(yīng)視頻時(shí)長約2小時(shí)，準(zhǔn)確率仍保持在99.5%。

在官方Demo中，模型能看懂一條20多分鐘的外語視頻，并據(jù)此整理出一道菜譜。

甚至可以通過觀看游戲視頻自動(dòng)生成對(duì)應(yīng)的游戲代碼。

多模態(tài)思考能力

Qwen3-VL系列的Thinking模型重點(diǎn)優(yōu)化了STEM與數(shù)學(xué)推理能力。面對(duì)專業(yè)學(xué)科問題，模型能捕捉細(xì)節(jié)、抽絲剝繭、分析因果、給出有邏輯、有依據(jù)的答案，在MathVision、MMMU、MathVista等權(quán)威評(píng)測(cè)中達(dá)到領(lǐng)先水平。

智東西直接將官方Demo中的一則案例截圖，考察模型能否正確解答。

模型準(zhǔn)確地識(shí)別了圖中的文字和畫面，思考2-3分鐘后，給出了正確答案。

視覺感知與識(shí)別能力

通過優(yōu)化預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量和廣度，Qwen3-VL現(xiàn)在能識(shí)別更豐富的對(duì)象類別——從名人、動(dòng)漫角色、商品、地標(biāo)，到動(dòng)植物等，覆蓋日常生活與專業(yè)領(lǐng)域的“萬物識(shí)別”需求。

官方Demo中，僅需上傳一張吹風(fēng)機(jī)的圖片，模型就能主動(dòng)進(jìn)行圖像感知，并調(diào)用搜索工具，給出品牌等信息，并提供是否值得購買的建議。

OCR支持更多語言及復(fù)雜場景

在復(fù)雜光線、模糊、傾斜等實(shí)拍挑戰(zhàn)性場景下，Qwen3-VL的表現(xiàn)更穩(wěn)定；對(duì)生僻字、古籍字、專業(yè)術(shù)語的識(shí)別準(zhǔn)確率也有提升；超長文檔理解和精細(xì)結(jié)構(gòu)還原能力進(jìn)一步提升。

例如，官方Demo中，這張實(shí)拍的掛號(hào)費(fèi)收據(jù)字跡模糊，還有重疊，肉眼看著都有些費(fèi)勁。但模型能準(zhǔn)確識(shí)別字樣，并根據(jù)指定格式輸出。

Qwen3-VL能識(shí)別的非中文、英文語言從10種擴(kuò)展到32種，覆蓋更多國家和地區(qū)。在這32種語言上，模型的識(shí)別準(zhǔn)確率已經(jīng)超過70%，達(dá)到實(shí)際可用水平。這些語言包括瑞典語等歐洲語言、斯瓦西里語等非洲語言、越南語等東南亞語言、印地語和烏爾都語等南亞語言和日語韓語等東亞語言，基本覆蓋了常用的小語種。

二、采用原生動(dòng)態(tài)分辨率設(shè)計(jì)，結(jié)構(gòu)迎來三大更新

在模型架構(gòu)上，Qwen3-VL仍舊采用原生動(dòng)態(tài)分辨率設(shè)計(jì)，但在結(jié)構(gòu)設(shè)計(jì)上進(jìn)行了更新：

一是采用MRoPE-Interleave，原始MRoPE將特征維度按照時(shí)間（t）、高度（h)和寬度（w)的順序分塊劃分，使得時(shí)間信息全部分布在高頻維度上。

Qwen3-VL中采取了t,h,w交錯(cuò)分布的形式，實(shí)現(xiàn)對(duì)時(shí)間，高度和寬度的全頻率覆蓋，這樣更加魯棒的位置編碼能夠保證模型在圖片理解能力相當(dāng)?shù)那闆r下，提升對(duì)長視頻的理解能力。

二是引入DeepStack技術(shù)，融合ViT多層次特征，提升視覺細(xì)節(jié)捕捉能力和圖文對(duì)齊精度。阿里通義大模型團(tuán)隊(duì)沿用DeepStack的核心思想，將以往多模態(tài)大模型單層輸入視覺tokens的范式，改為在大語言模型的多層中進(jìn)行注入。這種多層注入方式旨在實(shí)現(xiàn)更精細(xì)化的視覺理解。

在此基礎(chǔ)上，阿里通義大模型團(tuán)隊(duì)進(jìn)一步優(yōu)化了視覺特征token化的策略。具體而言，Qwen3-VL將來自ViT不同層的視覺特征進(jìn)行token化，并以此作為視覺輸入。這種設(shè)計(jì)能夠有效保留從底層（low-level）到高層（high-level）的豐富視覺信息。實(shí)驗(yàn)結(jié)果表明，該方法在多種視覺理解任務(wù)上均展現(xiàn)出顯著的性能提升。

三是將原有的視頻時(shí)序建模機(jī)制T-RoPE升級(jí)為文本時(shí)間戳對(duì)齊機(jī)制。該機(jī)采用“時(shí)間戳-視頻幀”交錯(cuò)的輸入形式，實(shí)現(xiàn)幀級(jí)別的時(shí)間信息與視覺內(nèi)容的細(xì)粒度對(duì)齊。

同時(shí)，模型原生支持“秒數(shù)”與“時(shí):分:秒”（HMS）兩種時(shí)間輸出格式。這一改進(jìn)提升了模型對(duì)視頻中動(dòng)作、事件的語義感知與時(shí)間定位精度，使其在復(fù)雜時(shí)序推理任務(wù)——如事件定位、動(dòng)作邊界檢測(cè)、跨模態(tài)時(shí)間問答等——中表現(xiàn)更穩(wěn)健、響應(yīng)更精準(zhǔn)。

結(jié)語：從多模態(tài)到智能體，VL模型展現(xiàn)龐大想象空間

生成式AI與真實(shí)世界場景的結(jié)合越來越密切，在文本模態(tài)之外，圖像、視頻等多模態(tài)任務(wù)，也正在成為AI落地的關(guān)鍵場景之一。

未來，VL模型的潛力不僅在于識(shí)別物體、理解文檔或解析視頻，更在于成為驅(qū)動(dòng)Agent的大腦。它們將具備跨模態(tài)感知、跨任務(wù)推理、跨場景執(zhí)行的能力，從個(gè)人助手到工業(yè)自動(dòng)化、從教育科研到醫(yī)療健康，均有望釋放出巨大價(jià)值。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.