智東西
作者 陳駿達(dá)
編輯 云鵬
智東西9月24日?qǐng)?bào)道,今天,阿里通義大模型團(tuán)隊(duì)宣布推出全新升級(jí)的Qwen3-VL系列模型,并宣布旗艦版本Qwen3-VL-235B-A22B系列開源。這是Qwen系列中最強(qiáng)的視覺語言模型。
Qwen3-VL的目標(biāo),是讓模型不僅能看到圖像或視頻,更能真正看懂世界、理解事件、做出行動(dòng)。在官方演示中,Qwen3-VL已經(jīng)展現(xiàn)出強(qiáng)大的視覺驅(qū)動(dòng)推理與執(zhí)行能力,可操作手機(jī)、電腦等設(shè)備。模型可以根據(jù)自然語言指令打開應(yīng)用、點(diǎn)擊按鈕、填寫信息等,幫你輕松完成航班的查詢和預(yù)定。
Qwen3-VL也具備識(shí)別萬物的能力,名人、美食、動(dòng)植物、汽車品牌、動(dòng)漫角色等均在其知識(shí)儲(chǔ)備范圍內(nèi)。上傳一張圖片,模型就能準(zhǔn)確報(bào)菜名,還是帶定位框的那種。
在十個(gè)維度的全面評(píng)估中,Qwen3-VL-235B-A22B-Instruct在非推理類模型中,多數(shù)指標(biāo)表現(xiàn)最優(yōu),超越了Gemini 2.5 Pro和GPT-5等閉源模型,同時(shí)刷新了開源多模態(tài)模型的最佳成績,在復(fù)雜視覺任務(wù)上具備強(qiáng)大泛化能力與綜合性能。
而在推理模型方面,Qwen3-VL-235B-A22B-Thinking同樣在多數(shù)指標(biāo)上創(chuàng)下開源多模態(tài)模型的新高,與Gemini 2.5 Pro和GPT-5等閉源頂尖模型相比各有勝負(fù)。雖然在多學(xué)科問題、視覺推理和視頻理解方面與閉源SOTA模型仍存在一定差距,但在Agent能力、文檔理解、2D/3D Grounding等任務(wù)上展現(xiàn)出明顯優(yōu)勢(shì)。
▲左側(cè)為Qwen3-VL-235B-A22B-Instruct等非推理模型得分,右側(cè)為Qwen3-VL-235B-A22B-Thinking等推理模型得分
目前,Qwen3-VL-235B-A22B-Instruct、Qwen3-VL-235B-A22B-Thinking均已開源至Github、Hugging Face、魔搭等開源平臺(tái),用戶也可在Qwen Chat里直接體驗(yàn)?zāi)P捅憩F(xiàn)。
開源地址:
https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b
https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
https://github.com/QwenLM/Qwen3-VL
體驗(yàn)鏈接:
https://chat.qwen.ai
一、八大能力效果驚艷,看截圖用600行代碼再造小紅書
在博客中,阿里通義大模型團(tuán)隊(duì)介紹了Qwen3-VL系列模型的八大能力。
視覺智能體
Qwen3-VL能操作電腦和手機(jī)界面、識(shí)別GUI元素、理解按鈕功能、調(diào)用工具、執(zhí)行任務(wù),在OS World等基準(zhǔn)測(cè)試上達(dá)到世界頂尖水平,能通過調(diào)用工具有效提升在細(xì)粒度感知任務(wù)的表現(xiàn)。
官方Demo中,Qwen3-VL能在電腦中快速完成復(fù)制粘貼工作,還能把文件保存為Word文檔。或是根據(jù)用戶指令,輸出航班出發(fā)地、到達(dá)地、時(shí)間等信息,幫用戶節(jié)省繁瑣的操作流程。
文本能力
Qwen3-VL在預(yù)訓(xùn)練早期即混合文本與視覺模態(tài)協(xié)同訓(xùn)練,在純文本任務(wù)上表現(xiàn)與Qwen3-235B-A22B-2507純文本旗艦?zāi)P筒幌嗌舷?。結(jié)合視覺能力后,它能根據(jù)圖片或視頻內(nèi)容生成生動(dòng)的文字描述,適用于故事創(chuàng)作、文案撰寫、短視頻腳本等創(chuàng)意場景。
官方Demo展現(xiàn)了一個(gè)非常實(shí)用的Case,可以直接把孩子的素描作業(yè)發(fā)給Qwen3-VL,模型能根據(jù)畫面內(nèi)容和用戶提示詞,給出準(zhǔn)確的評(píng)價(jià)。
視覺Coding能力
Qwen3-VL能實(shí)現(xiàn)圖像生成代碼以及視頻生成代碼,例如看到設(shè)計(jì)圖,代碼生成Draw.io/HTML/CSS/JS代碼,真正實(shí)現(xiàn)“所見即所得”的視覺編程。
智東西將一張小紅書網(wǎng)頁版的截圖上傳給Qwen3-VL,不過,首先遇到的是其安全機(jī)制。模型認(rèn)為直接復(fù)制小紅書的設(shè)計(jì)有侵權(quán)風(fēng)險(xiǎn),多次拒絕此類任務(wù)。
隨后,我們向模型保證了相關(guān)代碼僅用于展示,模型這才同意上手開發(fā)。最終,Qwen3-VL用600多行代碼實(shí)現(xiàn)了復(fù)刻,除了未能顯示圖片之外,網(wǎng)頁基本實(shí)現(xiàn)了90%的還原度。
空間感知能力
Qwen3-VL在2D grounding任務(wù)上從絕對(duì)坐標(biāo)變?yōu)橄鄬?duì)坐標(biāo),支持判斷物體方位、視角變化、遮擋關(guān)系。
它也同時(shí)支持直接預(yù)測(cè)3D邊界框,還原物體在真實(shí)世界中的位置和大小。
長上下文支持和長視頻理解
Qwen3-VL全系列模型原生支持256K tokens的上下文長度,并可擴(kuò)展至1M token。這意味著,無論是幾百頁的技術(shù)文檔、整本教材,還是長達(dá)兩小時(shí)的視頻,都能完整輸入、全程記憶、精準(zhǔn)檢索。視頻定位可精確到秒級(jí)別時(shí)刻。
例如,在256K tokens上下文的“視頻大海撈針”實(shí)驗(yàn)中,Qwen3-VL的準(zhǔn)確率達(dá)到100%;當(dāng)上下文擴(kuò)展至1M tokens時(shí),對(duì)應(yīng)視頻時(shí)長約2小時(shí),準(zhǔn)確率仍保持在99.5%。
在官方Demo中,模型能看懂一條20多分鐘的外語視頻,并據(jù)此整理出一道菜譜。
甚至可以通過觀看游戲視頻自動(dòng)生成對(duì)應(yīng)的游戲代碼。
多模態(tài)思考能力
Qwen3-VL系列的Thinking模型重點(diǎn)優(yōu)化了STEM與數(shù)學(xué)推理能力。面對(duì)專業(yè)學(xué)科問題,模型能捕捉細(xì)節(jié)、抽絲剝繭、分析因果、給出有邏輯、有依據(jù)的答案,在MathVision、MMMU、MathVista等權(quán)威評(píng)測(cè)中達(dá)到領(lǐng)先水平。
智東西直接將官方Demo中的一則案例截圖,考察模型能否正確解答。
模型準(zhǔn)確地識(shí)別了圖中的文字和畫面,思考2-3分鐘后,給出了正確答案。
視覺感知與識(shí)別能力
通過優(yōu)化預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量和廣度,Qwen3-VL現(xiàn)在能識(shí)別更豐富的對(duì)象類別——從名人、動(dòng)漫角色、商品、地標(biāo),到動(dòng)植物等,覆蓋日常生活與專業(yè)領(lǐng)域的“萬物識(shí)別”需求。
官方Demo中,僅需上傳一張吹風(fēng)機(jī)的圖片,模型就能主動(dòng)進(jìn)行圖像感知,并調(diào)用搜索工具,給出品牌等信息,并提供是否值得購買的建議。
OCR支持更多語言及復(fù)雜場景
在復(fù)雜光線、模糊、傾斜等實(shí)拍挑戰(zhàn)性場景下,Qwen3-VL的表現(xiàn)更穩(wěn)定;對(duì)生僻字、古籍字、專業(yè)術(shù)語的識(shí)別準(zhǔn)確率也有提升;超長文檔理解和精細(xì)結(jié)構(gòu)還原能力進(jìn)一步提升。
例如,官方Demo中,這張實(shí)拍的掛號(hào)費(fèi)收據(jù)字跡模糊,還有重疊,肉眼看著都有些費(fèi)勁。但模型能準(zhǔn)確識(shí)別字樣,并根據(jù)指定格式輸出。
Qwen3-VL能識(shí)別的非中文、英文語言從10種擴(kuò)展到32種,覆蓋更多國家和地區(qū)。在這32種語言上,模型的識(shí)別準(zhǔn)確率已經(jīng)超過70%,達(dá)到實(shí)際可用水平。這些語言包括瑞典語等歐洲語言、斯瓦西里語等非洲語言、越南語等東南亞語言、印地語和烏爾都語等南亞語言和日語韓語等東亞語言,基本覆蓋了常用的小語種。
二、采用原生動(dòng)態(tài)分辨率設(shè)計(jì),結(jié)構(gòu)迎來三大更新
在模型架構(gòu)上,Qwen3-VL仍舊采用原生動(dòng)態(tài)分辨率設(shè)計(jì),但在結(jié)構(gòu)設(shè)計(jì)上進(jìn)行了更新:
一是采用MRoPE-Interleave,原始MRoPE將特征維度按照時(shí)間(t)、高度(h)和寬度(w)的順序分塊劃分,使得時(shí)間信息全部分布在高頻維度上。
Qwen3-VL中采取了t,h,w交錯(cuò)分布的形式,實(shí)現(xiàn)對(duì)時(shí)間,高度和寬度的全頻率覆蓋,這樣更加魯棒的位置編碼能夠保證模型在圖片理解能力相當(dāng)?shù)那闆r下,提升對(duì)長視頻的理解能力。
二是引入DeepStack技術(shù),融合ViT多層次特征,提升視覺細(xì)節(jié)捕捉能力和圖文對(duì)齊精度。阿里通義大模型團(tuán)隊(duì)沿用DeepStack的核心思想,將以往多模態(tài)大模型單層輸入視覺tokens的范式,改為在大語言模型的多層中進(jìn)行注入。這種多層注入方式旨在實(shí)現(xiàn)更精細(xì)化的視覺理解。
在此基礎(chǔ)上,阿里通義大模型團(tuán)隊(duì)進(jìn)一步優(yōu)化了視覺特征token化的策略。具體而言,Qwen3-VL將來自ViT不同層的視覺特征進(jìn)行token化,并以此作為視覺輸入。這種設(shè)計(jì)能夠有效保留從底層(low-level)到高層(high-level)的豐富視覺信息。實(shí)驗(yàn)結(jié)果表明,該方法在多種視覺理解任務(wù)上均展現(xiàn)出顯著的性能提升。
三是將原有的視頻時(shí)序建模機(jī)制T-RoPE升級(jí)為文本時(shí)間戳對(duì)齊機(jī)制。該機(jī)采用“時(shí)間戳-視頻幀”交錯(cuò)的輸入形式,實(shí)現(xiàn)幀級(jí)別的時(shí)間信息與視覺內(nèi)容的細(xì)粒度對(duì)齊。
同時(shí),模型原生支持“秒數(shù)”與“時(shí):分:秒”(HMS)兩種時(shí)間輸出格式。這一改進(jìn)提升了模型對(duì)視頻中動(dòng)作、事件的語義感知與時(shí)間定位精度,使其在復(fù)雜時(shí)序推理任務(wù)——如事件定位、動(dòng)作邊界檢測(cè)、跨模態(tài)時(shí)間問答等——中表現(xiàn)更穩(wěn)健、響應(yīng)更精準(zhǔn)。
結(jié)語:從多模態(tài)到智能體,VL模型展現(xiàn)龐大想象空間
生成式AI與真實(shí)世界場景的結(jié)合越來越密切,在文本模態(tài)之外,圖像、視頻等多模態(tài)任務(wù),也正在成為AI落地的關(guān)鍵場景之一。
未來,VL模型的潛力不僅在于識(shí)別物體、理解文檔或解析視頻,更在于成為驅(qū)動(dòng)Agent的大腦。它們將具備跨模態(tài)感知、跨任務(wù)推理、跨場景執(zhí)行的能力,從個(gè)人助手到工業(yè)自動(dòng)化、從教育科研到醫(yī)療健康,均有望釋放出巨大價(jià)值。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.