夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

阿里又一大模型開源,手機(jī)電腦樣樣玩的溜,多項(xiàng)測(cè)試秒GPT-5

0
分享至


智東西
作者 陳駿達(dá)
編輯 云鵬

智東西9月24日?qǐng)?bào)道,今天,阿里通義大模型團(tuán)隊(duì)宣布推出全新升級(jí)的Qwen3-VL系列模型,并宣布旗艦版本Qwen3-VL-235B-A22B系列開源。這是Qwen系列中最強(qiáng)的視覺語言模型。

Qwen3-VL的目標(biāo),是讓模型不僅能看到圖像或視頻,更能真正看懂世界、理解事件、做出行動(dòng)。在官方演示中,Qwen3-VL已經(jīng)展現(xiàn)出強(qiáng)大的視覺驅(qū)動(dòng)推理與執(zhí)行能力,可操作手機(jī)、電腦等設(shè)備。模型可以根據(jù)自然語言指令打開應(yīng)用、點(diǎn)擊按鈕、填寫信息等,幫你輕松完成航班的查詢和預(yù)定。

Qwen3-VL也具備識(shí)別萬物的能力,名人、美食、動(dòng)植物、汽車品牌、動(dòng)漫角色等均在其知識(shí)儲(chǔ)備范圍內(nèi)。上傳一張圖片,模型就能準(zhǔn)確報(bào)菜名,還是帶定位框的那種。


在十個(gè)維度的全面評(píng)估中,Qwen3-VL-235B-A22B-Instruct在非推理類模型中,多數(shù)指標(biāo)表現(xiàn)最優(yōu),超越了Gemini 2.5 Pro和GPT-5等閉源模型,同時(shí)刷新了開源多模態(tài)模型的最佳成績,在復(fù)雜視覺任務(wù)上具備強(qiáng)大泛化能力與綜合性能。

而在推理模型方面,Qwen3-VL-235B-A22B-Thinking同樣在多數(shù)指標(biāo)上創(chuàng)下開源多模態(tài)模型的新高,與Gemini 2.5 Pro和GPT-5等閉源頂尖模型相比各有勝負(fù)。雖然在多學(xué)科問題、視覺推理和視頻理解方面與閉源SOTA模型仍存在一定差距,但在Agent能力、文檔理解、2D/3D Grounding等任務(wù)上展現(xiàn)出明顯優(yōu)勢(shì)。


▲左側(cè)為Qwen3-VL-235B-A22B-Instruct等非推理模型得分,右側(cè)為Qwen3-VL-235B-A22B-Thinking等推理模型得分

目前,Qwen3-VL-235B-A22B-Instruct、Qwen3-VL-235B-A22B-Thinking均已開源至Github、Hugging Face、魔搭等開源平臺(tái),用戶也可在Qwen Chat里直接體驗(yàn)?zāi)P捅憩F(xiàn)。

開源地址:

https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b

https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe

https://github.com/QwenLM/Qwen3-VL

體驗(yàn)鏈接:

https://chat.qwen.ai

一、八大能力效果驚艷,看截圖用600行代碼再造小紅書

在博客中,阿里通義大模型團(tuán)隊(duì)介紹了Qwen3-VL系列模型的八大能力。

視覺智能體

Qwen3-VL能操作電腦和手機(jī)界面、識(shí)別GUI元素、理解按鈕功能、調(diào)用工具、執(zhí)行任務(wù),在OS World等基準(zhǔn)測(cè)試上達(dá)到世界頂尖水平,能通過調(diào)用工具有效提升在細(xì)粒度感知任務(wù)的表現(xiàn)。

官方Demo中,Qwen3-VL能在電腦中快速完成復(fù)制粘貼工作,還能把文件保存為Word文檔。或是根據(jù)用戶指令,輸出航班出發(fā)地、到達(dá)地、時(shí)間等信息,幫用戶節(jié)省繁瑣的操作流程。

文本能力

Qwen3-VL在預(yù)訓(xùn)練早期即混合文本與視覺模態(tài)協(xié)同訓(xùn)練,在純文本任務(wù)上表現(xiàn)與Qwen3-235B-A22B-2507純文本旗艦?zāi)P筒幌嗌舷?。結(jié)合視覺能力后,它能根據(jù)圖片或視頻內(nèi)容生成生動(dòng)的文字描述,適用于故事創(chuàng)作、文案撰寫、短視頻腳本等創(chuàng)意場景。

官方Demo展現(xiàn)了一個(gè)非常實(shí)用的Case,可以直接把孩子的素描作業(yè)發(fā)給Qwen3-VL,模型能根據(jù)畫面內(nèi)容和用戶提示詞,給出準(zhǔn)確的評(píng)價(jià)。


視覺Coding能力

Qwen3-VL能實(shí)現(xiàn)圖像生成代碼以及視頻生成代碼,例如看到設(shè)計(jì)圖,代碼生成Draw.io/HTML/CSS/JS代碼,真正實(shí)現(xiàn)“所見即所得”的視覺編程。

智東西將一張小紅書網(wǎng)頁版的截圖上傳給Qwen3-VL,不過,首先遇到的是其安全機(jī)制。模型認(rèn)為直接復(fù)制小紅書的設(shè)計(jì)有侵權(quán)風(fēng)險(xiǎn),多次拒絕此類任務(wù)。

隨后,我們向模型保證了相關(guān)代碼僅用于展示,模型這才同意上手開發(fā)。最終,Qwen3-VL用600多行代碼實(shí)現(xiàn)了復(fù)刻,除了未能顯示圖片之外,網(wǎng)頁基本實(shí)現(xiàn)了90%的還原度。


空間感知能力

Qwen3-VL在2D grounding任務(wù)上從絕對(duì)坐標(biāo)變?yōu)橄鄬?duì)坐標(biāo),支持判斷物體方位、視角變化、遮擋關(guān)系。


它也同時(shí)支持直接預(yù)測(cè)3D邊界框,還原物體在真實(shí)世界中的位置和大小。


長上下文支持和長視頻理解

Qwen3-VL全系列模型原生支持256K tokens的上下文長度,并可擴(kuò)展至1M token。這意味著,無論是幾百頁的技術(shù)文檔、整本教材,還是長達(dá)兩小時(shí)的視頻,都能完整輸入、全程記憶、精準(zhǔn)檢索。視頻定位可精確到秒級(jí)別時(shí)刻。

例如,在256K tokens上下文的“視頻大海撈針”實(shí)驗(yàn)中,Qwen3-VL的準(zhǔn)確率達(dá)到100%;當(dāng)上下文擴(kuò)展至1M tokens時(shí),對(duì)應(yīng)視頻時(shí)長約2小時(shí),準(zhǔn)確率仍保持在99.5%。

在官方Demo中,模型能看懂一條20多分鐘的外語視頻,并據(jù)此整理出一道菜譜。


甚至可以通過觀看游戲視頻自動(dòng)生成對(duì)應(yīng)的游戲代碼。


多模態(tài)思考能力

Qwen3-VL系列的Thinking模型重點(diǎn)優(yōu)化了STEM與數(shù)學(xué)推理能力。面對(duì)專業(yè)學(xué)科問題,模型能捕捉細(xì)節(jié)、抽絲剝繭、分析因果、給出有邏輯、有依據(jù)的答案,在MathVision、MMMU、MathVista等權(quán)威評(píng)測(cè)中達(dá)到領(lǐng)先水平。

智東西直接將官方Demo中的一則案例截圖,考察模型能否正確解答。


模型準(zhǔn)確地識(shí)別了圖中的文字和畫面,思考2-3分鐘后,給出了正確答案。

視覺感知與識(shí)別能力

通過優(yōu)化預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量和廣度,Qwen3-VL現(xiàn)在能識(shí)別更豐富的對(duì)象類別——從名人、動(dòng)漫角色、商品、地標(biāo),到動(dòng)植物等,覆蓋日常生活與專業(yè)領(lǐng)域的“萬物識(shí)別”需求。

官方Demo中,僅需上傳一張吹風(fēng)機(jī)的圖片,模型就能主動(dòng)進(jìn)行圖像感知,并調(diào)用搜索工具,給出品牌等信息,并提供是否值得購買的建議。


OCR支持更多語言及復(fù)雜場景

在復(fù)雜光線、模糊、傾斜等實(shí)拍挑戰(zhàn)性場景下,Qwen3-VL的表現(xiàn)更穩(wěn)定;對(duì)生僻字、古籍字、專業(yè)術(shù)語的識(shí)別準(zhǔn)確率也有提升;超長文檔理解和精細(xì)結(jié)構(gòu)還原能力進(jìn)一步提升。

例如,官方Demo中,這張實(shí)拍的掛號(hào)費(fèi)收據(jù)字跡模糊,還有重疊,肉眼看著都有些費(fèi)勁。但模型能準(zhǔn)確識(shí)別字樣,并根據(jù)指定格式輸出。


Qwen3-VL能識(shí)別的非中文、英文語言從10種擴(kuò)展到32種,覆蓋更多國家和地區(qū)。在這32種語言上,模型的識(shí)別準(zhǔn)確率已經(jīng)超過70%,達(dá)到實(shí)際可用水平。這些語言包括瑞典語等歐洲語言、斯瓦西里語等非洲語言、越南語等東南亞語言、印地語和烏爾都語等南亞語言和日語韓語等東亞語言,基本覆蓋了常用的小語種。


二、采用原生動(dòng)態(tài)分辨率設(shè)計(jì),結(jié)構(gòu)迎來三大更新

在模型架構(gòu)上,Qwen3-VL仍舊采用原生動(dòng)態(tài)分辨率設(shè)計(jì),但在結(jié)構(gòu)設(shè)計(jì)上進(jìn)行了更新:


一是采用MRoPE-Interleave,原始MRoPE將特征維度按照時(shí)間(t)、高度(h)和寬度(w)的順序分塊劃分,使得時(shí)間信息全部分布在高頻維度上。

Qwen3-VL中采取了t,h,w交錯(cuò)分布的形式,實(shí)現(xiàn)對(duì)時(shí)間,高度和寬度的全頻率覆蓋,這樣更加魯棒的位置編碼能夠保證模型在圖片理解能力相當(dāng)?shù)那闆r下,提升對(duì)長視頻的理解能力。

二是引入DeepStack技術(shù),融合ViT多層次特征,提升視覺細(xì)節(jié)捕捉能力和圖文對(duì)齊精度。阿里通義大模型團(tuán)隊(duì)沿用DeepStack的核心思想,將以往多模態(tài)大模型單層輸入視覺tokens的范式,改為在大語言模型的多層中進(jìn)行注入。這種多層注入方式旨在實(shí)現(xiàn)更精細(xì)化的視覺理解。

在此基礎(chǔ)上,阿里通義大模型團(tuán)隊(duì)進(jìn)一步優(yōu)化了視覺特征token化的策略。具體而言,Qwen3-VL將來自ViT不同層的視覺特征進(jìn)行token化,并以此作為視覺輸入。這種設(shè)計(jì)能夠有效保留從底層(low-level)到高層(high-level)的豐富視覺信息。實(shí)驗(yàn)結(jié)果表明,該方法在多種視覺理解任務(wù)上均展現(xiàn)出顯著的性能提升。

三是將原有的視頻時(shí)序建模機(jī)制T-RoPE升級(jí)為文本時(shí)間戳對(duì)齊機(jī)制。該機(jī)采用“時(shí)間戳-視頻幀”交錯(cuò)的輸入形式,實(shí)現(xiàn)幀級(jí)別的時(shí)間信息與視覺內(nèi)容的細(xì)粒度對(duì)齊。

同時(shí),模型原生支持“秒數(shù)”與“時(shí):分:秒”(HMS)兩種時(shí)間輸出格式。這一改進(jìn)提升了模型對(duì)視頻中動(dòng)作、事件的語義感知與時(shí)間定位精度,使其在復(fù)雜時(shí)序推理任務(wù)——如事件定位、動(dòng)作邊界檢測(cè)、跨模態(tài)時(shí)間問答等——中表現(xiàn)更穩(wěn)健、響應(yīng)更精準(zhǔn)。

結(jié)語:從多模態(tài)到智能體,VL模型展現(xiàn)龐大想象空間

生成式AI與真實(shí)世界場景的結(jié)合越來越密切,在文本模態(tài)之外,圖像、視頻等多模態(tài)任務(wù),也正在成為AI落地的關(guān)鍵場景之一。

未來,VL模型的潛力不僅在于識(shí)別物體、理解文檔或解析視頻,更在于成為驅(qū)動(dòng)Agent的大腦。它們將具備跨模態(tài)感知、跨任務(wù)推理、跨場景執(zhí)行的能力,從個(gè)人助手到工業(yè)自動(dòng)化、從教育科研到醫(yī)療健康,均有望釋放出巨大價(jià)值。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
人能活多久看牙齒就能知道?醫(yī)生:壽命不長的人,牙齒會(huì)有3特征

人能活多久看牙齒就能知道?醫(yī)生:壽命不長的人,牙齒會(huì)有3特征

泠泠說史
2025-09-25 13:15:24
棋圣戰(zhàn)決戰(zhàn)三番棋,屠曉宇戰(zhàn)平柯潔,時(shí)隔四年柯潔能否沖擊三連冠

棋圣戰(zhàn)決戰(zhàn)三番棋,屠曉宇戰(zhàn)平柯潔,時(shí)隔四年柯潔能否沖擊三連冠

王老師聊圍棋
2025-09-27 19:46:00
張馨予老公何捷被證實(shí)已轉(zhuǎn)業(yè),入職廣州大學(xué)保衛(wèi)處,網(wǎng)猜:因娶了大明星老婆升不上去....

張馨予老公何捷被證實(shí)已轉(zhuǎn)業(yè),入職廣州大學(xué)保衛(wèi)處,網(wǎng)猜:因娶了大明星老婆升不上去....

不二大叔
2025-09-26 22:20:58
反轉(zhuǎn)!網(wǎng)友疑似扒出崔麗麗真實(shí)動(dòng)機(jī),200萬索賠背后,恐怕不簡單

反轉(zhuǎn)!網(wǎng)友疑似扒出崔麗麗真實(shí)動(dòng)機(jī),200萬索賠背后,恐怕不簡單

小蘭聊歷史
2025-09-26 16:13:08
奧委會(huì)前主席:中國應(yīng)該發(fā)揚(yáng)大國精神,主動(dòng)承擔(dān)申辦奧運(yùn)會(huì)的責(zé)任

奧委會(huì)前主席:中國應(yīng)該發(fā)揚(yáng)大國精神,主動(dòng)承擔(dān)申辦奧運(yùn)會(huì)的責(zé)任

荊楚寰宇文樞
2025-09-25 12:57:07
明朝使臣向朝鮮國王下跪,韓國網(wǎng)友笑了:哈哈哈,就是棒打明朝!

明朝使臣向朝鮮國王下跪,韓國網(wǎng)友笑了:哈哈哈,就是棒打明朝!

得得電影
2025-09-26 10:09:12
維爾茨:我增重了幾磅,大量跑動(dòng)讓我控球時(shí)感覺差點(diǎn)但情況在改善

維爾茨:我增重了幾磅,大量跑動(dòng)讓我控球時(shí)感覺差點(diǎn)但情況在改善

直播吧
2025-09-27 16:14:07
“赫敏”艾瑪·沃森首次回應(yīng)與JK羅琳跨性別論戰(zhàn)!稱《哈利·波特》是最重要作品,“希望她繼續(xù)愛我”?

“赫敏”艾瑪·沃森首次回應(yīng)與JK羅琳跨性別論戰(zhàn)!稱《哈利·波特》是最重要作品,“希望她繼續(xù)愛我”?

英國報(bào)姐
2025-09-26 22:12:47
王朔揭露人性:別人挑你毛病,不是你有問題,而是想立威控制你!

王朔揭露人性:別人挑你毛病,不是你有問題,而是想立威控制你!

清風(fēng)拂心
2025-09-25 14:15:06
新加坡媒體:中國似乎已經(jīng)放棄和平解決中美矛盾的想法

新加坡媒體:中國似乎已經(jīng)放棄和平解決中美矛盾的想法

時(shí)尚的弄潮
2025-09-27 17:34:21
朝鮮二把手叛逃,家人24人被槍斃,被30名特工追殺13年,裸死家中

朝鮮二把手叛逃,家人24人被槍斃,被30名特工追殺13年,裸死家中

搖扇公子聊天下
2023-12-24 17:05:34
A股:股民做好準(zhǔn)備,主力資金明牌了,下周將迎來更大級(jí)別變盤?

A股:股民做好準(zhǔn)備,主力資金明牌了,下周將迎來更大級(jí)別變盤?

史行途
2025-09-27 17:27:15
20年過去,猴面包樹在廣東結(jié)果了,比非洲的還大!網(wǎng)友:好吃嗎

20年過去,猴面包樹在廣東結(jié)果了,比非洲的還大!網(wǎng)友:好吃嗎

說宇宙
2025-09-25 08:50:01
??!威少加盟北京隊(duì)?真要CBA大結(jié)局......

啊!威少加盟北京隊(duì)?真要CBA大結(jié)局......

籃球?qū)崙?zhàn)寶典
2025-09-26 23:12:17
貝克漢姆家鬧出大瓜!豪門大戲再添新章:這次是兒子與妹妹惹風(fēng)波

貝克漢姆家鬧出大瓜!豪門大戲再添新章:這次是兒子與妹妹惹風(fēng)波

譯言
2025-09-27 15:47:28
重罰?王楚欽被舉報(bào),違規(guī)原因找到,或被禁賽,罰單或曝光

重罰?王楚欽被舉報(bào),違規(guī)原因找到,或被禁賽,罰單或曝光

樂聊球
2025-09-26 13:40:54
34歲東北姑娘拿下81歲全球首富,長的很漂亮,一年抱倆娃身價(jià)上億

34歲東北姑娘拿下81歲全球首富,長的很漂亮,一年抱倆娃身價(jià)上億

云舟史策
2025-09-13 07:37:04
本以為第一個(gè)倒下的是烏克蘭,沒想到是瑞士,瑞士金融業(yè)近乎完蛋

本以為第一個(gè)倒下的是烏克蘭,沒想到是瑞士,瑞士金融業(yè)近乎完蛋

關(guān)注財(cái)事
2025-08-17 13:36:14
保級(jí)戰(zhàn)壓哨絕平!媒體人:李霄鵬不適合再執(zhí)教,亞泰海牛都瘋了

保級(jí)戰(zhàn)壓哨絕平!媒體人:李霄鵬不適合再執(zhí)教,亞泰海牛都瘋了

奧拜爾
2025-09-27 20:16:59
上了年紀(jì)真的不能太瘦!66歲劉雪華牙齦萎縮一口假牙,整個(gè)臉垮了

上了年紀(jì)真的不能太瘦!66歲劉雪華牙齦萎縮一口假牙,整個(gè)臉垮了

林木體育解說
2025-09-27 14:03:30
2025-09-27 20:36:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
10529文章數(shù) 116860關(guān)注度
往期回顧 全部

科技要聞

潘云鶴院士:未來AI發(fā)展三大趨勢(shì)與中國機(jī)遇

頭條要聞

摩爾線程88天閃電過會(huì) 或?qū)⒊葾股"中國版英偉達(dá)"

頭條要聞

摩爾線程88天閃電過會(huì) 或?qū)⒊葾股"中國版英偉達(dá)"

體育要聞

安德列娃大贊中網(wǎng)氛圍:這里讓我有額外動(dòng)力

娛樂要聞

49歲舒淇再次讓世界刮目相看

財(cái)經(jīng)要聞

一碗湯換顧客北京一套房?西貝再遭吐槽

汽車要聞

華為全家桶/綜合續(xù)航1400km 嵐圖泰山全球首秀

態(tài)度原創(chuàng)

游戲
手機(jī)
藝術(shù)
公開課
軍事航空

戀愛第8年,這款國乙游戲卻宣布“愛消失”了?

手機(jī)要聞

榮耀Magic8系列影像有驚喜 羅?。簺]有任何人見過 屬于絕密

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

召集全球高級(jí)將領(lǐng)開會(huì)前 美軍試射4枚導(dǎo)彈

無障礙瀏覽 進(jìn)入關(guān)懷版 超碰人人97在线| 欧美熟女打炮| 1000部啪啪未满十八勿入超污| 亚洲区精品区日韩区综合区| 少妇人妻偷人精品视频app| 国产又色又爽又黄的免费| 婷婷六月综合网| 成人久久综合| 99国产精品久久久久久久久久久| 久久17AV| 国产精品日韩中文字幕| AV毛片免费在线观看| 日韩成人影院在线看| 亚洲中文字幕无线无码毛片| XXX 无码视频| 影音先锋在线资源AV| 国内不卡不区二区三区| 欧美久久久久久久久久久久久久久久 | 中文字幕+乱码+中文乱码视频 | 欧美 第55页| 99er久久2| 亚洲国产成人无码av在线| 婷婷AV天堂| 精品少妇VA区一区二| 久久天天躁夜夜躁狠狠躁综合| dutie.com.cn| 北条麻妃在线一区二区| 国产日韩精品免费二三氏| 日韩人妻AV无码| 亚洲第一区无码专区| 波多野结衣被干| 久久一级黄色大片免费观看| 肥臀中文字幕| 亚洲国产男人激情天堂AV| 超碰日韩AV在线| 成人综合伊人网| 亚洲乱码在线卡一卡二卡新区豆瓣| 国产真实露脸乱子伦| 成人国产永久福利看片| 免费的色电影网站| 中文字幕熟女乱伦|