9月24日,2025云棲大會(huì)開(kāi)幕,阿里通義旗艦?zāi)P蚎wen3-Max重磅亮相,性能超過(guò)GPT5、Claude Opus 4等,躋身全球前三。Qwen3-Max包括指令(Instruct)和推理(Thinking)兩大版本,其預(yù)覽版已在 Chatbot Arena 排行榜上位列第三,正式版性可望再度實(shí)現(xiàn)突破。
Qwen3-Max為通義千問(wèn)家族中最大、最強(qiáng)的基礎(chǔ)模型。該模型預(yù)訓(xùn)練數(shù)據(jù)量達(dá)36T tokens,總參數(shù)超過(guò)萬(wàn)億,擁有極強(qiáng)的Coding編程能力和Agent工具調(diào)用能力。在大模型用Coding解決真實(shí)世界問(wèn)題的SWE-Bench Verified測(cè)試中,Instruct版本斬獲69.6分,位列全球第一梯隊(duì);在聚焦Agent工具調(diào)用能力的Tau2-Bench測(cè)試中,Qwen3-Max取得突破性的74.8分,超過(guò)Claude Opus4和DeepSeek-V3.1。
Qwen3-Max-Instrurct測(cè)評(píng)分?jǐn)?shù)
Qwen3-Max的推理增強(qiáng)版本Qwen3-Max-Thinking-Heavy也展現(xiàn)出非凡性能,結(jié)合工具調(diào)用和并行推理技術(shù),其推理能力創(chuàng)下新高,尤其在聚焦數(shù)學(xué)推理的AIME 25和HMMT測(cè)試中,均達(dá)到突破性的滿分100分,為國(guó)內(nèi)首次。Qwen3-Max推理模型之所以能夠取得優(yōu)異成績(jī),原因在于大模型在解數(shù)學(xué)題時(shí)懂得調(diào)動(dòng)工具,能夠?qū)懘a做題,同時(shí),增加測(cè)試時(shí)的計(jì)算資源,也讓模型表現(xiàn)變得更好。
Qwen3-Max-Thinking-Heavy 測(cè)評(píng)分?jǐn)?shù)
大模型預(yù)訓(xùn)練原理Scaling Law(規(guī)?;▌t)認(rèn)為,持續(xù)地增長(zhǎng)數(shù)據(jù)和參數(shù)規(guī)模,是通向 AGI 的可能路徑之一。由于自然數(shù)據(jù)的數(shù)量有限,當(dāng)前有部分學(xué)者認(rèn)為預(yù)訓(xùn)練的Scaling Law即將逼近上限,而Qwen3-Max的性能突破顯示,繼續(xù)增大數(shù)據(jù)、模型參數(shù),依然能鍛造出更強(qiáng)的模型,給予了大家更多的信心。目前,通義千問(wèn)系列模型已經(jīng)實(shí)現(xiàn)從0.5B到超萬(wàn)億的全尺寸覆蓋,包含三百多個(gè)大模型,可滿足不同場(chǎng)景的需求。
即日起,用戶可在通義千問(wèn)QwenChat上免費(fèi)體驗(yàn)Qwen3-Max,也可通過(guò)阿里云百煉平臺(tái)調(diào)用API服務(wù)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.