阿里發(fā)布并開源模型Qwen3，昇騰海光已適配，英偉達(dá)連夜跟進(jìn)

2025-04-29 21:14:18　來源: 科工力量

上海舉報(bào)

分享至

4月29日凌晨，阿里巴巴開源新一代通義千問模型Qwen3（簡稱千問3），參數(shù)量僅為DeepSeek-R1的1/3，成本大幅下降，性能全面超越R1、OpenAI-o1等領(lǐng)先模型，登頂全球最強(qiáng)開源模型。

根據(jù)官方的說法，千問3的旗艦版本 Qwen3-235B-A22B，在代碼、數(shù)學(xué)、通用能力等基準(zhǔn)測試中，達(dá)到了與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 同一梯度的水平。

在奧數(shù)水平的 AIME25 測評中，Qwen3-235B-A22B 斬獲 81.5 分，刷新了開源模型的紀(jì)錄；在考察代碼能力的 LiveCodeBench 評測中，Qwen3-235B-A22B 突破 70 分，表現(xiàn)甚至超過 Grok 3；在評估模型人類偏好對齊的 ArenaHard 測評中，Qwen3-235B-A22B 以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1。

此外，小型MoE模型Qwen3-30B-A3B的激活參數(shù)數(shù)量是QwQ-32B的10%，表現(xiàn)更勝一籌，甚至像Qwen3-4B這樣的小模型也能匹敵Qwen2.5-72B-Instruct的性能。

千問3總參數(shù)量235B，刷新了開源模型的智能水平新高，阿里稱僅需4張H20即可部署千問3滿血版，顯存占用僅為性能相近模型的三分之一。

千問3模型版本包含2款30B、235B的MoE模型，以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型。

千問3是國內(nèi)首個(gè)“混合推理模型”，模型支持兩種思考模式：思考模式：在這種模式下，模型會逐步推理，經(jīng)過深思熟慮后給出最終答案。這種方法適合需要深入思考的復(fù)雜問題。非思考模式：在此模式中，模型提供快速、近乎即時(shí)的響應(yīng)，適用于那些對速度要求高于深度的簡單問題。

在預(yù)訓(xùn)練方面，千問3的數(shù)據(jù)集相比Qwen2.5有了顯著擴(kuò)展。Qwen2.5是在18萬億個(gè)token上進(jìn)行預(yù)訓(xùn)練的，而千問3使用的數(shù)據(jù)量幾乎是其兩倍，達(dá)到了約36萬億個(gè)token，涵蓋了119種語言和方言。

同時(shí)，千問3為即將到來的智能體Agent和大模型應(yīng)用爆發(fā)提供了更好的支持。在評估模型Agent能力的BFCL評測中，千問3創(chuàng)下70.8的新高，超越Gemini2.5-Pro、OpenAI-o1等頂尖模型，將大幅降低Agent調(diào)用工具的門檻。

據(jù)悉，千問3系列模型依舊采用寬松的Apache2.0協(xié)議開源，并首次支持119多種語言，全球開發(fā)者、研究機(jī)構(gòu)和企業(yè)均可免費(fèi)在魔搭社區(qū)、HuggingFace等平臺下載模型并商用，也可以通過阿里云百煉調(diào)用千問3的API服務(wù)。個(gè)人用戶可立即通過通義APP直接體驗(yàn)千問3，夸克也即將全線接入千問3。

目前，阿里通義已開源200余個(gè)模型，全球下載量超3億次，千問衍生模型數(shù)超10萬個(gè)，已超越美國Llama，成為全球第一開源模型。

與此同時(shí)，阿里巴巴千問3開源后，上下游供應(yīng)鏈連夜進(jìn)行適配和調(diào)用，英偉達(dá)、高通、聯(lián)發(fā)科、AMD等多家頭部芯片廠商已成功適配千問3，在不同硬件平臺和軟件棧上的推理效率均顯著提升，可滿足移動(dòng)終端和數(shù)據(jù)中心場景的AI推理需求。

此外，在阿里千問3開源數(shù)小時(shí)后，華為官方宣布昇騰支持千問3全系列模型部署，開發(fā)者在MindSpeed和MindIE中開箱即用，實(shí)現(xiàn)千問3的0day適配。隨后海光信息也表示，在“深算智能”戰(zhàn)略引領(lǐng)下，海光DCU迅速完成對全部8款模型的無縫適配+調(diào)優(yōu)，覆蓋235B/32B/30B/14B/8B/4B/1.7B/0.6B，實(shí)現(xiàn)零報(bào)錯(cuò)、零兼容性問題的秒級部署。

早在2024年3月，智能手機(jī)芯片廠商聯(lián)發(fā)科，已在天璣9300等旗艦芯片上部署通義千問18億、40億參數(shù)大模型，此次適配千問3是雙方芯片級軟硬適配的延續(xù)。去年10月，高通在在發(fā)布會上宣布了跟騰訊混元和智譜的合作，騰訊混元大模型7B和3B版本、智譜的GLM-4V端側(cè)視覺大模型都會在搭載驍龍8 Elite的手機(jī)上落地。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.