網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

Qwen緊追OpenAI開源4B端側(cè)大模型，AIME25得分超越Claude 4 Opus

2025-08-07 08:59:44　來源: 量子位

北京舉報(bào)

分享至

衡宇發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

三天不開源，Qwen團(tuán)隊(duì)手就癢。

昨天深夜再次放出兩個(gè)端側(cè)模型：

Qwen3-4B-Instruct-2507：非推理模型，大幅提升通用能力
Qwen3-4B-Thinking-2507：高級推理模型，專為專家級任務(wù)設(shè)計(jì)

4B這個(gè)尺寸對端側(cè)非常友好，甚至意味著可以在樹莓派上運(yùn)行它。

Qwen官方推文中對這倆模型的介紹是：

更智能、更精準(zhǔn)，并且支持256k上下文，更具上下文感知能力。

在AIME25上，Qwen3-4B-Thinking-2507四兩撥千斤，最后得分是81.3。

這個(gè)成績已經(jīng)超過了Gemini 2.5 Pro（49.8～88.0）和Claude 4 Opus（75.5）在AIME25的得分——僅僅靠一個(gè)4B的模型！

而且，4B參數(shù)量意味著對端側(cè)極其友好。

也難怪網(wǎng)友在Ycombinator上驚呼：

感謝中國公司！

4B模型大升級，四兩撥千斤

官方推文上，是這么介紹兩位Qwen3家族新成員的：

Qwen3-4B-Instruct-2507：提升通用能力、多語言覆蓋和長上下文指令理解。
Qwen3-4B-Thinking-2507：邏輯、數(shù)學(xué)、科學(xué)及代碼中的高級推理能力——專為專家級任務(wù)設(shè)計(jì)。

Qwen團(tuán)隊(duì)直言不諱，稱這兩個(gè)模型“更加強(qiáng)大”。

淺淺回顧一下，今年4月底，Qwen3系列首登場時(shí)，Qwen-4B-Base作為第一批八個(gè)成員之一亮相。

當(dāng)時(shí)，Qwen3-4B就能在數(shù)學(xué)、代碼能力上“以小博大”，和比自身大10倍模型水平相當(dāng)。

現(xiàn)在同樣在多個(gè)測試集上可以看到，Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507對于前作都有非常明顯的能力提升。

Qwen3-4B-Instruct-2507

Qwen3-4B-Instruct-2507是一個(gè)非推理模型，具有以下關(guān)鍵改進(jìn)：

在通用能力方面有顯著提升，包括指令遵循、邏輯推理、文本理解、數(shù)學(xué)、科學(xué)、編程和工具使用。
在多語言長尾知識(shí)覆蓋方面有大幅增長。
在主觀和開放性任務(wù)中與用戶偏好顯著匹配，能夠提供更有幫助的響應(yīng)和更高質(zhì)量的文本生成。
256K長上下文理解能力增強(qiáng)，可擴(kuò)展至1M。

在諸多測試集上，該模型通用能力超越了閉源的小尺寸模型GPT-4.1-nano。

（注：GPT-4.1-nano是GPT-4.1系列中最小規(guī)模的模型，未公開參數(shù)量）

和Qwen3-30B-A3B（Non-Thinking）對比，Qwen3-4B-Instruct-2507與其性能接近，還小勝一籌。

換句話說，這個(gè)4B的密集模型在性能上與30B的MoE模型能力非常接近，但“占地面積”卻小了7.5倍。

Qwen3-4B-Thinking-2507

在抱抱臉上，Qwen團(tuán)隊(duì)寫道：

在過去三個(gè)月中，我們持續(xù)提升Qwen3-4B的思考能力，增強(qiáng)了推理的質(zhì)量和深度。

于是，Qwen3-4B-Thinking-2507誕生了，這是一個(gè)僅支持推理模式的模型。

在前作基礎(chǔ)上，這一模型主要有以下改進(jìn)：

在推理任務(wù)上性能顯著提升，包括邏輯推理、數(shù)學(xué)、科學(xué)、編程以及通常需要人類專業(yè)知識(shí)的學(xué)術(shù)基準(zhǔn)測試。
通用能力顯著提升，包括指令理解、工具使用、文本生成以及與人類偏好的對齊。
增強(qiáng)的256K長上下文理解能力。

官方在抱抱臉表示，由于Qwen3-4B-Thinking-2507增加了思考長度，“強(qiáng)烈建議在高度復(fù)雜的推理任務(wù)中使用它”。

在重點(diǎn)考察數(shù)學(xué)能力的AIME25測評中，Qwen3-4B-Thinking-2507以4B參數(shù)量斬獲81.3的好成績。

此外，在GPQA上，其得分與Qwen-30B-A3B（Thinking）得分相當(dāng)；Agent方面的每一項(xiàng)測試，Qwen3-4B-Thinking-2507碾壓了前代版本以及Qwen-30B-A3B（Thinking）。

端側(cè)開發(fā)者福音

現(xiàn)在，Qwen3-4B-Instruct-2507以及Qwen3-4B-Thinking-2507的代碼可在抱抱臉和魔搭社區(qū)找到，文末放上了直通車，方便大家尋找。

官方還貼心地給出了部署建議：

第一，對于本地使用，Ollama、LMStudio、MLX-LM、llama.cpp和KTransformers等應(yīng)用程序也已支持模型部署。

對于極小型設(shè)備（如樹莓派4B），可使用量化版本Qwen3-4B-GGUF，搭配llama.cpp運(yùn)行。

第二，如果遇到內(nèi)存不足（OOM）問題，可以考慮將上下文長度減少到一個(gè)更短的值。

由于Qwen3-4B-Thinking-2507是一個(gè)推理模型，在推理時(shí)可能需要更長的詞元序列，強(qiáng)烈建議在可能的情況下使用大于131,072的上下文長度。

第三，雖然倆模型一個(gè)是推理模型一個(gè)是非推理模型，但官方對prompt給出了同樣的建議。

面對數(shù)學(xué)問題時(shí)，推薦在prompt中包含“請逐步推理，并將最終答案放在\boxed{}內(nèi)?！?/p>

面對選擇題時(shí)，推薦在prompt中添加以下JSON 結(jié)構(gòu)以標(biāo)準(zhǔn)化回答：”請?jiān)?answer 字段中僅顯示選項(xiàng)字母，例如 “answer”: “C” ?！?/p>

最后，已經(jīng)有網(wǎng)友在呼吁開源永動(dòng)機(jī)Qwen團(tuán)隊(duì)趕緊交出Qwen3-8B系列了：

One More Thing

Qwen3系列到底有多少款模型？

答案是：不知道。

吃瓜群眾們只知道這次小·大模型的更新非常使用，以及時(shí)間錢選得剛剛好——

昨天，久不Open的OpenAI終于開源了一次。

不僅和谷歌、Anthropic大撞期，而且gpt-oss-120b和gpt-oss-20b兩個(gè)模型似乎并沒有用性能征服開發(fā)者們。

而今天半夜，也就是8月8日凌晨1點(diǎn)（太平洋時(shí)間8月7日上午10點(diǎn)），打了800集預(yù)告的GPT-5，或許就要來了……

8月剛開始就戰(zhàn)況這么激烈，咱能怎么辦？

搬小板凳，乖巧坐等唄～

抱抱臉直通車：
[1]https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507
[2]https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507

魔搭社區(qū)直通車：
[1]https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507
[2]https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507

參考鏈接：
[1]https://x.com/Alibaba_Qwen/status/1953128028047102241
[2]https://www.reddit.com/r/LocalLLaMA/comments/1mj8ndr/qwen_3_4b_thinking_model_released/
[3]https://news.ycombinator.com/item?id=44813627

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.