夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

Qwen緊追OpenAI開源4B端側(cè)大模型,AIME25得分超越Claude 4 Opus

0
分享至

衡宇 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

三天不開源,Qwen團(tuán)隊(duì)手就癢。

昨天深夜再次放出兩個(gè)端側(cè)模型:

  • Qwen3-4B-Instruct-2507:非推理模型,大幅提升通用能力
  • Qwen3-4B-Thinking-2507:高級推理模型,專為專家級任務(wù)設(shè)計(jì)

4B這個(gè)尺寸對端側(cè)非常友好,甚至意味著可以在樹莓派上運(yùn)行它。



Qwen官方推文中對這倆模型的介紹是:

更智能、更精準(zhǔn),并且支持256k上下文,更具上下文感知能力。

在AIME25上,Qwen3-4B-Thinking-2507四兩撥千斤,最后得分是81.3。

這個(gè)成績已經(jīng)超過了Gemini 2.5 Pro(49.8~88.0)和Claude 4 Opus(75.5)在AIME25的得分——僅僅靠一個(gè)4B的模型!



而且,4B參數(shù)量意味著對端側(cè)極其友好。

也難怪網(wǎng)友在Ycombinator上驚呼:

  • 感謝中國公司!



4B模型大升級,四兩撥千斤

官方推文上,是這么介紹兩位Qwen3家族新成員的:

  • Qwen3-4B-Instruct-2507:提升通用能力、多語言覆蓋和長上下文指令理解。
  • Qwen3-4B-Thinking-2507:邏輯、數(shù)學(xué)、科學(xué)及代碼中的高級推理能力——專為專家級任務(wù)設(shè)計(jì)。

Qwen團(tuán)隊(duì)直言不諱,稱這兩個(gè)模型“更加強(qiáng)大”。

淺淺回顧一下,今年4月底,Qwen3系列首登場時(shí),Qwen-4B-Base作為第一批八個(gè)成員之一亮相。

當(dāng)時(shí),Qwen3-4B就能在數(shù)學(xué)、代碼能力上“以小博大”,和比自身大10倍模型水平相當(dāng)。

現(xiàn)在同樣在多個(gè)測試集上可以看到,Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507對于前作都有非常明顯的能力提升。

Qwen3-4B-Instruct-2507

Qwen3-4B-Instruct-2507是一個(gè)非推理模型,具有以下關(guān)鍵改進(jìn):

  • 在通用能力方面有顯著提升,包括指令遵循、邏輯推理、文本理解、數(shù)學(xué)、科學(xué)、編程和工具使用。
  • 在多語言長尾知識(shí)覆蓋方面有大幅增長。
  • 在主觀和開放性任務(wù)中與用戶偏好顯著匹配,能夠提供更有幫助的響應(yīng)和更高質(zhì)量的文本生成。
  • 256K長上下文理解能力增強(qiáng),可擴(kuò)展至1M。

在諸多測試集上,該模型通用能力超越了閉源的小尺寸模型GPT-4.1-nano。

(注:GPT-4.1-nano是GPT-4.1系列中最小規(guī)模的模型,未公開參數(shù)量)

和Qwen3-30B-A3B(Non-Thinking)對比,Qwen3-4B-Instruct-2507與其性能接近,還小勝一籌。

換句話說,這個(gè)4B的密集模型在性能上與30B的MoE模型能力非常接近,但“占地面積”卻小了7.5倍。



Qwen3-4B-Thinking-2507

在抱抱臉上,Qwen團(tuán)隊(duì)寫道:

  • 在過去三個(gè)月中,我們持續(xù)提升Qwen3-4B的思考能力,增強(qiáng)了推理的質(zhì)量和深度。

于是,Qwen3-4B-Thinking-2507誕生了,這是一個(gè)僅支持推理模式的模型

在前作基礎(chǔ)上,這一模型主要有以下改進(jìn):

  • 在推理任務(wù)上性能顯著提升,包括邏輯推理、數(shù)學(xué)、科學(xué)、編程以及通常需要人類專業(yè)知識(shí)的學(xué)術(shù)基準(zhǔn)測試。
  • 通用能力顯著提升,包括指令理解、工具使用、文本生成以及與人類偏好的對齊。
  • 增強(qiáng)的256K長上下文理解能力。

官方在抱抱臉表示,由于Qwen3-4B-Thinking-2507增加了思考長度,“強(qiáng)烈建議在高度復(fù)雜的推理任務(wù)中使用它”。

在重點(diǎn)考察數(shù)學(xué)能力的AIME25測評中,Qwen3-4B-Thinking-2507以4B參數(shù)量斬獲81.3的好成績。

此外,在GPQA上,其得分與Qwen-30B-A3B(Thinking)得分相當(dāng);Agent方面的每一項(xiàng)測試,Qwen3-4B-Thinking-2507碾壓了前代版本以及Qwen-30B-A3B(Thinking)。



端側(cè)開發(fā)者福音

現(xiàn)在,Qwen3-4B-Instruct-2507以及Qwen3-4B-Thinking-2507的代碼可在抱抱臉和魔搭社區(qū)找到,文末放上了直通車,方便大家尋找。

官方還貼心地給出了部署建議:

第一,對于本地使用,Ollama、LMStudio、MLX-LM、llama.cpp和KTransformers等應(yīng)用程序也已支持模型部署。

對于極小型設(shè)備(如樹莓派4B),可使用量化版本Qwen3-4B-GGUF,搭配llama.cpp運(yùn)行。

第二,如果遇到內(nèi)存不足(OOM)問題,可以考慮將上下文長度減少到一個(gè)更短的值。

由于Qwen3-4B-Thinking-2507是一個(gè)推理模型,在推理時(shí)可能需要更長的詞元序列,強(qiáng)烈建議在可能的情況下使用大于131,072的上下文長度。

第三,雖然倆模型一個(gè)是推理模型一個(gè)是非推理模型,但官方對prompt給出了同樣的建議。

面對數(shù)學(xué)問題時(shí),推薦在prompt中包含“請逐步推理,并將最終答案放在\boxed{}內(nèi)?!?/p>

面對選擇題時(shí),推薦在prompt中添加以下JSON 結(jié)構(gòu)以標(biāo)準(zhǔn)化回答:”請?jiān)?answer 字段中僅顯示選項(xiàng)字母,例如 “answer”: “C” ?!?/p>

最后,已經(jīng)有網(wǎng)友在呼吁開源永動(dòng)機(jī)Qwen團(tuán)隊(duì)趕緊交出Qwen3-8B系列了:



One More Thing

Qwen3系列到底有多少款模型?

答案是:不知道。

吃瓜群眾們只知道這次小·大模型的更新非常使用,以及時(shí)間錢選得剛剛好——

昨天,久不Open的OpenAI終于開源了一次。

不僅和谷歌、Anthropic大撞期,而且gpt-oss-120b和gpt-oss-20b兩個(gè)模型似乎并沒有用性能征服開發(fā)者們。



今天半夜,也就是8月8日凌晨1點(diǎn)(太平洋時(shí)間8月7日上午10點(diǎn)),打了800集預(yù)告的GPT-5,或許就要來了……



8月剛開始就戰(zhàn)況這么激烈,咱能怎么辦?

搬小板凳,乖巧坐等唄~

抱抱臉直通車:
[1]https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507
[2]https://huggingface.co/Qwen/Qwen3-4B-Thinking-2507

魔搭社區(qū)直通車:
[1]https://modelscope.cn/models/Qwen/Qwen3-4B-Instruct-2507
[2]https://modelscope.cn/models/Qwen/Qwen3-4B-Thinking-2507

參考鏈接:
[1]https://x.com/Alibaba_Qwen/status/1953128028047102241
[2]https://www.reddit.com/r/LocalLLaMA/comments/1mj8ndr/qwen_3_4b_thinking_model_released/
[3]https://news.ycombinator.com/item?id=44813627

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
火車站驚現(xiàn)“豪放姐”,光腳露大腿放椅子上,畫面流出,評論區(qū)淪陷

火車站驚現(xiàn)“豪放姐”,光腳露大腿放椅子上,畫面流出,評論區(qū)淪陷

小鬼頭體育
2025-08-07 12:11:11
針對國內(nèi)3600元育兒補(bǔ)貼,日媒稱不是給的太少,是家長期望太高

針對國內(nèi)3600元育兒補(bǔ)貼,日媒稱不是給的太少,是家長期望太高

大道無形我有型
2025-08-07 15:56:00
掛出7700緊急代碼!臺(tái)灣長榮航空飛馬尼拉航班“艙壓異?!本o急返航

掛出7700緊急代碼!臺(tái)灣長榮航空飛馬尼拉航班“艙壓異?!本o急返航

環(huán)球網(wǎng)資訊
2025-08-07 14:37:06
Here we go!羅馬諾:巴薩后衛(wèi)伊尼戈將加盟勝利,雙方簽約1+1

Here we go!羅馬諾:巴薩后衛(wèi)伊尼戈將加盟勝利,雙方簽約1+1

懂球帝
2025-08-08 01:30:03
中居正廣性侵過程首曝光!強(qiáng)吻女主播「脫內(nèi)衣埋胸」無視哭求硬上

中居正廣性侵過程首曝光!強(qiáng)吻女主播「脫內(nèi)衣埋胸」無視哭求硬上

ETtoday星光云
2025-08-06 15:09:09
首回合告負(fù)!穆帥:在這個(gè)球場我從未贏過,但我總能淘汰費(fèi)耶諾德

首回合告負(fù)!穆帥:在這個(gè)球場我從未贏過,但我總能淘汰費(fèi)耶諾德

直播吧
2025-08-07 11:25:11
65歲三高老人被女婿爆改成腹肌大爺,兩個(gè)月累計(jì)瘦46斤!網(wǎng)友:你大爺還是你大爺

65歲三高老人被女婿爆改成腹肌大爺,兩個(gè)月累計(jì)瘦46斤!網(wǎng)友:你大爺還是你大爺

瀟湘晨報(bào)
2025-08-07 16:53:13
法國名帥接近國足!獲足協(xié)青睞,多次進(jìn)行談判,他有望成為B計(jì)劃

法國名帥接近國足!獲足協(xié)青睞,多次進(jìn)行談判,他有望成為B計(jì)劃

國足風(fēng)云
2025-08-08 08:07:20
新疆伊犁州昭蘇縣一景區(qū)吊橋橋索斷裂致5人遇難

新疆伊犁州昭蘇縣一景區(qū)吊橋橋索斷裂致5人遇難

財(cái)聯(lián)社
2025-08-07 00:48:28
南昌一農(nóng)民工在農(nóng)田“方便”時(shí)遭氣槍擊中身亡 工友稱“剛蹲下來就出事了”

南昌一農(nóng)民工在農(nóng)田“方便”時(shí)遭氣槍擊中身亡 工友稱“剛蹲下來就出事了”

封面新聞
2025-08-07 14:42:03
外媒:特朗普成了印度的“噩夢”

外媒:特朗普成了印度的“噩夢”

中國青年報(bào)
2025-08-06 20:35:05
“韓國美臀”登頂,全亞洲比基尼美女身材引關(guān)注!

“韓國美臀”登頂,全亞洲比基尼美女身材引關(guān)注!

國際藝術(shù)大觀
2025-08-07 19:32:07
皇馬球迷不滿C羅未進(jìn)金球候選,龍賽羅:梅西得獎(jiǎng)時(shí)表現(xiàn)還不如C羅

皇馬球迷不滿C羅未進(jìn)金球候選,龍賽羅:梅西得獎(jiǎng)時(shí)表現(xiàn)還不如C羅

直播吧
2025-08-08 02:20:11
東契奇:重塑體型的初期階段并不容易,但后來就成了一種習(xí)慣

東契奇:重塑體型的初期階段并不容易,但后來就成了一種習(xí)慣

雷速體育
2025-08-08 08:01:09
理想汽車將追責(zé)“亂停車”等負(fù)面評價(jià)

理想汽車將追責(zé)“亂停車”等負(fù)面評價(jià)

FM93浙江交通之聲
2025-08-07 12:49:49
女游客稱在景德鎮(zhèn)一理發(fā)店被性騷擾,“墊毛巾時(shí)觸碰皮膚數(shù)十秒”,店方否認(rèn):正常行為

女游客稱在景德鎮(zhèn)一理發(fā)店被性騷擾,“墊毛巾時(shí)觸碰皮膚數(shù)十秒”,店方否認(rèn):正常行為

極目新聞
2025-08-07 16:39:43
《凡人修仙傳》最大的漏洞:向之禮化神期,他為何能進(jìn)血色禁地?

《凡人修仙傳》最大的漏洞:向之禮化神期,他為何能進(jìn)血色禁地?

流云天下
2025-08-07 17:07:34
新方丈上任3天翻車?釋印樂被質(zhì)疑開150萬路虎,與美女合影曝光

新方丈上任3天翻車?釋印樂被質(zhì)疑開150萬路虎,與美女合影曝光

陳天宇
2025-07-31 22:16:30
技驚四座,中國U20女足踢出范佩西和梅西式入球,還長得如花似玉

技驚四座,中國U20女足踢出范佩西和梅西式入球,還長得如花似玉

真理是我親戚
2025-08-07 10:46:57
笑不活了!華中科技大學(xué)官宣就9個(gè)字,隔壁的武漢大學(xué)看了咋想…

笑不活了!華中科技大學(xué)官宣就9個(gè)字,隔壁的武漢大學(xué)看了咋想…

火山詩話
2025-08-04 11:49:52
2025-08-08 08:47:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11051文章數(shù) 176223關(guān)注度
往期回顧 全部

科技要聞

看懂GPT-5發(fā)布:屠榜、免費(fèi),但沒有"炸裂"

頭條要聞

印度油企疑要屈服了 正暫時(shí)減少購買俄油等待政府指令

頭條要聞

印度油企疑要屈服了 正暫時(shí)減少購買俄油等待政府指令

體育要聞

2025金球獎(jiǎng)候選人:登貝萊、亞馬爾領(lǐng)銜

娛樂要聞

葉珂說剛生完孩子 和黃曉明沒分手?

財(cái)經(jīng)要聞

李稻葵:建議給外來打工者發(fā)15萬安家費(fèi)

汽車要聞

要重塑豪華電動(dòng)SUV標(biāo)桿 一汽奧迪Q6L e-tron上市

態(tài)度原創(chuàng)

本地
房產(chǎn)
家居
旅游
軍事航空

本地新聞

非遺里的天津|讓盛唐的榮華,在蠶絲銅絲間復(fù)活

房產(chǎn)要聞

刺激!越來越多房企,沖入海口豪宅市場!

家居要聞

自然開闊 溫暖簡約高級

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

軍事要聞

美國“最先進(jìn)”驅(qū)逐艦??咳毡緯r(shí)被拍到銹跡斑斑

無障礙瀏覽 進(jìn)入關(guān)懷版 日韩放荡少妇无码视频| 被操爽的视频| 日韩欧美家庭影院一区| 优优人体大尺大尺无毒不卡| 亚洲成年网站在线观看| 大香线蕉伊人久久爱| 亚洲一级无毛片无码在线免费视频| 久久久精品人妻一区二区三区四| 少妇私密推油呻吟在线播放| 好大好硬好深好爽想要| 国产无码免费视频| 五月综合激情婷婷六月| 久久精品国产亚洲AV无码做| 人妻丝袜无码专区视频网站| 曰韩少妇内射免费播放| 成人免费乱码大片a毛片| free性玩弄少妇HD性欧美| 欧美三级第一页| 少妇推油后内谢69XX| 亚洲国产AV无码一区二区三区 | 久久夜色精品国产噜噜AV小说| 欧洲无码八a片人妻少妇| 久久久亚洲欧洲日产国码αv| 国产精品成人精品久久久| 国产精品亚发布| 人妻换人妻仑乱| 免费在线观看日韩成人短视频| 成人免费无码大片A毛片久久 | 国产精品久久久久久久久岛| 激情多交在线观看| 中国丰满人妻videoshd| 久久香蕉国产线看观看gu69 | 免费看av地址| 3D成人动漫在线看| 囗交口爆国产在线视频| 久久av无码Αv高潮αv喷吹 | 亚洲日本VA中文字幕久久道具| 亚洲欧美卡通另类丝袜美腿| 农村妇女野战BWWBWW| 国产拍在线| 免费黄色在线|