夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

華為盤古718B模型最新成績(jī):開源第二

0
分享至

金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

高手如云,高手如云,但華為依舊“殺”出了一片天。

就在最新一期的SuperCLUE中文大模型通用基準(zhǔn)測(cè)評(píng)中,各個(gè)AI大模型玩家的成績(jī)新鮮出爐。

從大家最為關(guān)心的開源、國(guó)產(chǎn)兩個(gè)維度來看,前三名排名分別為:

  1. DeepSeek-V3.1-Terminus-Thinking
  2. openPangu-Ultra-MoE-718B
  3. Qwen3-235B-A22B-Thinking-2507



(注:SuperCLUE是一個(gè)綜合性的大模型評(píng)測(cè)基準(zhǔn),本次通過對(duì)數(shù)學(xué)推理、科學(xué)推理、代碼生成、智能體Agent、幻覺控制、精確指令遵循六個(gè)維度的核心能力進(jìn)行評(píng)估,共計(jì)1260道題目。)

那么華為這個(gè)擁有7180億參數(shù)體量的MoE大模型,究竟憑什么脫穎而出?

在我們與openPangu核心成員深入交流之后,發(fā)現(xiàn)他們的訓(xùn)練哲學(xué)并非是大力出奇跡,與之恰恰相反——

不靠堆數(shù)據(jù),靠會(huì)思考。



這又是什么意思呢?接下來,我們就來一同細(xì)看。

數(shù)量給質(zhì)量讓路

我們都知道,訓(xùn)練數(shù)據(jù)的質(zhì)量直接影響大模型的最終能力。

因此,openPangu團(tuán)隊(duì)在后訓(xùn)練數(shù)據(jù)構(gòu)建中遵循了三個(gè)核心原則:質(zhì)量?jī)?yōu)先、多樣性覆蓋、復(fù)雜度適配

并且為此建立了一套覆蓋“數(shù)據(jù)生成-科學(xué)篩選-精準(zhǔn)增強(qiáng)”的全流程方案。


△通用后訓(xùn)練數(shù)據(jù)構(gòu)建框架

  • 質(zhì)量?jī)?yōu)先:團(tuán)隊(duì)建立了指令數(shù)據(jù)質(zhì)量評(píng)估體系,結(jié)合規(guī)則、模型和人工三重審核機(jī)制,以確保低質(zhì)量樣本的有效清理。
  • 多樣性覆蓋:從領(lǐng)域和任務(wù)類型兩個(gè)維度進(jìn)行設(shè)計(jì),并通過去重和壓縮選樣算法,在保證數(shù)據(jù)覆蓋廣度的同時(shí)避免冗余。
  • 復(fù)雜度適配:為避免模型僅在簡(jiǎn)單任務(wù)上過擬合,團(tuán)隊(duì)通過推理步驟、概念抽象度、計(jì)算復(fù)雜度等指標(biāo)對(duì)任務(wù)難度進(jìn)行量化,并利用自迭代拒絕采樣策略,重點(diǎn)進(jìn)行中高難度任務(wù)的訓(xùn)練。

這種對(duì)數(shù)據(jù)質(zhì)量的嚴(yán)格把控,正是提升模型在復(fù)雜場(chǎng)景下推理能力的關(guān)鍵因素之一。

三階段預(yù)訓(xùn)練策略

除了數(shù)據(jù)質(zhì)量之外,模型的基礎(chǔ)能力與預(yù)訓(xùn)練階段是息息相關(guān)。

整體來看,團(tuán)隊(duì)將openPangu-718B的預(yù)訓(xùn)練過程被設(shè)計(jì)為三個(gè)階段:通用(General)、推理(Reasoning)和退火(Annealing)。

首先是通用階段,這個(gè)階段的目標(biāo)是為模型構(gòu)建廣泛的世界知識(shí)。模型通過學(xué)習(xí)大規(guī)模的文本和代碼數(shù)據(jù),形成對(duì)世界的基本認(rèn)知。

其次是推理階段,專注于提升模型的邏輯推理能力。團(tuán)隊(duì)顯著增加了泛數(shù)學(xué)、STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))及代碼數(shù)據(jù)的訓(xùn)練比重,并重點(diǎn)引入了高難度的多步驟推理題庫(kù)。

為提升多步推理的準(zhǔn)確性并減少幻覺,團(tuán)隊(duì)為這部分?jǐn)?shù)據(jù)制作了詳細(xì)的思維鏈(CoT),以引導(dǎo)模型學(xué)習(xí)解決問題的邏輯路徑。

最后是退火階段,此階段旨在增強(qiáng)模型應(yīng)用知識(shí)和推理技能的能力。訓(xùn)練文本的上下文長(zhǎng)度被階梯式地提升至8K、32K和128K,同時(shí)增加了指令類數(shù)據(jù)的占比。

此外,該階段還引入了多種Agent類型的數(shù)據(jù),為模型學(xué)習(xí)使用外部工具(Tool-use)建立基礎(chǔ)。

緩解幻覺有妙招

幻覺可以說是大型語言模型普遍面臨的一大挑戰(zhàn),為緩解這個(gè)此問題,團(tuán)隊(duì)引入了“批判內(nèi)化”(Critique Internalization)機(jī)制

這個(gè)機(jī)制的核心思想是,不僅讓模型學(xué)習(xí)正確的示范(傳統(tǒng)SFT模式),更要讓模型學(xué)習(xí)如何評(píng)判一個(gè)解答的優(yōu)劣。

不同于傳統(tǒng)的批判微調(diào)(CFT)只依賴固定的人類反饋數(shù)據(jù)來訓(xùn)練模型, 批判內(nèi)化策略在初始模型訓(xùn)練完成后,利用拒絕采樣階段引入額外的自我批判信號(hào),引導(dǎo)模型在生成答案時(shí)基于不同任務(wù)的行為準(zhǔn)則Guideline,主動(dòng)審視自己的推理過程。

通過這種訓(xùn)練,模型能夠?qū)⑴行运季S融入自身推理過程。在生成回答時(shí),它能更好地審視自身的邏輯鏈條,檢查是否存在邏輯跳躍、信息遺漏或偏離指令等問題。

實(shí)驗(yàn)結(jié)果表明,該機(jī)制有效緩解了模型幻覺,并提升了指令遵從性和價(jià)值觀對(duì)齊的表現(xiàn)。同時(shí),這種針對(duì)性的反思也使得模型的輸出更為精煉和可靠。

Agent能力也進(jìn)化了

為了提升模型使用工具的能力,團(tuán)隊(duì)采用了升級(jí)版的工具數(shù)據(jù)合成框架——ToolACE

這個(gè)框架通過一系列關(guān)鍵技術(shù),生成了大量高質(zhì)量、高復(fù)雜度的多輪多工具調(diào)用數(shù)據(jù)用于訓(xùn)練。



  • 領(lǐng)域工具組合:將現(xiàn)實(shí)場(chǎng)景中相互關(guān)聯(lián)的工具(如日歷查詢和航班預(yù)訂)進(jìn)行組合,并提供工具依賴圖和領(lǐng)域規(guī)則,使模型學(xué)習(xí)在復(fù)雜任務(wù)中如何協(xié)同使用多個(gè)工具。
  • 交互式目標(biāo)軌跡生成:采用“計(jì)劃-執(zhí)行”分離策略,先由AI規(guī)劃出解決任務(wù)的工具調(diào)用序列,再通過與模擬環(huán)境的交互執(zhí)行該序列,生成完整的工具使用軌跡。
  • 多智能體對(duì)話生成:利用多個(gè)AI智能體模擬用戶與助手的互動(dòng),將工具調(diào)用過程轉(zhuǎn)化為自然的對(duì)話腳本,并引入隨機(jī)打斷、反問澄清等復(fù)雜交互情況,以提升數(shù)據(jù)的真實(shí)性。
  • 多維校驗(yàn)與錯(cuò)例迭代:對(duì)生成的數(shù)據(jù)進(jìn)行多維度質(zhì)量檢查,包括內(nèi)容滿足度、狀態(tài)變化正確性、工具調(diào)用效率等。低分?jǐn)?shù)據(jù)將被分析錯(cuò)誤原因,并用于迭代優(yōu)化生成策略。

通過這套系統(tǒng),openPangu-718B學(xué)習(xí)在復(fù)雜的多輪交互中準(zhǔn)確、靈活地調(diào)用工具。

三步式后訓(xùn)練優(yōu)化方案

在完成數(shù)據(jù)構(gòu)建和核心能力訓(xùn)練后,openPangu團(tuán)隊(duì)還經(jīng)過了一個(gè)“三步走”的后訓(xùn)練微調(diào)方案,進(jìn)行了最終的性能優(yōu)化。

第一步:漸進(jìn)動(dòng)態(tài)微調(diào) (PDFT)

為避免模型在指令微調(diào)(SFT)階段對(duì)訓(xùn)練數(shù)據(jù)產(chǎn)生過擬合,團(tuán)隊(duì)采用了漸進(jìn)動(dòng)態(tài)微調(diào)(Progressive Dynamic Fine-Tuning, PDFT)。該方法讓模型的學(xué)習(xí)模式從常規(guī)SFT平滑過渡到動(dòng)態(tài)微調(diào)(DFT)。

訓(xùn)練初期,模型以常規(guī)SFT模式充分學(xué)習(xí);后期則逐步增加DFT權(quán)重,使模型更關(guān)注尚未充分掌握的知識(shí)點(diǎn),從而在欠擬合與過擬合之間取得平衡。

第二步:強(qiáng)化學(xué)習(xí) (RL) 微調(diào)

考慮到openPangu-718B這類混合專家(MoE)模型的訓(xùn)練穩(wěn)定性要求較高,團(tuán)隊(duì)采用了GSPO(Group Sequence Policy Optimization)算法進(jìn)行強(qiáng)化學(xué)習(xí)。

與GRPO算法相比,GSPO在訓(xùn)練大型MoE模型時(shí)表現(xiàn)出更好的穩(wěn)定性,有助于模型性能的持續(xù)提升,避免了訓(xùn)練過程中的性能衰退。



第三步:模型融合 (Model Merging)

在不同訓(xùn)練階段,會(huì)產(chǎn)出在特定領(lǐng)域各有優(yōu)勢(shì)的多個(gè)模型版本。為整合這些模型的優(yōu)點(diǎn),團(tuán)隊(duì)采用了一種黑盒優(yōu)化的模型融合方法。

通過構(gòu)建一個(gè)覆蓋廣泛任務(wù)的測(cè)評(píng)集,使用優(yōu)化算法自動(dòng)搜索各候選模型的最佳融合權(quán)重,最終生成一個(gè)綜合性能更強(qiáng)的模型。

總結(jié)來看,openPangu-718B的優(yōu)異表現(xiàn),源于其在預(yù)訓(xùn)練、數(shù)據(jù)構(gòu)建、幻覺控制、工具學(xué)習(xí)及后訓(xùn)練優(yōu)化等環(huán)節(jié)系統(tǒng)性的技術(shù)創(chuàng)新。

從三階段預(yù)訓(xùn)練奠定基礎(chǔ),到通過“批判內(nèi)化”機(jī)制提升可靠性,再到利用ToolACE框架拓展Agent能力,最后通過三步式后訓(xùn)練方案進(jìn)行精細(xì)打磨,每一步都反映了其背后的技術(shù)策略。

與此同時(shí),openPangu團(tuán)隊(duì)也為行業(yè)提供了一個(gè)極具價(jià)值的范本:真正的競(jìng)爭(zhēng)力,來自于對(duì)技術(shù)細(xì)節(jié)的極致打磨和對(duì)核心問題的深刻洞察。


[1] https://ai.gitcode.com/ascend-tribe/openpangu-ultra-moe-718b-model
[2] https://arxiv.org/abs/2501.17703
[3] http://arxiv.org/abs/2409.00920
[4] http://arxiv.org/abs/2508.12685
[5] https://arxiv.org/abs/2508.05629
[6] https://arxiv.org/pdf/2507.18071
[7] https://arxiv.org/abs/2402.03300

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
哈馬斯在加沙的統(tǒng)治,要徹底結(jié)束了

哈馬斯在加沙的統(tǒng)治,要徹底結(jié)束了

火山口的普林尼
2025-10-01 00:08:28
郭正亮曾言:黃巖島是美國(guó)底線,若中國(guó)敢填海,美國(guó)將直接炸毀?

郭正亮曾言:黃巖島是美國(guó)底線,若中國(guó)敢填海,美國(guó)將直接炸毀?

影孖看世界
2025-10-01 21:19:45
韓先楚有多囂張?不滿八大軍區(qū)對(duì)調(diào),竟敢與毛主席公然叫板

韓先楚有多囂張?不滿八大軍區(qū)對(duì)調(diào),竟敢與毛主席公然叫板

鳳語談
2025-08-25 12:38:49
體操冠軍鄧琳琳,1.37米沒人追,退役后身高突增,老公把她寵成寶

體操冠軍鄧琳琳,1.37米沒人追,退役后身高突增,老公把她寵成寶

樂悠悠娛樂
2025-09-28 10:53:01
高速被女友拋下后,我猛然醒悟:她又不是我老婆,我憑啥忍著她!

高速被女友拋下后,我猛然醒悟:她又不是我老婆,我憑啥忍著她!

星宇共鳴
2025-09-23 17:46:28
吳艷妮代言力士沐浴露引熱議, “情色誘惑” 背后的審美變革

吳艷妮代言力士沐浴露引熱議, “情色誘惑” 背后的審美變革

橙星文娛
2025-09-13 09:27:40
鬧劇結(jié)束!正式簽約,結(jié)束了,再見威少,NBA生涯恐終結(jié)

鬧劇結(jié)束!正式簽約,結(jié)束了,再見威少,NBA生涯恐終結(jié)

球童無忌
2025-10-01 20:07:00
錢穆:中國(guó)的國(guó)都,為何決不可設(shè)在江南?

錢穆:中國(guó)的國(guó)都,為何決不可設(shè)在江南?

霹靂炮
2025-09-18 21:35:37
搞什么?庫(kù)里的弟弟被勇士隊(duì)季前賽結(jié)束后裁掉,將于11月再續(xù)約

搞什么?庫(kù)里的弟弟被勇士隊(duì)季前賽結(jié)束后裁掉,將于11月再續(xù)約

好火子
2025-10-02 00:27:38
事實(shí)證明,為“港獨(dú)”藝人站臺(tái)的劉嘉玲,早已走上了一條不歸路!

事實(shí)證明,為“港獨(dú)”藝人站臺(tái)的劉嘉玲,早已走上了一條不歸路!

東方不敗然多多
2025-09-20 07:44:47
陳偉霆稱本來不想也不敢再拍霸總戲,但被《許我耀眼》劇本吸引,還能和趙露思、陳暢合作,所以接了

陳偉霆稱本來不想也不敢再拍霸總戲,但被《許我耀眼》劇本吸引,還能和趙露思、陳暢合作,所以接了

觀威海
2025-10-02 09:39:12
堵堵堵!廣深都是車!深圳凌晨出發(fā)3小時(shí)沒出城,回湛江要15小時(shí)

堵堵堵!廣深都是車!深圳凌晨出發(fā)3小時(shí)沒出城,回湛江要15小時(shí)

火山詩(shī)話
2025-10-01 06:31:24
國(guó)民黨選主席,大陸輿論及網(wǎng)友何以如此關(guān)注?其實(shí)大可不必!

國(guó)民黨選主席,大陸輿論及網(wǎng)友何以如此關(guān)注?其實(shí)大可不必!

吃貨的分享
2025-10-02 10:31:52
西貝已死,能救活西貝的只有一個(gè)人。

西貝已死,能救活西貝的只有一個(gè)人。

互聯(lián)網(wǎng)思維
2025-09-25 23:36:19
全體美軍將領(lǐng)到場(chǎng),特朗普下達(dá)離譜命令,臺(tái)下數(shù)百名將軍集體沉默

全體美軍將領(lǐng)到場(chǎng),特朗普下達(dá)離譜命令,臺(tái)下數(shù)百名將軍集體沉默

榮亭小吏
2025-10-01 15:42:54
王金平、盧秀燕肯定鄭麗文,國(guó)民黨主席之戰(zhàn)選情緊繃

王金平、盧秀燕肯定鄭麗文,國(guó)民黨主席之戰(zhàn)選情緊繃

海峽導(dǎo)報(bào)社
2025-10-02 10:55:08
費(fèi)曼:你最好學(xué)學(xué)微積分,它是上帝的語言

費(fèi)曼:你最好學(xué)學(xué)微積分,它是上帝的語言

尚曦讀史
2025-09-21 10:52:22
夫妻AA制35年,丈夫接長(zhǎng)壽公婆過來養(yǎng)老,60歲妻子:誰的父母誰養(yǎng)

夫妻AA制35年,丈夫接長(zhǎng)壽公婆過來養(yǎng)老,60歲妻子:誰的父母誰養(yǎng)

清水家庭故事
2025-10-01 07:41:29
親眼目睹藏族少女天葬之行,參加全過程后心悸:顛覆我對(duì)生死的認(rèn)知

親眼目睹藏族少女天葬之行,參加全過程后心悸:顛覆我對(duì)生死的認(rèn)知

古怪奇談錄
2025-09-09 14:36:35
75歲姜昆最大的遺憾:女兒46歲仍舊沒有結(jié)婚,養(yǎng)子倒成了他的驕傲

75歲姜昆最大的遺憾:女兒46歲仍舊沒有結(jié)婚,養(yǎng)子倒成了他的驕傲

山河月明史
2025-09-30 11:14:15
2025-10-02 11:40:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11438文章數(shù) 176287關(guān)注度
往期回顧 全部

科技要聞

9月零跑交付突破6萬輛,小鵬、小米超4萬輛

頭條要聞

"金光閃閃的超級(jí)總統(tǒng)"入獄:對(duì)他的司法追訴長(zhǎng)達(dá)10年

頭條要聞

"金光閃閃的超級(jí)總統(tǒng)"入獄:對(duì)他的司法追訴長(zhǎng)達(dá)10年

體育要聞

痛失三叉戟的大巴黎,是怎么贏下巴薩的?

娛樂要聞

戚薇夫婦帶兒子巴黎逛街 李承鉉超帥

財(cái)經(jīng)要聞

金價(jià)快3900美元,黃金牛還能跑多遠(yuǎn)??

汽車要聞

零跑9月銷量突破6萬臺(tái)大關(guān) 刷新新勢(shì)力單月交付紀(jì)錄

態(tài)度原創(chuàng)

教育
家居
時(shí)尚
數(shù)碼
旅游

教育要聞

90%英語學(xué)習(xí)者都搞錯(cuò)了!動(dòng)名詞竟然有復(fù)數(shù)?看完這篇秒懂!

家居要聞

市區(qū)綠洲 鏈接社區(qū)商業(yè)

關(guān)注十四藝節(jié) | 努力開拓閩劇發(fā)展新境界

數(shù)碼要聞

消息稱英特爾正就為 AMD 代工芯片與后者展開早期接觸

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進(jìn)入關(guān)懷版 日韩电影福利| 人人摸人人澡人人| 国产剧情无码视频在线观看| 黑人又粗又大XXXXXXX| 色九月亚洲综合网| 最新网站你懂得| 日韩 欧美 国产成人| 久久天堂av综合色无码专区| aⅴ成人久久| 色多免费在线观看| 亚洲AV无码成人精品区大猫| 午夜欧美成人| 亚洲欧美日韩色图| 久久久久久久久久久久AV| 国产精品久久久一本精品| 人人草在线视频播放| 国产精品美女久久久免费| 91新人学院派女神陈甜甜| 亚洲性视频之色欲| 一本一本久久A久久精品综合不卡| 中国老太婆xxxhd| 亚洲午夜av资源| 后入内射欧美99二区视频| 极品少妇高潮喷水无码| 日本精品视频一二区| 亚洲国产精品一区二区第一页| 色偷偷色噜噜狠狠网站年轻人| 亚洲桃色在线| 天天色综网| 激情国产综合| 国产综合无码在线视频| 国内精品久久久久影院免费| 国产乱子影视频上线免费观看| 成人电影免费观看| 人妻无码一区二区视频| 第一次小处女大片网站| 色色性爱欧美国产三区| 午夜内射高潮视频| 伊人春色成人| 野花社区观看在线www官网| 日韩人妻精品中文字幕专区|