網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

華為盤古718B模型最新成績(jī)：開源第二

2025-09-29 12:59:59　來源: 量子位

北京舉報(bào)

分享至

金磊發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

高手如云，高手如云，但華為依舊“殺”出了一片天。

就在最新一期的SuperCLUE中文大模型通用基準(zhǔn)測(cè)評(píng)中，各個(gè)AI大模型玩家的成績(jī)新鮮出爐。

從大家最為關(guān)心的開源、國(guó)產(chǎn)兩個(gè)維度來看，前三名排名分別為：

DeepSeek-V3.1-Terminus-Thinking
openPangu-Ultra-MoE-718B
Qwen3-235B-A22B-Thinking-2507

（注：SuperCLUE是一個(gè)綜合性的大模型評(píng)測(cè)基準(zhǔn)，本次通過對(duì)數(shù)學(xué)推理、科學(xué)推理、代碼生成、智能體Agent、幻覺控制、精確指令遵循六個(gè)維度的核心能力進(jìn)行評(píng)估，共計(jì)1260道題目。）

那么華為這個(gè)擁有7180億參數(shù)體量的MoE大模型，究竟憑什么脫穎而出？

在我們與openPangu核心成員深入交流之后，發(fā)現(xiàn)他們的訓(xùn)練哲學(xué)并非是大力出奇跡，與之恰恰相反——

不靠堆數(shù)據(jù)，靠會(huì)思考。

這又是什么意思呢？接下來，我們就來一同細(xì)看。

數(shù)量給質(zhì)量讓路

我們都知道，訓(xùn)練數(shù)據(jù)的質(zhì)量直接影響大模型的最終能力。

因此，openPangu團(tuán)隊(duì)在后訓(xùn)練數(shù)據(jù)構(gòu)建中遵循了三個(gè)核心原則：質(zhì)量?jī)?yōu)先、多樣性覆蓋、復(fù)雜度適配

并且為此建立了一套覆蓋“數(shù)據(jù)生成-科學(xué)篩選-精準(zhǔn)增強(qiáng)”的全流程方案。

△通用后訓(xùn)練數(shù)據(jù)構(gòu)建框架

質(zhì)量?jī)?yōu)先：團(tuán)隊(duì)建立了指令數(shù)據(jù)質(zhì)量評(píng)估體系，結(jié)合規(guī)則、模型和人工三重審核機(jī)制，以確保低質(zhì)量樣本的有效清理。
多樣性覆蓋：從領(lǐng)域和任務(wù)類型兩個(gè)維度進(jìn)行設(shè)計(jì)，并通過去重和壓縮選樣算法，在保證數(shù)據(jù)覆蓋廣度的同時(shí)避免冗余。
復(fù)雜度適配：為避免模型僅在簡(jiǎn)單任務(wù)上過擬合，團(tuán)隊(duì)通過推理步驟、概念抽象度、計(jì)算復(fù)雜度等指標(biāo)對(duì)任務(wù)難度進(jìn)行量化，并利用自迭代拒絕采樣策略，重點(diǎn)進(jìn)行中高難度任務(wù)的訓(xùn)練。

這種對(duì)數(shù)據(jù)質(zhì)量的嚴(yán)格把控，正是提升模型在復(fù)雜場(chǎng)景下推理能力的關(guān)鍵因素之一。

三階段預(yù)訓(xùn)練策略

除了數(shù)據(jù)質(zhì)量之外，模型的基礎(chǔ)能力與預(yù)訓(xùn)練階段是息息相關(guān)。

整體來看，團(tuán)隊(duì)將openPangu-718B的預(yù)訓(xùn)練過程被設(shè)計(jì)為三個(gè)階段：通用（General）、推理（Reasoning）和退火（Annealing）。

首先是通用階段，這個(gè)階段的目標(biāo)是為模型構(gòu)建廣泛的世界知識(shí)。模型通過學(xué)習(xí)大規(guī)模的文本和代碼數(shù)據(jù)，形成對(duì)世界的基本認(rèn)知。

其次是推理階段，專注于提升模型的邏輯推理能力。團(tuán)隊(duì)顯著增加了泛數(shù)學(xué)、STEM（科學(xué)、技術(shù)、工程和數(shù)學(xué)）及代碼數(shù)據(jù)的訓(xùn)練比重，并重點(diǎn)引入了高難度的多步驟推理題庫(kù)。

為提升多步推理的準(zhǔn)確性并減少幻覺，團(tuán)隊(duì)為這部分?jǐn)?shù)據(jù)制作了詳細(xì)的思維鏈（CoT），以引導(dǎo)模型學(xué)習(xí)解決問題的邏輯路徑。

最后是退火階段，此階段旨在增強(qiáng)模型應(yīng)用知識(shí)和推理技能的能力。訓(xùn)練文本的上下文長(zhǎng)度被階梯式地提升至8K、32K和128K，同時(shí)增加了指令類數(shù)據(jù)的占比。

此外，該階段還引入了多種Agent類型的數(shù)據(jù)，為模型學(xué)習(xí)使用外部工具（Tool-use）建立基礎(chǔ)。

緩解幻覺有妙招

幻覺可以說是大型語言模型普遍面臨的一大挑戰(zhàn)，為緩解這個(gè)此問題，團(tuán)隊(duì)引入了“批判內(nèi)化”（Critique Internalization）機(jī)制

這個(gè)機(jī)制的核心思想是，不僅讓模型學(xué)習(xí)正確的示范（傳統(tǒng)SFT模式），更要讓模型學(xué)習(xí)如何評(píng)判一個(gè)解答的優(yōu)劣。

不同于傳統(tǒng)的批判微調(diào)（CFT）只依賴固定的人類反饋數(shù)據(jù)來訓(xùn)練模型，批判內(nèi)化策略在初始模型訓(xùn)練完成后，利用拒絕采樣階段引入額外的自我批判信號(hào)，引導(dǎo)模型在生成答案時(shí)基于不同任務(wù)的行為準(zhǔn)則Guideline，主動(dòng)審視自己的推理過程。

通過這種訓(xùn)練，模型能夠?qū)⑴行运季S融入自身推理過程。在生成回答時(shí)，它能更好地審視自身的邏輯鏈條，檢查是否存在邏輯跳躍、信息遺漏或偏離指令等問題。

實(shí)驗(yàn)結(jié)果表明，該機(jī)制有效緩解了模型幻覺，并提升了指令遵從性和價(jià)值觀對(duì)齊的表現(xiàn)。同時(shí)，這種針對(duì)性的反思也使得模型的輸出更為精煉和可靠。

Agent能力也進(jìn)化了

為了提升模型使用工具的能力，團(tuán)隊(duì)采用了升級(jí)版的工具數(shù)據(jù)合成框架——ToolACE

這個(gè)框架通過一系列關(guān)鍵技術(shù)，生成了大量高質(zhì)量、高復(fù)雜度的多輪多工具調(diào)用數(shù)據(jù)用于訓(xùn)練。

領(lǐng)域工具組合：將現(xiàn)實(shí)場(chǎng)景中相互關(guān)聯(lián)的工具（如日歷查詢和航班預(yù)訂）進(jìn)行組合，并提供工具依賴圖和領(lǐng)域規(guī)則，使模型學(xué)習(xí)在復(fù)雜任務(wù)中如何協(xié)同使用多個(gè)工具。
交互式目標(biāo)軌跡生成：采用“計(jì)劃-執(zhí)行”分離策略，先由AI規(guī)劃出解決任務(wù)的工具調(diào)用序列，再通過與模擬環(huán)境的交互執(zhí)行該序列，生成完整的工具使用軌跡。
多智能體對(duì)話生成：利用多個(gè)AI智能體模擬用戶與助手的互動(dòng)，將工具調(diào)用過程轉(zhuǎn)化為自然的對(duì)話腳本，并引入隨機(jī)打斷、反問澄清等復(fù)雜交互情況，以提升數(shù)據(jù)的真實(shí)性。
多維校驗(yàn)與錯(cuò)例迭代：對(duì)生成的數(shù)據(jù)進(jìn)行多維度質(zhì)量檢查，包括內(nèi)容滿足度、狀態(tài)變化正確性、工具調(diào)用效率等。低分?jǐn)?shù)據(jù)將被分析錯(cuò)誤原因，并用于迭代優(yōu)化生成策略。

通過這套系統(tǒng)，openPangu-718B學(xué)習(xí)在復(fù)雜的多輪交互中準(zhǔn)確、靈活地調(diào)用工具。

三步式后訓(xùn)練優(yōu)化方案

在完成數(shù)據(jù)構(gòu)建和核心能力訓(xùn)練后，openPangu團(tuán)隊(duì)還經(jīng)過了一個(gè)“三步走”的后訓(xùn)練微調(diào)方案，進(jìn)行了最終的性能優(yōu)化。

第一步：漸進(jìn)動(dòng)態(tài)微調(diào) (PDFT)

為避免模型在指令微調(diào)（SFT）階段對(duì)訓(xùn)練數(shù)據(jù)產(chǎn)生過擬合，團(tuán)隊(duì)采用了漸進(jìn)動(dòng)態(tài)微調(diào)（Progressive Dynamic Fine-Tuning, PDFT）。該方法讓模型的學(xué)習(xí)模式從常規(guī)SFT平滑過渡到動(dòng)態(tài)微調(diào)（DFT）。

訓(xùn)練初期，模型以常規(guī)SFT模式充分學(xué)習(xí)；后期則逐步增加DFT權(quán)重，使模型更關(guān)注尚未充分掌握的知識(shí)點(diǎn)，從而在欠擬合與過擬合之間取得平衡。

第二步：強(qiáng)化學(xué)習(xí) (RL) 微調(diào)

考慮到openPangu-718B這類混合專家（MoE）模型的訓(xùn)練穩(wěn)定性要求較高，團(tuán)隊(duì)采用了GSPO（Group Sequence Policy Optimization）算法進(jìn)行強(qiáng)化學(xué)習(xí)。

與GRPO算法相比，GSPO在訓(xùn)練大型MoE模型時(shí)表現(xiàn)出更好的穩(wěn)定性，有助于模型性能的持續(xù)提升，避免了訓(xùn)練過程中的性能衰退。

第三步：模型融合 (Model Merging)

在不同訓(xùn)練階段，會(huì)產(chǎn)出在特定領(lǐng)域各有優(yōu)勢(shì)的多個(gè)模型版本。為整合這些模型的優(yōu)點(diǎn)，團(tuán)隊(duì)采用了一種黑盒優(yōu)化的模型融合方法。

通過構(gòu)建一個(gè)覆蓋廣泛任務(wù)的測(cè)評(píng)集，使用優(yōu)化算法自動(dòng)搜索各候選模型的最佳融合權(quán)重，最終生成一個(gè)綜合性能更強(qiáng)的模型。

總結(jié)來看，openPangu-718B的優(yōu)異表現(xiàn)，源于其在預(yù)訓(xùn)練、數(shù)據(jù)構(gòu)建、幻覺控制、工具學(xué)習(xí)及后訓(xùn)練優(yōu)化等環(huán)節(jié)系統(tǒng)性的技術(shù)創(chuàng)新。

從三階段預(yù)訓(xùn)練奠定基礎(chǔ)，到通過“批判內(nèi)化”機(jī)制提升可靠性，再到利用ToolACE框架拓展Agent能力，最后通過三步式后訓(xùn)練方案進(jìn)行精細(xì)打磨，每一步都反映了其背后的技術(shù)策略。

與此同時(shí)，openPangu團(tuán)隊(duì)也為行業(yè)提供了一個(gè)極具價(jià)值的范本：真正的競(jìng)爭(zhēng)力，來自于對(duì)技術(shù)細(xì)節(jié)的極致打磨和對(duì)核心問題的深刻洞察。

[1] https://ai.gitcode.com/ascend-tribe/openpangu-ultra-moe-718b-model
[2] https://arxiv.org/abs/2501.17703
[3] http://arxiv.org/abs/2409.00920
[4] http://arxiv.org/abs/2508.12685
[5] https://arxiv.org/abs/2508.05629
[6] https://arxiv.org/pdf/2507.18071
[7] https://arxiv.org/abs/2402.03300

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.