金磊 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
高手如云,高手如云,但華為依舊“殺”出了一片天。
就在最新一期的SuperCLUE中文大模型通用基準(zhǔn)測(cè)評(píng)中,各個(gè)AI大模型玩家的成績(jī)新鮮出爐。
從大家最為關(guān)心的開源、國(guó)產(chǎn)兩個(gè)維度來看,前三名排名分別為:
- DeepSeek-V3.1-Terminus-Thinking
- openPangu-Ultra-MoE-718B
- Qwen3-235B-A22B-Thinking-2507
(注:SuperCLUE是一個(gè)綜合性的大模型評(píng)測(cè)基準(zhǔn),本次通過對(duì)數(shù)學(xué)推理、科學(xué)推理、代碼生成、智能體Agent、幻覺控制、精確指令遵循六個(gè)維度的核心能力進(jìn)行評(píng)估,共計(jì)1260道題目。)
那么華為這個(gè)擁有7180億參數(shù)體量的MoE大模型,究竟憑什么脫穎而出?
在我們與openPangu核心成員深入交流之后,發(fā)現(xiàn)他們的訓(xùn)練哲學(xué)并非是大力出奇跡,與之恰恰相反——
不靠堆數(shù)據(jù),靠會(huì)思考。
這又是什么意思呢?接下來,我們就來一同細(xì)看。
數(shù)量給質(zhì)量讓路
我們都知道,訓(xùn)練數(shù)據(jù)的質(zhì)量直接影響大模型的最終能力。
因此,openPangu團(tuán)隊(duì)在后訓(xùn)練數(shù)據(jù)構(gòu)建中遵循了三個(gè)核心原則:質(zhì)量?jī)?yōu)先、多樣性覆蓋、復(fù)雜度適配
并且為此建立了一套覆蓋“數(shù)據(jù)生成-科學(xué)篩選-精準(zhǔn)增強(qiáng)”的全流程方案。
△通用后訓(xùn)練數(shù)據(jù)構(gòu)建框架
- 質(zhì)量?jī)?yōu)先:團(tuán)隊(duì)建立了指令數(shù)據(jù)質(zhì)量評(píng)估體系,結(jié)合規(guī)則、模型和人工三重審核機(jī)制,以確保低質(zhì)量樣本的有效清理。
- 多樣性覆蓋:從領(lǐng)域和任務(wù)類型兩個(gè)維度進(jìn)行設(shè)計(jì),并通過去重和壓縮選樣算法,在保證數(shù)據(jù)覆蓋廣度的同時(shí)避免冗余。
- 復(fù)雜度適配:為避免模型僅在簡(jiǎn)單任務(wù)上過擬合,團(tuán)隊(duì)通過推理步驟、概念抽象度、計(jì)算復(fù)雜度等指標(biāo)對(duì)任務(wù)難度進(jìn)行量化,并利用自迭代拒絕采樣策略,重點(diǎn)進(jìn)行中高難度任務(wù)的訓(xùn)練。
這種對(duì)數(shù)據(jù)質(zhì)量的嚴(yán)格把控,正是提升模型在復(fù)雜場(chǎng)景下推理能力的關(guān)鍵因素之一。
三階段預(yù)訓(xùn)練策略
除了數(shù)據(jù)質(zhì)量之外,模型的基礎(chǔ)能力與預(yù)訓(xùn)練階段是息息相關(guān)。
整體來看,團(tuán)隊(duì)將openPangu-718B的預(yù)訓(xùn)練過程被設(shè)計(jì)為三個(gè)階段:通用(General)、推理(Reasoning)和退火(Annealing)。
首先是通用階段,這個(gè)階段的目標(biāo)是為模型構(gòu)建廣泛的世界知識(shí)。模型通過學(xué)習(xí)大規(guī)模的文本和代碼數(shù)據(jù),形成對(duì)世界的基本認(rèn)知。
其次是推理階段,專注于提升模型的邏輯推理能力。團(tuán)隊(duì)顯著增加了泛數(shù)學(xué)、STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))及代碼數(shù)據(jù)的訓(xùn)練比重,并重點(diǎn)引入了高難度的多步驟推理題庫(kù)。
為提升多步推理的準(zhǔn)確性并減少幻覺,團(tuán)隊(duì)為這部分?jǐn)?shù)據(jù)制作了詳細(xì)的思維鏈(CoT),以引導(dǎo)模型學(xué)習(xí)解決問題的邏輯路徑。
最后是退火階段,此階段旨在增強(qiáng)模型應(yīng)用知識(shí)和推理技能的能力。訓(xùn)練文本的上下文長(zhǎng)度被階梯式地提升至8K、32K和128K,同時(shí)增加了指令類數(shù)據(jù)的占比。
此外,該階段還引入了多種Agent類型的數(shù)據(jù),為模型學(xué)習(xí)使用外部工具(Tool-use)建立基礎(chǔ)。
緩解幻覺有妙招
幻覺可以說是大型語言模型普遍面臨的一大挑戰(zhàn),為緩解這個(gè)此問題,團(tuán)隊(duì)引入了“批判內(nèi)化”(Critique Internalization)機(jī)制
這個(gè)機(jī)制的核心思想是,不僅讓模型學(xué)習(xí)正確的示范(傳統(tǒng)SFT模式),更要讓模型學(xué)習(xí)如何評(píng)判一個(gè)解答的優(yōu)劣。
不同于傳統(tǒng)的批判微調(diào)(CFT)只依賴固定的人類反饋數(shù)據(jù)來訓(xùn)練模型, 批判內(nèi)化策略在初始模型訓(xùn)練完成后,利用拒絕采樣階段引入額外的自我批判信號(hào),引導(dǎo)模型在生成答案時(shí)基于不同任務(wù)的行為準(zhǔn)則Guideline,主動(dòng)審視自己的推理過程。
通過這種訓(xùn)練,模型能夠?qū)⑴行运季S融入自身推理過程。在生成回答時(shí),它能更好地審視自身的邏輯鏈條,檢查是否存在邏輯跳躍、信息遺漏或偏離指令等問題。
實(shí)驗(yàn)結(jié)果表明,該機(jī)制有效緩解了模型幻覺,并提升了指令遵從性和價(jià)值觀對(duì)齊的表現(xiàn)。同時(shí),這種針對(duì)性的反思也使得模型的輸出更為精煉和可靠。
Agent能力也進(jìn)化了
為了提升模型使用工具的能力,團(tuán)隊(duì)采用了升級(jí)版的工具數(shù)據(jù)合成框架——ToolACE
這個(gè)框架通過一系列關(guān)鍵技術(shù),生成了大量高質(zhì)量、高復(fù)雜度的多輪多工具調(diào)用數(shù)據(jù)用于訓(xùn)練。
- 領(lǐng)域工具組合:將現(xiàn)實(shí)場(chǎng)景中相互關(guān)聯(lián)的工具(如日歷查詢和航班預(yù)訂)進(jìn)行組合,并提供工具依賴圖和領(lǐng)域規(guī)則,使模型學(xué)習(xí)在復(fù)雜任務(wù)中如何協(xié)同使用多個(gè)工具。
- 交互式目標(biāo)軌跡生成:采用“計(jì)劃-執(zhí)行”分離策略,先由AI規(guī)劃出解決任務(wù)的工具調(diào)用序列,再通過與模擬環(huán)境的交互執(zhí)行該序列,生成完整的工具使用軌跡。
- 多智能體對(duì)話生成:利用多個(gè)AI智能體模擬用戶與助手的互動(dòng),將工具調(diào)用過程轉(zhuǎn)化為自然的對(duì)話腳本,并引入隨機(jī)打斷、反問澄清等復(fù)雜交互情況,以提升數(shù)據(jù)的真實(shí)性。
- 多維校驗(yàn)與錯(cuò)例迭代:對(duì)生成的數(shù)據(jù)進(jìn)行多維度質(zhì)量檢查,包括內(nèi)容滿足度、狀態(tài)變化正確性、工具調(diào)用效率等。低分?jǐn)?shù)據(jù)將被分析錯(cuò)誤原因,并用于迭代優(yōu)化生成策略。
通過這套系統(tǒng),openPangu-718B學(xué)習(xí)在復(fù)雜的多輪交互中準(zhǔn)確、靈活地調(diào)用工具。
三步式后訓(xùn)練優(yōu)化方案
在完成數(shù)據(jù)構(gòu)建和核心能力訓(xùn)練后,openPangu團(tuán)隊(duì)還經(jīng)過了一個(gè)“三步走”的后訓(xùn)練微調(diào)方案,進(jìn)行了最終的性能優(yōu)化。
第一步:漸進(jìn)動(dòng)態(tài)微調(diào) (PDFT)
為避免模型在指令微調(diào)(SFT)階段對(duì)訓(xùn)練數(shù)據(jù)產(chǎn)生過擬合,團(tuán)隊(duì)采用了漸進(jìn)動(dòng)態(tài)微調(diào)(Progressive Dynamic Fine-Tuning, PDFT)。該方法讓模型的學(xué)習(xí)模式從常規(guī)SFT平滑過渡到動(dòng)態(tài)微調(diào)(DFT)。
訓(xùn)練初期,模型以常規(guī)SFT模式充分學(xué)習(xí);后期則逐步增加DFT權(quán)重,使模型更關(guān)注尚未充分掌握的知識(shí)點(diǎn),從而在欠擬合與過擬合之間取得平衡。
第二步:強(qiáng)化學(xué)習(xí) (RL) 微調(diào)
考慮到openPangu-718B這類混合專家(MoE)模型的訓(xùn)練穩(wěn)定性要求較高,團(tuán)隊(duì)采用了GSPO(Group Sequence Policy Optimization)算法進(jìn)行強(qiáng)化學(xué)習(xí)。
與GRPO算法相比,GSPO在訓(xùn)練大型MoE模型時(shí)表現(xiàn)出更好的穩(wěn)定性,有助于模型性能的持續(xù)提升,避免了訓(xùn)練過程中的性能衰退。
第三步:模型融合 (Model Merging)
在不同訓(xùn)練階段,會(huì)產(chǎn)出在特定領(lǐng)域各有優(yōu)勢(shì)的多個(gè)模型版本。為整合這些模型的優(yōu)點(diǎn),團(tuán)隊(duì)采用了一種黑盒優(yōu)化的模型融合方法。
通過構(gòu)建一個(gè)覆蓋廣泛任務(wù)的測(cè)評(píng)集,使用優(yōu)化算法自動(dòng)搜索各候選模型的最佳融合權(quán)重,最終生成一個(gè)綜合性能更強(qiáng)的模型。
總結(jié)來看,openPangu-718B的優(yōu)異表現(xiàn),源于其在預(yù)訓(xùn)練、數(shù)據(jù)構(gòu)建、幻覺控制、工具學(xué)習(xí)及后訓(xùn)練優(yōu)化等環(huán)節(jié)系統(tǒng)性的技術(shù)創(chuàng)新。
從三階段預(yù)訓(xùn)練奠定基礎(chǔ),到通過“批判內(nèi)化”機(jī)制提升可靠性,再到利用ToolACE框架拓展Agent能力,最后通過三步式后訓(xùn)練方案進(jìn)行精細(xì)打磨,每一步都反映了其背后的技術(shù)策略。
與此同時(shí),openPangu團(tuán)隊(duì)也為行業(yè)提供了一個(gè)極具價(jià)值的范本:真正的競(jìng)爭(zhēng)力,來自于對(duì)技術(shù)細(xì)節(jié)的極致打磨和對(duì)核心問題的深刻洞察。
[1] https://ai.gitcode.com/ascend-tribe/openpangu-ultra-moe-718b-model
[2] https://arxiv.org/abs/2501.17703
[3] http://arxiv.org/abs/2409.00920
[4] http://arxiv.org/abs/2508.12685
[5] https://arxiv.org/abs/2508.05629
[6] https://arxiv.org/pdf/2507.18071
[7] https://arxiv.org/abs/2402.03300
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.