夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

國產(chǎn)AI芯片兩個指標:模型覆蓋+集群規(guī)模能力 | 百度智能云王雁鵬

0
分享至

編輯部 整理自 MEET2026
量子位 | 公眾號 QbitAI

當國產(chǎn)AI芯片接連發(fā)布、估值高漲之際,一個尖銳的問題依然懸在頭頂:它們真的能撐起下一代萬卡集群與萬億參數(shù)模型的訓練嗎?

一邊是市場對替代方案的迫切期待,另一邊是英偉達在利潤與估值上仍高歌猛進……

百度智能云AI計算首席科學家王雁鵬在量子位MEET2026智能未來大會上,基于百度昆侖芯在大規(guī)模生產(chǎn)環(huán)境中的實戰(zhàn)經(jīng)驗指出:

評判芯片實力的標準已從單純的算力數(shù)值,轉(zhuǎn)向了能否穩(wěn)定支撐從百億到萬億參數(shù)、從稠密模型到MoE架構(gòu)、從單模態(tài)到多模態(tài)的完整模型譜系訓練,并能在萬卡乃至更大規(guī)模集群上實現(xiàn)高效擴展。

在演講中,王雁鵬系統(tǒng)拆解了大規(guī)模訓練中集群穩(wěn)定性、線性擴展與模型生態(tài)三大核心挑戰(zhàn)的攻堅路徑,并回應(yīng)了行業(yè)對MoE時代硬件路徑的關(guān)切。

他認為,即便是參數(shù)激增的MoE模型,“小芯片搭大集群”的路徑依然可行,其關(guān)鍵在于極致的通信優(yōu)化與系統(tǒng)級協(xié)同設(shè)計。



為完整呈現(xiàn)王雁鵬的思考,在不改變原意的基礎(chǔ)上,量子位對演講內(nèi)容進行了整理編輯,希望能給你帶來更多啟發(fā)。

MEET2026智能未來大會是由量子位主辦的行業(yè)峰會,近30位產(chǎn)業(yè)代表與會討論。線下參會觀眾近1500人,線上直播觀眾350萬+,獲得了主流媒體的廣泛關(guān)注與報道。

核心觀點梳理
  • 國產(chǎn)芯片的替代有一個漸進式的過程,昆侖芯從第一代開始已經(jīng)做到了在搜索線上系統(tǒng)全量用推理,真正難的是在大規(guī)模訓練場景。
  • 現(xiàn)在Scale換了一個維度,變成了模型參數(shù)的Scale和任務(wù)訓練規(guī)模的Scale,由此帶來了整個系統(tǒng)層面的Scale,映射到硬件上就有不同的size、各種形狀、不同的切分策略和并行策略。
  • 當前重要發(fā)展方向是MoE,它在某種程度上延續(xù)了原有的Scaling Law,能夠繼續(xù)擴大參數(shù)規(guī)模,同時不增加激活參數(shù)規(guī)模。但系統(tǒng)層面會面臨新的挑戰(zhàn):模型參數(shù)變得更大、輸入序列變長,通信占比顯著提升,占比提升意味著整個模型架構(gòu)都要有變化。
  • 當前我們在百度Qianfan VL、百度蒸汽機都取得較領(lǐng)先的模型效果,并已經(jīng)實現(xiàn)全?;诶鲂镜挠柧?。

以下為王雁鵬演講全文:

真正的困難在大規(guī)模訓練場景里

大家好,我是來自百度智能云的王雁鵬,我很長一段時間都在負責AI基礎(chǔ)設(shè)施建設(shè)的工作。今天想跟大家分享的內(nèi)容是,我們?nèi)绾卧谏a(chǎn)環(huán)境中規(guī)?;瘧?yīng)用我們的國產(chǎn)芯片

最近國產(chǎn)芯片熱度很高,很多產(chǎn)品陸續(xù)上市,也獲得了很高估值。似乎國產(chǎn)芯片馬上就要在大規(guī)模生產(chǎn)環(huán)境落地。但同時,英偉達仍然保持極高的利潤率和上漲的估值,市場仍然在購買其產(chǎn)品。

這兩個看似矛盾的現(xiàn)象背后,其實反映了一個事實:要真正把國產(chǎn)芯片用起來,難度依然非常大。不僅如此,除了英偉達之外的國際芯片供應(yīng)商,也同樣沒有在大規(guī)模訓練場景中真正跑起來。

國產(chǎn)替代一定是漸進式過程。大家都知道在推理場景中問題不大,例如昆侖芯從第一代起就已在搜索線上系統(tǒng)實現(xiàn)全量推理,真正困難在大規(guī)模訓練場景里面。

第一大挑戰(zhàn):集群穩(wěn)定性

大規(guī)模訓練往往是上萬卡的同步系統(tǒng),任何一臺卡中斷都可能導(dǎo)致任務(wù)重啟。

比如,在100張卡的時候有效訓練時間是99%,但當1%時間因為中斷浪費的話,線性擴展到一萬張卡則意味著整個集群不可用了。因此,第一個要解決的便是集群穩(wěn)定性問題。

在芯片層面,GPU天生是高故障率器件:晶體管數(shù)量多、算力高、功耗大,同時專注于計算導(dǎo)致監(jiān)控能力弱,整體比CPU的故障率高出多個量級。

在這方面我們有兩類經(jīng)驗:

1、事前精細化監(jiān)控與驗證:

我們必須假設(shè)芯片可能存在各種問題——運行變慢、精度異常、數(shù)據(jù)不一致等,因此需要系統(tǒng)級手段提前定位可能的故障,而不能依賴芯片自身的報錯能力。尤其是在靜默錯誤場景中,系統(tǒng)需要能夠精準定位故障節(jié)點,否則訓練會長期無法復(fù)現(xiàn)。

2、故障后的快速恢復(fù)能力:

無論故障率如何,總要避免大規(guī)模重算,因此我們構(gòu)建了透明Checkpoint和快速恢復(fù)機制,盡量減少損失。

第二大挑戰(zhàn):讓集群真正擴展起來

一個萬卡集群必須實現(xiàn)線性擴展,否則只有千卡、兩千卡的規(guī)模意義不大。

我們大致經(jīng)歷了三個階段:

百卡集群上,驗證技術(shù)可行性,關(guān)鍵在于RDMA通信技術(shù)的適配與優(yōu)化。

千卡集群上,由于網(wǎng)絡(luò)不再對等,比如我們不能把任何兩個芯片或者兩臺機器看成在網(wǎng)絡(luò)任何地方部署性能都一樣,因此也需要做好網(wǎng)絡(luò)親和性調(diào)度等復(fù)雜優(yōu)化。

萬卡集群則是更大的挑戰(zhàn),面對多任務(wù)、多并行策略(PP、TP、EP 等)帶來的流量競爭,必須實現(xiàn)芯片與網(wǎng)絡(luò)的聯(lián)合設(shè)計。



我們的核心邏輯叫:XPU驅(qū)動的any to any的通信

以XPU為核心,在通信過程中繞過CPU各種影響,直接用XPU驅(qū)動我們的網(wǎng)絡(luò)。針對不同流量有不同優(yōu)先級做整個任務(wù)的最優(yōu),經(jīng)過這一點我們可以把大規(guī)模擴展做上去。

第三大挑戰(zhàn):模型生態(tài)與精度體系

英偉達最強的護城河并不只是硬件,而是過去十多年沉淀的模型生態(tài):成千上萬種模型變體、算子體系、框架適配,這些都讓英偉達在訓練精度上保持絕對穩(wěn)定性。

在大模型時代,由于Transformer這套架構(gòu)相對統(tǒng)一,國產(chǎn)芯片迎來了機會。

但可能很多人忽略的一點是:

現(xiàn)在Scale換了一個維度,變成了模型參數(shù)的Scale和任務(wù)規(guī)模的Scale。而這意味著模型參數(shù)可以有不同的規(guī)模,例如十億、百億、千億,同時我們可以跑到不同硬件平臺上,比如百卡、千卡、萬卡,這兩個維度的Scale則會帶來整個系統(tǒng)的Scale。



不同于原來模型架構(gòu)的Scale,算子映射到硬件上面會有不同的size,不同形狀,不同并行的策略,這個情況下算子能不能穩(wěn)定地跑出來。我們看到它會在精度和性能上都會存在挑戰(zhàn),尤其是精度方面的挑戰(zhàn)。換了一個平臺,甚至可能因為“算子寫得不對”、“精度差一點”都可能導(dǎo)致兩個月的訓練白跑。

因此我們做了高度泛化的算子體系,針對不同的算子的size做了高強度的泛化,同時在泛化基礎(chǔ)上還做到小規(guī)模驗證精度,避免每次都使用萬卡對比,從而保證大規(guī)模訓練的可靠性。

MoE模型與多模態(tài)模型的新挑戰(zhàn)

當前重要的發(fā)展方向是MoE,它能在不提升激活規(guī)模的情況下擴展模型參數(shù),延續(xù)Scaling Law。

但MoE基礎(chǔ)上對系統(tǒng)架構(gòu)也帶來新的挑戰(zhàn),模型參數(shù)變大了,輸入序列變長,意味著通信占比提升了,對整個模型架構(gòu)都會有改變

因此需要極致的通信優(yōu)化,以及顯存的協(xié)同,與計算overlap,來完成MoE系統(tǒng)的適配。



我們的結(jié)論是,即便是MoE模型,小芯片搭大集群的方式依然可行

多模態(tài)模型則帶來另一類問題,不同的模態(tài)會帶來不同的訓練強度,不同模態(tài)的計算,還用原來的同構(gòu)拆分方法的話會導(dǎo)致訓練的效率非常低,典型情況下MFU可能都不到10%。



針對這個需要做異構(gòu)數(shù)據(jù)均衡的調(diào)度,適配異構(gòu)并行策略,使得系統(tǒng)能夠根據(jù)我們workload動態(tài)地做并行策略。不管模型是什么樣的,都能找到最優(yōu)的運行策略適配模型,在這一塊需要做優(yōu)化。

衡量國產(chǎn)芯片“能否真正用起來”的標準,我們認為有兩個關(guān)鍵維度:

  • 模型覆蓋能力:覆蓋大語言模型、多模態(tài)、文生視頻等完整體系。
  • 集群規(guī)模能力:從百卡到千卡再到萬卡全覆蓋。

目前我們在模型覆蓋上基本達到主流大模型體系,在規(guī)模上已能跑萬卡任務(wù),未來還會向數(shù)萬卡推進。



最近大家關(guān)注TPU,就是因為Google能夠用非常優(yōu)秀的Gemini證明TPU的訓練能力——模型綁定硬件,硬件才能真正被接受。

同樣,昆侖芯也需要綁定優(yōu)秀的自研模型。

當前我們在百度Qianfan VL、百度蒸汽機都取得較領(lǐng)先的模型效果,并已經(jīng)實現(xiàn)全?;诶鲂镜挠柧?。未來我們會繼續(xù)努力,讓更先進的模型在我們昆侖芯上面全棧訓練出來。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
火箭3人入選!美媒更新25歲以下25大新星:申京4阿門14謝潑德無緣

火箭3人入選!美媒更新25歲以下25大新星:申京4阿門14謝潑德無緣

鍋子籃球
2025-12-21 10:39:30
伊薩克進球 利物浦客場2-1險勝九人熱刺

伊薩克進球 利物浦客場2-1險勝九人熱刺

環(huán)球體壇啄木鳥
2025-12-21 11:29:20
突然拉升!加密貨幣超6萬人爆倉,發(fā)生了什么?

突然拉升!加密貨幣超6萬人爆倉,發(fā)生了什么?

每日經(jīng)濟新聞
2025-12-21 09:15:15
西甲第17輪姆巴佩點射進球 皇馬2-0擊敗塞維利亞 姆巴佩打進411球

西甲第17輪姆巴佩點射進球 皇馬2-0擊敗塞維利亞 姆巴佩打進411球

環(huán)球體壇啄木鳥
2025-12-21 11:25:53
火箭大勝掘金!烏度卡火線變陣:8人輪換出爐,31歲高塔遭雪藏

火箭大勝掘金!烏度卡火線變陣:8人輪換出爐,31歲高塔遭雪藏

熊哥愛籃球
2025-12-21 12:11:59
西方媒體:哪怕中國全力以赴,也不可能按時建成這樣龐大的工程

西方媒體:哪怕中國全力以赴,也不可能按時建成這樣龐大的工程

樂天閑聊
2025-12-20 10:59:49
王炸開局!新機官宣:1月1日,正式發(fā)售上市!

王炸開局!新機官宣:1月1日,正式發(fā)售上市!

科技堡壘
2025-12-21 11:33:39
房子貶值后才想通:那幾百萬不是憑空消失了,是被偷走了...

房子貶值后才想通:那幾百萬不是憑空消失了,是被偷走了...

深度報
2025-12-19 23:14:12
申花中衛(wèi)離隊!原以為會被中超俱樂部搶著要,結(jié)果只收到中甲邀約

申花中衛(wèi)離隊!原以為會被中超俱樂部搶著要,結(jié)果只收到中甲邀約

振剛說足球
2025-12-21 10:31:32
南陽兩地發(fā)布關(guān)于禁售禁放煙花爆竹的通告

南陽兩地發(fā)布關(guān)于禁售禁放煙花爆竹的通告

大象新聞
2025-12-21 09:53:02
花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過半年或有6好處

花生再次被關(guān)注!調(diào)查發(fā)現(xiàn):糖尿病常吃花生,不過半年或有6好處

蜉蝣說
2025-11-20 14:40:39
血戰(zhàn)石城:那場動搖大明江山的土達叛亂

血戰(zhàn)石城:那場動搖大明江山的土達叛亂

無心鏡
2025-12-20 08:06:47
林峯撞臉西安兵馬俑事件,回應(yīng)直言有點嚇到

林峯撞臉西安兵馬俑事件,回應(yīng)直言有點嚇到

TVB的四小花
2025-12-21 04:50:34
26歲女子顏值秒殺女明星,男子相中才知東莞工作,要求男方月薪1.5w

26歲女子顏值秒殺女明星,男子相中才知東莞工作,要求男方月薪1.5w

趣筆談
2025-12-16 22:57:31
5天榜首3次易主!孫穎莎重回體壇第一,王楚欽落后樊振東1029萬票

5天榜首3次易主!孫穎莎重回體壇第一,王楚欽落后樊振東1029萬票

侃球熊弟
2025-12-21 11:27:46
我?guī)褪组L擋下了兩槍后,負傷退伍,在我交出軍官證時女文員卻鎖上門

我?guī)褪组L擋下了兩槍后,負傷退伍,在我交出軍官證時女文員卻鎖上門

如煙若夢
2025-12-16 16:32:17
英超第17輪結(jié)束了8場比賽,最新積分榜如下!

英超第17輪結(jié)束了8場比賽,最新積分榜如下!

薇說體育
2025-12-21 11:33:41
張學良三個兒子瘋的瘋,死的死,都以為張家就要絕后,結(jié)局如何?

張學良三個兒子瘋的瘋,死的死,都以為張家就要絕后,結(jié)局如何?

古書記史
2025-12-12 11:32:56
事實證明!放棄回國嫁給撒貝寧的李白,做出了人生中最正確的決定

事實證明!放棄回國嫁給撒貝寧的李白,做出了人生中最正確的決定

可樂談情感
2025-12-21 09:12:21
3100萬稀土訂單談妥了,蒙古想要空運直達美?中方:上天也運不走

3100萬稀土訂單談妥了,蒙古想要空運直達美?中方:上天也運不走

愛吃醋的貓咪
2025-12-20 20:58:15
2025-12-21 12:24:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11887文章數(shù) 176340關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個應(yīng)用

頭條要聞

山西宣布廢除煙花爆竹"禁放令" 網(wǎng)友:年味回來了

頭條要聞

山西宣布廢除煙花爆竹"禁放令" 網(wǎng)友:年味回來了

體育要聞

送快船西部墊底!鵜鶘大勝步行者獲4連勝

娛樂要聞

鹿晗關(guān)曉彤戀愛期間毫不避諱?

財經(jīng)要聞

百年老店陷貼牌爭議 同仁堂必須作出取舍

汽車要聞

-30℃,標致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

游戲
健康
時尚
親子
軍事航空

魔獸世界:安其拉神殿最讓人無法抗拒的武器,哪款能讓你逆襲?

這些新療法,讓化療不再那么痛苦

中年女人,冬天這么穿羽絨服、大衣,優(yōu)雅都藏在這3個細節(jié)里

親子要聞

斷奶后乳房萎縮,怎么辦? 斷奶后乳房萎縮,怎么辦?

軍事要聞

澤連斯基:前線局勢愈發(fā)艱難

無障礙瀏覽 進入關(guān)懷版 亚洲欧美综合在线天堂| 日韩精品亚洲国产一区蜜芽| 亚洲综合一区二区三区四区| 97人妻碰碰碰爽爽爽爽视频| 午夜视频久久久久一区| 成人网站你懂得| 午夜久久一区二区狠狠干| AV天堂一区无码| 毛片肏屄,肏屄视频| 大陆极品少妇内射aaaaaa| 国产 中文 亚洲 日韩 欧美| 亚洲免费三级电影| 精品国产一区二区三区av性色 | 亚洲嫩模喷白浆在线观看| 国产白丝Av一区二区三区| 日本中文一区二区三区亚洲| 日本熟妇浓毛| 日韩在线精品强乱中文字幕| 亚洲国模精品一区二区| 成人网站99在线| 亚洲国产精品13p| 少妇人妻200篇白洁| www.日韩无码.cn| 东北少妇av片免费看| av888.com在线| 国产日产韩国精品视频,| 女性自慰网站免费观看W| 国产亚洲精品久久久网站好莱| 亚洲av无码电影在线播放 | 午夜通通国产精品福利| 少妇交换HD中文| 人妻熟妇乱又伦精品视频中文字幕 | 精品无码av无码免费专区| 日本两人免费观看的视频| 精品视频第一页| 成人影视 亚洲无码| 欧美亚洲综合成人a∨在线| 久久精品久久99精品久久| 久久综合亚洲色hezyo国产 | 亚洲欧美激情另类 | 啊V视频免费在线观看|