大模型熱潮下,代入企業(yè)IT/AI工程師的視角卻會發(fā)現(xiàn),AI落地處處都是坑:
AI在企業(yè)內(nèi)部應(yīng)用的場景多了之后,一到業(yè)務(wù)峰值,用戶并發(fā)涌上來,要是調(diào)度系統(tǒng)不給力、加速引擎沒提效、KVCache優(yōu)化不到位,服務(wù)一旦卡殼,不僅用戶體驗崩了,還會帶來業(yè)務(wù)損失;
智能體當?shù)?,“?shù)字員工”大量上崗,相互協(xié)作帶來了大規(guī)模推理服務(wù)需求,但問題也隨之而來,要么延遲超了,要么吞吐上不去,技術(shù)人員不得不熬夜做優(yōu)化。
這些焦頭爛額的場景,正是當前企業(yè)AI落地過程中的真實寫照。AI Infra的能力支撐,變得愈發(fā)重要。
8月的2025百度云智大會上,產(chǎn)業(yè)對AI Infra的訴求有了明確的回應(yīng):百度智能云正式發(fā)布新一代AI基礎(chǔ)設(shè)施,以百度百舸5.0為核心打造超節(jié)點云實例等關(guān)鍵能力,構(gòu)建“云智一體、智能優(yōu)先”的技術(shù)底座。
正如百度集團執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖所言:企業(yè)對基礎(chǔ)設(shè)施的需求已經(jīng)從“降本增效”轉(zhuǎn)向“直接創(chuàng)造價值”,AI云不再是企業(yè)的“成本中心”,而會成為新型的利潤中心。
斷言背后,百度智能云在AI云市場競爭中高歌猛進,65%央企選擇、連續(xù)六年公有云市場第一……無論是超大規(guī)模算力調(diào)度,還是復雜產(chǎn)業(yè)場景落地,百度智能云都已經(jīng)形成了技術(shù)突破與產(chǎn)業(yè)實踐的雙重護城河,成為行業(yè)公認的頭部玩家。
但整個云市場的競爭仍在日趨白熱化,云廠商紛紛將AI軟硬件作為拉動增長的核心引擎,導致技術(shù)路徑五花八門,解決方案層出不窮,讓不少企業(yè)用戶患上了選擇困難癥。
到底該如何選,才能真正吃透AI Infra的技術(shù)紅利呢?答案恐怕還要回到產(chǎn)業(yè)的真實需求中去尋找。
風起云涌的AI浪潮中,很多企業(yè)都想盡快用上AI提升競爭力,但現(xiàn)實里卻處處受限:芯片性能短期內(nèi)難有大幅突破,自己建AI基礎(chǔ)設(shè)施要花大價錢,而且企業(yè)自身大多缺乏搭建軟硬件搭建的能力。
這時候,AI云就成了最優(yōu)解。企業(yè)不用改造自己現(xiàn)有的系統(tǒng),通過云端即可高效調(diào)用AI所需的算力、網(wǎng)絡(luò)等核心能力。
不過,面對五花八門的AI云,企業(yè)到底該看什么?業(yè)內(nèi)共識是,企業(yè)落地大模型時,最容易被三個地方卡住脖子:算力瓶頸、互聯(lián)瓶頸、穩(wěn)定性與可靠性挑戰(zhàn)。
算力是企業(yè)應(yīng)用AI的第一道關(guān)卡。
大模型訓練的算力消耗就很驚人了,以O(shè)penAI為例,今年底上線的GPU數(shù)量就超過100萬塊。而智能體的爆發(fā),也使得token使用量激增,帶動推理算力需求上行。
比如創(chuàng)下MPV紀錄的羅永浩數(shù)字人直播間,前臺講解的兩個數(shù)字人主播背后,助播智能體負責烘托氣氛,劇本智能體撰寫雙人對話腳本,不同智能體按職責動態(tài)調(diào)整。每個智能體都要靠專門的AI模型驅(qū)動,這些模型同時跑起來,瞬間爆發(fā)的高并發(fā)算力需求,傳統(tǒng)集群的固定資源分配模式完全跟不上節(jié)奏。
所以,現(xiàn)在AI Infra的首要任務(wù)就是打破算力瓶頸,讓大模型“裝得下、跑得起”。
攻克算力瓶頸,需要釋放硬件性能,這時另一個卡脖子的問題又冒了出來,那就是:互聯(lián)瓶頸。
現(xiàn)在企業(yè)建AI集群,主要走兩條路:Scale Out(橫向擴展)與Scale Up(縱向擴展)。其中,Scale Up超節(jié)點架構(gòu)憑借單節(jié)點高密度算力集成的特性,支撐DeepSeek這類單體算力消耗不大的模型,成為企業(yè)應(yīng)用AI的熱門選擇。但在實際落地中,用Scale Up替換Scale Out,解決EP并行下的AlltoAll通信問題,需要構(gòu)建適配數(shù)十塊芯片在Scale Up域內(nèi)實現(xiàn)高速全互聯(lián)的網(wǎng)絡(luò)架構(gòu),研發(fā)與之匹配的高效通信協(xié)議,并且對上層模型服務(wù)進行對應(yīng)的適配優(yōu)化,通過這樣的“技術(shù)組合拳”,才能充分發(fā)揮Scale Up網(wǎng)絡(luò),解決互聯(lián)瓶頸,釋放高密度算力集群的效能,支撐DeepSeek等模型在企業(yè)級AI場景中的高效部署與運行。
無論Scale Out還是與Scale Up,都繞不開一個規(guī)律:Scaling law(擴展法則),這就帶來第三個難題:系統(tǒng)的穩(wěn)定性與可靠性挑戰(zhàn)與日俱增。
模型性能隨參數(shù)規(guī)模增長的需求仍在主導著AI Infra的演進,更直接影響著MoE(混合專家模型)等前沿架構(gòu)的落地訴求。像DeepSeek那樣的MoE模型(混合專家模型),得調(diào)動幾千上萬個專家節(jié)點一起工作,再加上現(xiàn)在越來越多人用強化學習、搞訓推一體,這些動態(tài)彈性高并發(fā)的訴求,都對系統(tǒng)穩(wěn)定性與可靠性帶來沖擊。
穩(wěn)定性與可靠性問題無法解決,AI服務(wù)就容易出現(xiàn)卡頓、延遲。這種情況下,哪怕場景需求明確、應(yīng)用價值很高,AI也很難真正落地。當下階段,單純依賴硬件層面的優(yōu)化已經(jīng)不夠了,必須讓軟件(比如推理系統(tǒng))和硬件深度配合,才能增強集群韌性,保證系統(tǒng)穩(wěn)定運行。更重要的是,深入產(chǎn)業(yè)場景還會發(fā)現(xiàn),上述瓶頸并非是孤立存在的。
AI落地,難關(guān)重重,企業(yè)需要在諸多彼此牽制的因素中尋找解法,自然頭痛不已。
而對于云廠商來說,企業(yè)的痛點既是挑戰(zhàn),也是機遇。要贏得這個龐大且迅速增長的市場,必須幫企業(yè)真問題,僅靠單一技術(shù)顯然無法破局,唯有對AI Infra來一場徹底的系統(tǒng)性創(chuàng)新,才能在日趨激烈的競爭中撕開突破口。
任何脫離企業(yè)實際應(yīng)用需求的技術(shù)探索,都難以形成穩(wěn)定可信賴的服務(wù)價值。企業(yè)當下所需要的AI Infra,早已不再是簡單的算力供給,還要解決網(wǎng)絡(luò)、穩(wěn)定、模型適配等一系列復雜難題。唯有如此,才能真正用好AI。
沈抖就在云智大會上直言:這幾年我們一直在思考,AI云怎樣才能真正做到智能優(yōu)先?答案是算力、模型、數(shù)據(jù)和工程能力?;谶@一判斷,百度智能云推出了全新升級的百度百舸5.0。
當然了,云廠商說得再好,不如企業(yè)用戶現(xiàn)身說法。我們還是從一個個行業(yè)和企業(yè)的切實變化,來看看新一代基礎(chǔ)設(shè)施如何精準回應(yīng)產(chǎn)業(yè)落地AI的核心痛點。
第一個需求,就是讓AI跑起來。
最直觀的就是具身智能機器人。無論是WAIC大會現(xiàn)場,還是世界人形機器人運動會的賽場上,跑動的機器人都貢獻了不少出圈的名場面。讓機器人跑起來得辦好兩件事:一是智商高,二就是會學習。
解決機器人的智商問題,機器人的“大腦”(決策大模型)與“小腦”(運動控制小模型)得經(jīng)過高效訓練,這就需要龐大算力。百度智能云的昆侖芯超節(jié)點,將64張全棧自研昆侖芯集成于單節(jié)點,實現(xiàn)單卡性能提升95%、單實例推理能力提升8倍,讓算力無憂。
云智大會上,百度百舸還正式上線了昆侖芯超節(jié)點公有云實例,現(xiàn)在具身智能企業(yè)只需調(diào)用云實例,幾分鐘就能跑萬億級開源模型。讓機器人的大腦(世界模型)和眼睛(視覺語言動作模型VLA)訓得快,大幅縮短了機器人的落地周期。
二是會學習,機器人要到真實世界中接受地面摩擦力變化、障礙物突發(fā)等不確定性挑戰(zhàn),這要求機器人能適時調(diào)整動作策略,應(yīng)對復雜條件,這就需要強化學習的試錯-反饋-優(yōu)化機制,來賦予機器人自主學習的靈魂,不僅對算力要求高,還需要強化學習框架,來提高具身智能企業(yè)在多模態(tài)數(shù)據(jù)處理等方面的工程能力。
百度智能云通過深度工程創(chuàng)新,打造了適配具身智能的百舸強化學習框架。在訓練、推理、存儲等環(huán)節(jié),將吞吐推至極限,更通過系統(tǒng)性協(xié)同實現(xiàn)全局效率最優(yōu),把強化學習效率拉到了行業(yè)新高度。
北京人形機器人創(chuàng)新中心等“國家隊”選擇與百度智能云合作,正是因為在百舸的支撐下,機器人的身心都有了堅實的承載底座,加速具身智能從實驗室走向家庭、工廠。
下一個需求,就是跑得快。
對金融、汽車、AIGC影視等行業(yè)來說,模型“跑得動”只是基礎(chǔ),“跑得快”才直接決定商業(yè)價值。
如今許多金融機構(gòu)都接入了DeepSeek等開源大模型,應(yīng)用在智能客服、智能投顧、文書寫作等領(lǐng)域,但MoE模型的專家并行需要高頻通信,推理時流量波動、超長文本處理需要節(jié)點協(xié)同,若網(wǎng)絡(luò)帶寬不足、延遲過高,會直接導致“算力等數(shù)據(jù)”的延遲,十分影響業(yè)務(wù)人員和用戶的對話體驗。
除此之外,超大規(guī)模集群的算力堆了不少,但訓練效率就是上不去的問題經(jīng)常出現(xiàn)。正如前面提到的新能源車企的智駕模型訓練問題,要解決網(wǎng)絡(luò)延遲、終端導致的訓練故障,提升計算效率與資源利用率至關(guān)重要。讓AI跑得快,就得打通算力和模型的通信卡點。為此,百舸5.0針對性升級VPC、RDMA、XPU-Link三大網(wǎng)絡(luò),構(gòu)建了低延遲、高可靠的通信底座,讓算力跑上了高速路。
百度百舸200Gbps的高速VPC網(wǎng)絡(luò),能夠支持巨型幀傳輸,可以顯著提升推理階段KV Cache傳輸、訓練階段Checkpoint讀寫這些核心環(huán)節(jié)的計算效率。單集群十萬卡RDMA互聯(lián)網(wǎng)絡(luò),可以把端到端的延遲壓縮到4微秒。面對MoE模型海量、高頻、延遲敏感的All-to-All通信的瓶頸,百度自研的XPU-Link協(xié)議把卡間帶寬提升8倍,把延遲做到國內(nèi)最低,讓專家并行的通信更快,最大程度地釋放芯片的計算性能。
無論是垂直行業(yè)訓練專有大模型,還是各行各業(yè)上線實時推理的DeepSeek,只有跑在高速通信的網(wǎng)絡(luò)上,都能更快更高效。
第三個也是企業(yè)落地AI的底線考驗:跑得穩(wěn)。
2025年產(chǎn)業(yè)AI的一個主要變化,就是Deepseek帶火了MoE架構(gòu),計算任務(wù)也從預訓練轉(zhuǎn)向了后訓練、推理環(huán)節(jié),而推理的工作負載會隨著流量規(guī)模、上下文長度的變化而變化。各行業(yè)使用AI的熱情高漲,新場景不斷涌現(xiàn),進一步增加了推理的動態(tài)和復雜性。
如沈抖所說,這時候單靠堆卡是不夠的,需要做系統(tǒng)性的優(yōu)化。百度智能云最新推出了百舸5.0推理系統(tǒng),就是為此而來,通過軟硬協(xié)同優(yōu)化,為AI業(yè)務(wù)場景提供高效支撐。
今年上半年,百度百舸上線了領(lǐng)先業(yè)界的PD分離能力,以大規(guī)模推理的效率,而如今面對大規(guī)模、復雜MoE的場景,百度百舸5.0將分離做得更徹底,還推出了VIT分離(視覺和語言),以及Attention-MLP分離,通過深度解耦這些計算模式不同的模塊,讓整個系統(tǒng)更加高效,實現(xiàn)了數(shù)十倍的吞吐提升,從而更好地提升MoE 時代的推理性能。
針對多智能體協(xié)作時KV Cache增多的問題,百舸5.0 KV Cache系統(tǒng)還可以實時感知集群全局狀態(tài),從HBM靈活遷移至內(nèi)存、SSD乃至遠程分布式文件系統(tǒng)中,實現(xiàn)緩存智能管理,讓存儲資源的彈性適配,從而提升整體系統(tǒng)的調(diào)度效率與資源利用率。
在律師處理法律合同、政務(wù)部門處理超長文檔等場景中,百舸5.0的自適應(yīng)能力,能夠根據(jù)輸入文本長度動態(tài)調(diào)整張量、序列和專家并行策略,讓MoE模型推理效率顯著提升。128K超長文本3秒內(nèi)出首字,能減少等待時間,顯著提升用戶的使用感受。在相同成本下,能處理更多請求,模型能完成的任務(wù)量更多了。
還有像3D建模平臺VAST這樣的企業(yè),如果平臺的百萬設(shè)計師同時在線調(diào)用模型,那么百舸5.0的智能調(diào)度,通過數(shù)據(jù)并行、專家并行雙重負載均衡,優(yōu)化推理效率,即使是大規(guī)模高并發(fā)的實時訪問場景,也能為設(shè)計師們源源不斷的創(chuàng)作靈感保駕護航。
可以發(fā)現(xiàn),百舸5.0的四大升級并非孤立技術(shù),而是圍繞“企業(yè)如何用好AI”來構(gòu)建系統(tǒng)性解決方案。
這也印證了產(chǎn)業(yè)實踐中,算力瓶頸、網(wǎng)絡(luò)瓶頸與穩(wěn)定性與可靠性挑戰(zhàn)三大關(guān)卡彼此制約的復雜難題,必須靠組合拳才能擊穿。舉個例子,業(yè)內(nèi)也有云廠商推出了吸引眼球的技術(shù),如高密度超節(jié)點,但并沒有搭好云實例,企業(yè)看得到但用不上,最后還是卡在上不了手的死胡同。
讓企業(yè)真正靠AI Infra把AI用起來,百舸5.0的系統(tǒng)性方案,正是百度智能云轟向AI落地關(guān)卡的一組組合拳。
一位油氣領(lǐng)域?qū)<以蛭覀兏锌褐悄芑坏﹩樱筒粫V?。這是行業(yè)一線從業(yè)者的真實體感,而綜合數(shù)據(jù)也印證了這一點。
IDC發(fā)布的 《2025年第一季度全球服務(wù)器市場跟蹤報告》顯示,2025 年第一季度服務(wù)器銷量大幅上漲,其中GPU需求成為推動增長的核心因素。隨著AI大模型的廣泛應(yīng)用,企業(yè)對GPU加速服務(wù)器與云端算力的依賴顯著加強,原本依賴本地數(shù)據(jù)中心的組織,正在將AI相關(guān)工作負載逐步遷移至云端;而已經(jīng)部署云架構(gòu)的企業(yè),也在持續(xù)將AI能力嵌入業(yè)務(wù)流程與數(shù)據(jù)系統(tǒng),帶動對GPU與云基礎(chǔ)設(shè)施的長期需求。
對各行各業(yè)來說,智能化是一場漫長的長跑,那么, AI云市場,誰能陪企業(yè)跑得更遠、更久?
一份報告揭開了行業(yè)秘密:8月18日IDC發(fā)布的IDC報告顯示,2024年中國AI公有云服務(wù)市場規(guī)模達195.9億元,百度智能云以24.6%的市場份額穩(wěn)居第一,連續(xù)六年、累計十次蟬聯(lián)中國AI公有云市場冠軍。
百度智能云能成為65%央企的AI創(chuàng)新合作伙伴,背后的秘密或許就藏在累計十次、六連冠的長期主義中。毫無疑問,百度智能云是一個深耕AI云賽道的耐力型選手,技術(shù)能力和產(chǎn)業(yè)耐力都得到了時間的檢驗。這意味著,在政企落地AI的智能化長跑中,選擇百度智能云一同陪跑,會得到以下助力:
一是多年沉淀的產(chǎn)業(yè)級技術(shù)護城河。從云智大會披露的進展來看,昆侖芯超節(jié)點云實例、百舸訓推升級、強化學習框架等產(chǎn)品、新技術(shù),不只是為了炫技,更緊貼產(chǎn)業(yè)需求。這種技術(shù)競爭力,來自百度智能云多年來押注產(chǎn)業(yè)智能化的積累。早在2015年百度正式對外提供云服務(wù)時,便強調(diào)云的智能屬性。2019年,百度智能云將“云+AI”確立為核心戰(zhàn)略,提出“云智一體、深入產(chǎn)業(yè)”,進一步明確了AI云的發(fā)展方向。
能深度理解AI業(yè)務(wù),并具備持續(xù)迭代的技術(shù)韌性,這在公有云市場當中是一種十分稀缺的能力,也為產(chǎn)業(yè)客戶帶來了長期信心。
特別是對于大型政企來說,業(yè)務(wù)關(guān)系國計民生,在布局AI時,每一次選擇都關(guān)乎產(chǎn)業(yè)升級的方向與節(jié)奏。中國郵政儲蓄銀行依托百舸完成GPU/CPU算力重組,提升混合芯片集群利用率;長安汽車也牽手百度智能云建設(shè)AI基礎(chǔ)設(shè)施,進一步加速智能駕駛模型迭代。這些企業(yè)本質(zhì)是選擇一個戰(zhàn)略伙伴,作為智能化路上的定心丸和壓艙石,支撐自身轉(zhuǎn)型的全周期需求。
二是300+行業(yè)場景驗證的AI落地方法論。產(chǎn)業(yè)AI的本質(zhì)是“產(chǎn)業(yè)為先”,技術(shù)落地必須貼合業(yè)務(wù)場景的節(jié)奏,無法一蹴而就。百度智能云在服務(wù)政企的過程中,積累了覆蓋金融(招行)、能源(中石化)、汽車(長安汽車)、AIGC(生數(shù)科技)、具身智能(人形機器人創(chuàng)新中心)的300+場景經(jīng)驗,既能為行業(yè)龍頭提供超大規(guī)模算力調(diào)度,也能為創(chuàng)業(yè)公司提供精準場景突破,與各個產(chǎn)品同頻共進,精準賦能,才能讓技術(shù)真正成為智能升級的助推器。
智能化征程中,每一個人與企業(yè)都是跑者。而AI Infra作為底層根基,牽一發(fā)而動全身,一旦在企業(yè)中扎下根來,就很難被輕易替代。正因如此,當下的AI云市場不是溫和競逐,而是搶算力、拼方案的白熱化廝殺,本質(zhì)是跟時間賽跑,搶奪企業(yè)AI陪跑者的身位。
誰能搶先接住企業(yè)落地AI的真需求,相當于拿下了未來的市場。百度智能云累計十次、連續(xù)六年蟬聯(lián)中國AI公有云冠軍,就是佐證。把技術(shù)突破轉(zhuǎn)化成貼合用戶的智能化陪跑能力,不僅搶到了與65%央企共同探索AI創(chuàng)新的入場券,更是為自己筑起了別人難以快速趕上的領(lǐng)先優(yōu)勢。
目前AI技術(shù)仍在快速迭代,Infra層面仍存挑戰(zhàn),這也提醒我們,唯有以技術(shù)破局、為產(chǎn)業(yè)筑牢底座,云廠商才能贏下這場AI決戰(zhàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.