回顧 2024 年,貫穿全年最重要的技術(shù)趨勢(shì),無(wú)疑是大模型技術(shù)引發(fā)的 AI“ 風(fēng)暴 ” 。
在應(yīng)用端,人臉識(shí)別、自然語(yǔ)言、智能推薦等 AI應(yīng)用比比皆是。應(yīng)用的全面 AI化,帶動(dòng)了 AI算力的激增。 IDC的數(shù)據(jù)顯示:全球算力需求將以每年 50%的速度增長(zhǎng),而 AI應(yīng)用驅(qū)動(dòng)算力需求增長(zhǎng)速度更快,預(yù)計(jì)到 2030年, AI算力需求將比當(dāng)前呈現(xiàn)上百倍的增長(zhǎng)。
智能算力要“流向”千行萬(wàn)業(yè)的方方面面,還需要與網(wǎng)絡(luò)的發(fā)展與之匹配,在算網(wǎng)一體化的發(fā)展路徑下,智算廣域網(wǎng)技術(shù)的演進(jìn)尤為關(guān)鍵。
如中國(guó)工程院鄔賀銓所說(shuō),“人工智能的爆發(fā)對(duì)互聯(lián)網(wǎng)既是機(jī)遇也是挑戰(zhàn),智算廣域網(wǎng)是人工智能時(shí)代互聯(lián)網(wǎng)重要?jiǎng)?chuàng)新升級(jí)方向,是滿足智算服務(wù)需求的基礎(chǔ)設(shè)施。”
01
智算時(shí)代
推動(dòng)智算廣域網(wǎng)全面發(fā)展
根據(jù) 2023年 10月印發(fā)的《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》制定的主要目標(biāo):到 2025年,我國(guó)算力規(guī)模將超過 300EFlops,智能算力占比將達(dá)到 35%。
正是大模型的驅(qū)動(dòng)下,智算產(chǎn)業(yè)呈現(xiàn)出一片欣欣向榮的景象。
全國(guó)各地建設(shè)了大量的智算中心,形成了支撐人工智能訓(xùn)練服務(wù)的基礎(chǔ)算力資源;與此同時(shí),千行萬(wàn)業(yè)的智能化轉(zhuǎn)型,對(duì)人工智能的投入持續(xù)增加,又產(chǎn)生了大量用于模型訓(xùn)練的樣本數(shù)據(jù)和訓(xùn)練需求。
在智算的供需之間,需要一座橋梁,這座橋梁就是智算廣域網(wǎng)。
簡(jiǎn)單地說(shuō),智算廣域網(wǎng)就是面向智算產(chǎn)業(yè)高速發(fā)展,是支撐人工智能計(jì)算業(yè)務(wù)全生命周期的廣域網(wǎng)絡(luò)。中國(guó)信息通信研究院技術(shù)與標(biāo)準(zhǔn)研究所互聯(lián)網(wǎng)中心主任高巍說(shuō),“全國(guó)各地布局多級(jí)算力資源池體系,如何充分發(fā)揮這些智算資源的作用,使其成為各個(gè)行業(yè)能夠使用的智算服務(wù),成為了當(dāng)務(wù)之急,在這里網(wǎng)絡(luò)需要發(fā)揮重要作用,‘網(wǎng)效’與‘算效’需要提升互促。
當(dāng)然,智算廣域網(wǎng)的誕生,也恰是為了解決傳統(tǒng)網(wǎng)絡(luò)無(wú)法解決的問題而存在的。
比如海量數(shù)據(jù)上傳,要將大量數(shù)據(jù)樣本傳輸?shù)街撬阒行倪M(jìn)行存儲(chǔ)和處理,這些數(shù)據(jù)樣本是人工智能模型訓(xùn)練和優(yōu)化的基礎(chǔ);存算拉遠(yuǎn)則要將存儲(chǔ)和計(jì)算資源分離,并將存儲(chǔ)設(shè)備放置在遠(yuǎn)離計(jì)算設(shè)備的位置,通過高速網(wǎng)絡(luò)進(jìn)行樣本傳輸和訓(xùn)練;協(xié)同訓(xùn)練,要求大模型訓(xùn)練可以在多地智算中心之間進(jìn)行分布式訓(xùn)練,減輕單一地點(diǎn)壓力,并提高訓(xùn)練效率。
這些伴隨智算時(shí)代而來(lái)的新場(chǎng)景,無(wú)一不對(duì)網(wǎng)絡(luò)的承載能力提出了高要求。也因此,推動(dòng)了智算廣域網(wǎng),從理念到技術(shù)實(shí)踐的全面發(fā)展。
02
運(yùn)營(yíng)商智算廣域網(wǎng)實(shí)踐
的“關(guān)鍵一躍”
國(guó)內(nèi)的運(yùn)營(yíng)商已經(jīng)在全國(guó)布局很多算力資源池,智算廣域網(wǎng)支撐全社會(huì)智算資源的高效利用與服務(wù)的“關(guān)鍵一躍”。智算廣域網(wǎng)的部署推進(jìn)過程中,運(yùn)營(yíng)商依托自身的優(yōu)勢(shì)和需求,積極投身關(guān)鍵技術(shù)方案的探索和建設(shè),積累了豐富的經(jīng)驗(yàn)和成果。
上海電信,面對(duì)上海全市 300多家企業(yè)、 40多所高校和研究所, 11個(gè)信息化園區(qū)的用算訴求,打造了具備智能運(yùn)力的智算廣域網(wǎng),通過網(wǎng)絡(luò)高吞吐使能“算得多”, RDMA廣域無(wú)損保障“算得快”,任務(wù)式彈性服務(wù)做到 “用得起 ”,全面匹配智算時(shí)代下新供需關(guān)系帶來(lái)的網(wǎng)絡(luò)訴求。
值得一提的是,上海電信的智算廣域網(wǎng)絡(luò)實(shí)踐成效斐然:不僅在開啟負(fù)載均衡和精準(zhǔn)流控功能下,應(yīng)用層有效傳輸速率提升 7倍,傳輸時(shí)間降低了 86%。同時(shí),通過引入廣域 RDMA無(wú)損技術(shù),跨百公里的存算拉遠(yuǎn)訓(xùn)練效率達(dá)到 99%以上,從而支撐智算廣域網(wǎng)滿足海量租戶進(jìn)行并發(fā)訓(xùn)練。
重慶移動(dòng),結(jié)合當(dāng)?shù)匦履茉粗悄苘嚻螅瑢?duì)海量樣本數(shù)據(jù)大模型訓(xùn)練需求,攜手華為推出了智算互聯(lián)網(wǎng)絡(luò)解決方案。在方案當(dāng)中,重慶移動(dòng)首創(chuàng)提出了廣域 RDMA+G-SRv6的無(wú)損網(wǎng)絡(luò)融合方案,采用 RDMA、深度負(fù)載分擔(dān)、智能流調(diào)度和逐流反壓等關(guān)鍵技術(shù),同時(shí)利用客戶側(cè)已有的標(biāo)準(zhǔn)存儲(chǔ),確??蛻魯?shù)據(jù)在智算中心不落盤,通過新一代智算設(shè)備互聯(lián)實(shí)現(xiàn)網(wǎng)存協(xié)同。
通過這一系列的技術(shù)創(chuàng)新,重慶移動(dòng)存算拉遠(yuǎn)項(xiàng)目在超長(zhǎng)距離網(wǎng)絡(luò)中,訓(xùn)練效率提升近 1倍,月度迭代訓(xùn)練任務(wù)數(shù)提升近 70%。極大解決了算力空閑等待時(shí)間長(zhǎng)的問題,大幅降低企業(yè)使用大模型訓(xùn)練的成本,為高效算力服務(wù)的推廣,加速普惠算力服務(wù)千行百業(yè)貢獻(xiàn)了重要力量。
浙江聯(lián)通,針對(duì)敏感數(shù)據(jù)本地存儲(chǔ)異地訓(xùn)練的場(chǎng)景,提出了創(chuàng)新的業(yè)務(wù)模式?;谥袊?guó)聯(lián)通全新的算力智聯(lián)網(wǎng) AINet,依托“網(wǎng)絡(luò) +平臺(tái)”兩大基礎(chǔ)底座和高通量、高性能、高智能的“三高”核心能力。
同時(shí)采用華為下一代路由器系列產(chǎn)品,浙江聯(lián)通成功在杭州與金華兩地間實(shí)施了業(yè)界首次 30TB樣本數(shù)據(jù)的跨 200公里存算分離拉遠(yuǎn)訓(xùn)練,經(jīng)過實(shí)際測(cè)算,訓(xùn)練效率高達(dá) 97%。充分驗(yàn)證了針對(duì) AI訓(xùn)練業(yè)務(wù)存算拉遠(yuǎn)的技術(shù)可行性,未來(lái)有相關(guān)數(shù)據(jù)敏感業(yè)務(wù)需求的用戶可通過運(yùn)營(yíng)商算力服務(wù),完成隱私樣本不出園區(qū)的拉遠(yuǎn)訓(xùn)練,實(shí)現(xiàn)成本與安全的最佳平衡。
通過廣域網(wǎng)絡(luò)聯(lián)接跨幾百到上千公里的異地算力中心,會(huì)面臨兩個(gè)關(guān)鍵技術(shù)點(diǎn)挑戰(zhàn) : 一是跨 DC大模型訓(xùn)練極端情況流量瞬時(shí)并發(fā)達(dá)上千 Tbps,需要考慮收斂比和訓(xùn)練效率之間平衡最優(yōu)比。二是 RDMA長(zhǎng)距傳輸對(duì)于丟包十分敏感,千分之一丟包會(huì)導(dǎo)致網(wǎng)絡(luò)吞吐率下降,影響算卡效率并造成資源浪費(fèi)。
北京電信,則針對(duì)廣域網(wǎng)絡(luò)聯(lián)接跨幾百到上千公里的異地算力中心,會(huì)面臨的跨 DC大模型訓(xùn)練極端情況流量瞬時(shí)并發(fā)達(dá)上千 Tbps和 RDMA長(zhǎng)距傳輸對(duì)于丟包十分敏感兩大難題。通過新一代智算路由器打造智算廣域網(wǎng),采用新型流級(jí)擁塞控制技術(shù),可精準(zhǔn)快速識(shí)別網(wǎng)絡(luò)發(fā)生擁塞或故障,并基于流進(jìn)行擁塞控制,確保擁塞不擴(kuò)散到全網(wǎng)。同時(shí)采用路由器廣域無(wú)損調(diào)度和負(fù)載均衡技術(shù),避免數(shù)據(jù)丟包導(dǎo)致算卡計(jì)算效率下降,現(xiàn)網(wǎng)實(shí)際驗(yàn)證跨 100公里長(zhǎng)距算效僅降 1%。
不難發(fā)現(xiàn),運(yùn)營(yíng)商對(duì)智算廣域網(wǎng)的技術(shù)探索已取得了相當(dāng)多的實(shí)踐成果,而在其背后,都有華為彈性無(wú)損智算 IP廣域網(wǎng)解決方案的支持。
03
為行業(yè)數(shù)智化轉(zhuǎn)型
提供網(wǎng)絡(luò)新選擇
華為數(shù)據(jù)通信產(chǎn)品線城域路由器領(lǐng)域總裁左萌認(rèn)為, AI的廣泛應(yīng)用為廣域網(wǎng)絡(luò)提出了前所未有的挑戰(zhàn)。特別是在企業(yè)入算、協(xié)同訓(xùn)練和推理這三個(gè)新興業(yè)務(wù)場(chǎng)景中,網(wǎng)絡(luò)的高運(yùn)力、彈性、可靠性、服務(wù)化能力、低時(shí)延和安全性等方面都面臨新的要求。
首先,在企業(yè)入算場(chǎng)景中,企業(yè)需要將大量樣本數(shù)據(jù)實(shí)時(shí)傳輸至智算中心,部分企業(yè)對(duì)敏感數(shù)據(jù)的安全性要求極高。為傳統(tǒng)廣域網(wǎng)基于流量類型的負(fù)載均衡算法較為粗放,無(wú)法有效識(shí)別和處理大數(shù)據(jù)流,且 RDMA對(duì)丟包極其敏感,傳統(tǒng)廣域網(wǎng)的可靠性難以保證。
其次,在推理場(chǎng)景中,中心推理成為流量集中地,邊緣推理中心也將大量出現(xiàn),而傳統(tǒng) IP網(wǎng)絡(luò)缺乏邊緣云中心及安全防護(hù)能力。
最后,在協(xié)同訓(xùn)練場(chǎng)景中,需要將 DCN擴(kuò)展到廣域網(wǎng)范圍,將算力卡之間的通訊距離擴(kuò)展到幾百甚至上千公里,這帶來(lái)了丟包、大數(shù)據(jù)流承載和突發(fā)大流量收斂等挑戰(zhàn)。
正是為了解決上述難題,華為推出的星河 AI智算廣域網(wǎng)解決方案,通過高運(yùn)力、泛在靈活接入、長(zhǎng)距無(wú)損和任務(wù)式服務(wù)的 IP網(wǎng)絡(luò)能力,為各行業(yè)提供高效、安全、無(wú)損的數(shù)據(jù)傳輸環(huán)境,為行業(yè)數(shù)智化轉(zhuǎn)型提供網(wǎng)絡(luò)支撐。
此前發(fā)布的《中國(guó)運(yùn)力發(fā)展報(bào)告( 2024年)》中指出:我國(guó)高度重視智算產(chǎn)業(yè)發(fā)展,堅(jiān)持“網(wǎng)絡(luò)強(qiáng)國(guó)”戰(zhàn)略,推動(dòng)算網(wǎng)協(xié)同布局,促進(jìn)前沿技術(shù)應(yīng)用,引導(dǎo)智算高質(zhì)量發(fā)展。無(wú)疑,智算時(shí)代才剛剛拉開序幕,在算網(wǎng)一體、以網(wǎng)強(qiáng)算的背景下,智算廣域網(wǎng)還將迎來(lái)更大的發(fā)展空間。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.