新智元報(bào)道
編輯:艾倫
【新智元導(dǎo)讀】甲骨文于上周發(fā)布全球最大云端AI超級(jí)計(jì)算機(jī)「OCI Zettascale10」,由80萬(wàn)塊NVIDIA GPU組成,峰值算力高達(dá)16 ZettaFLOPS,成為OpenAI「星際之門」集群的算力核心。其獨(dú)創(chuàng)Acceleron RoCE網(wǎng)絡(luò)實(shí)現(xiàn)GPU間高效互聯(lián),顯著提升性能與能效。該系統(tǒng)象征甲骨文在AI基礎(chǔ)設(shè)施競(jìng)爭(zhēng)中的強(qiáng)勢(shì)布局。
甲骨文在2025年AI World大會(huì)上發(fā)布OCI Zettascale10超級(jí)集群。
在拉斯維加斯舉辦的AI World 2025大會(huì)上,甲骨文高調(diào)推出了一臺(tái)號(hào)稱全球最大規(guī)模的云端AI超級(jí)計(jì)算機(jī)——OCI Zettascale10。
這個(gè)龐然大物橫跨多個(gè)數(shù)據(jù)中心,由多達(dá)80萬(wàn)塊NVIDIA GPU芯片構(gòu)成,峰值計(jì)算性能被宣稱可達(dá)驚人的16 ZettaFLOPS(即每秒1021次以上浮點(diǎn)運(yùn)算)。
如此天文數(shù)字意味著平均每塊GPU可貢獻(xiàn)約20 PetaFLOPS算力,接近英偉達(dá)最新一代Grace Hopper(Blackwell架構(gòu)GB300)芯片的水平。
甲骨文此舉無(wú)疑是在急速升溫的AI算力軍備競(jìng)賽中放出「大招」,試圖在云端AI基礎(chǔ)設(shè)施版圖上占據(jù)一席之地。
OpenAI巨型集群的動(dòng)力之源
這套Zettascale10系統(tǒng)已經(jīng)成為OpenAI龐大算力需求的幕后功臣。
據(jù)悉,甲骨文與OpenAI在德州阿比林(Abilene)共建了「星際之門」旗艦AI超級(jí)計(jì)算集群,而OCI Zettascale10正是其算力骨干。
OpenAI基礎(chǔ)設(shè)施部門副總裁Peter Hoeschele表示,甲骨文定制的RoCE高速網(wǎng)絡(luò)架構(gòu)在「千兆瓦級(jí)」規(guī)模下最大化了整體性能,同時(shí)將大部分能耗都用在了計(jì)算上。
換言之,甲骨文研發(fā)的這套R(shí)DMA over Converged Ethernet網(wǎng)絡(luò)(代號(hào)Acceleron)將海量GPU緊密連接成一個(gè)整體,使得OpenAI的大模型訓(xùn)練能夠在如此龐大的芯片陣列上高效運(yùn)轉(zhuǎn)。
正因有了與OpenAI的深度合作背書,Zettascale10一亮相便自帶「實(shí)戰(zhàn)」光環(huán),它已經(jīng)在為當(dāng)今業(yè)界最嚴(yán)苛的一些AI工作負(fù)載提供動(dòng)力。
Acceleron網(wǎng)絡(luò)架構(gòu)揭秘
如此規(guī)模的GPU「巨陣」要高效運(yùn)轉(zhuǎn),奧秘就在于甲骨文獨(dú)創(chuàng)的Acceleron RoCE網(wǎng)絡(luò)架構(gòu)。
簡(jiǎn)單來(lái)說,Acceleron讓每塊GPU的網(wǎng)絡(luò)接口卡(NIC)都充當(dāng)一個(gè)小型交換機(jī),一次可連接到多個(gè)隔離的網(wǎng)絡(luò)交換平面。
這種多平面、扁平化的網(wǎng)絡(luò)設(shè)計(jì)大幅降低了GPU之間的通信延遲,并確保即使某一路由出現(xiàn)故障時(shí),訓(xùn)練作業(yè)也能自動(dòng)切換到其它路徑繼續(xù)運(yùn)行,不至于被迫中斷。
相比傳統(tǒng)三級(jí)交換結(jié)構(gòu),Acceleron減少了網(wǎng)絡(luò)層級(jí),使GPU對(duì)GPU的直連延遲更加一致,整體性能更具可預(yù)測(cè)性。
此外,該架構(gòu)引入了線性可插拔光學(xué)模塊(LPO)和線性接收光學(xué)組件(LRO)等新技術(shù),在不降低400G/800G帶寬的前提下削減了網(wǎng)絡(luò)的能耗與冷卻成本。
甲骨文稱這種創(chuàng)新網(wǎng)絡(luò)既提高了效率又降低了成本,讓客戶可以用更少的電力完成同樣的AI訓(xùn)練任務(wù);
NVIDIA公司高管Ian Buck也認(rèn)可道,正是這種全棧優(yōu)化的「計(jì)算結(jié)構(gòu)」(compute fabric)提供了將AI從實(shí)驗(yàn)推進(jìn)到工業(yè)化所需的基礎(chǔ)。
峰值神話與現(xiàn)實(shí)考驗(yàn)
甲骨文計(jì)劃在2026年下半年正式向客戶提供Zettascale10集群服務(wù),目前這一系統(tǒng)已開始接受預(yù)訂。
然而,對(duì)于16 ZFLOPS的驚人算力,不少業(yè)內(nèi)觀察者持保留態(tài)度。
該數(shù)據(jù)尚未經(jīng)獨(dú)立機(jī)構(gòu)驗(yàn)證,而且很可能是基于理論峰值算力而非持續(xù)實(shí)效得出。
據(jù)業(yè)內(nèi)報(bào)道,甲骨文宣稱的16 ZFLOPS有可能利用了極低精度的AI計(jì)算指標(biāo)(例如FP8甚至4比特稀疏運(yùn)算)來(lái)實(shí)現(xiàn)。
實(shí)際的大模型訓(xùn)練通常需要使用更高精度(如BF16或FP8)的數(shù)值格式以保證模型收斂效果,因此16 ZFLOPS這個(gè)數(shù)字更多體現(xiàn)了甲骨文硬件在理想情況下的上限潛力,而非日常工作負(fù)載下可持續(xù)交付的性能。
這臺(tái)「云端巨無(wú)霸」真正的實(shí)戰(zhàn)表現(xiàn)還有待時(shí)間檢驗(yàn),只有等到系統(tǒng)明年投入使用,各種基準(zhǔn)測(cè)試與用戶實(shí)際反饋才能揭曉它能否如宣稱般高效且可靠。
云端AI競(jìng)賽的挑戰(zhàn)與展望
甲骨文并非孤軍奮戰(zhàn)。
當(dāng)前,微軟、谷歌、亞馬遜等云計(jì)算巨頭也在爭(zhēng)相構(gòu)建各自的大規(guī)模AI集群,它們或采購(gòu)海量GPU,或研發(fā)自家AI加速硬件,云端AI算力版圖正迅速擴(kuò)張。
甲骨文此次押下重注推出Zettascale10,一方面鞏固了與OpenAI的戰(zhàn)略聯(lián)盟,另一方面也是向業(yè)界宣示其在AI時(shí)代不容忽視的新實(shí)力。
然而在市場(chǎng)前景上,甲骨文依然面臨如何吸引客戶的問題。
為此,該公司還發(fā)布了新的「多云通用積分」計(jì)劃,允許運(yùn)營(yíng)商用統(tǒng)一的預(yù)付積分在甲骨文云及AWS、Azure、Google等多家云服務(wù)間自由調(diào)配甲骨文數(shù)據(jù)庫(kù)和OCI服務(wù)。
這項(xiàng)舉措旨在降低客戶遷移門檻、提高平臺(tái)黏性,為甲骨文云生態(tài)爭(zhēng)取更大的用戶基礎(chǔ)。
OCI Zettascale10的出現(xiàn)展示了云服務(wù)商為滿足AI空前算力需求所做的大膽探索。
等到明年這套系統(tǒng)真正落地,我們才能知道甲骨文能否憑借這一云端「巨無(wú)霸」在激烈的AI基礎(chǔ)設(shè)施競(jìng)賽中搶得先機(jī),并兌現(xiàn)其關(guān)于高效、規(guī)模和可靠性的承諾。
參考資料:
https://www.oracle.com/news/announcement/ai-world-oracle-unveils-next-generation-oci-zettascale10-cluster-for-ai-2025-10-14/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.