網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

甲骨文推出全球最大AI超算，作為OpenAI「星際之門」算力核心

2025-10-20 20:08:46　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：艾倫

【新智元導(dǎo)讀】甲骨文于上周發(fā)布全球最大云端AI超級(jí)計(jì)算機(jī)「OCI Zettascale10」，由80萬(wàn)塊NVIDIA GPU組成，峰值算力高達(dá)16 ZettaFLOPS，成為OpenAI「星際之門」集群的算力核心。其獨(dú)創(chuàng)Acceleron RoCE網(wǎng)絡(luò)實(shí)現(xiàn)GPU間高效互聯(lián)，顯著提升性能與能效。該系統(tǒng)象征甲骨文在AI基礎(chǔ)設(shè)施競(jìng)爭(zhēng)中的強(qiáng)勢(shì)布局。

甲骨文在2025年AI World大會(huì)上發(fā)布OCI Zettascale10超級(jí)集群。

在拉斯維加斯舉辦的AI World 2025大會(huì)上，甲骨文高調(diào)推出了一臺(tái)號(hào)稱全球最大規(guī)模的云端AI超級(jí)計(jì)算機(jī)——OCI Zettascale10。

這個(gè)龐然大物橫跨多個(gè)數(shù)據(jù)中心，由多達(dá)80萬(wàn)塊NVIDIA GPU芯片構(gòu)成，峰值計(jì)算性能被宣稱可達(dá)驚人的16 ZettaFLOPS（即每秒1021次以上浮點(diǎn)運(yùn)算）。

如此天文數(shù)字意味著平均每塊GPU可貢獻(xiàn)約20 PetaFLOPS算力，接近英偉達(dá)最新一代Grace Hopper（Blackwell架構(gòu)GB300）芯片的水平。

甲骨文此舉無(wú)疑是在急速升溫的AI算力軍備競(jìng)賽中放出「大招」，試圖在云端AI基礎(chǔ)設(shè)施版圖上占據(jù)一席之地。

OpenAI巨型集群的動(dòng)力之源

這套Zettascale10系統(tǒng)已經(jīng)成為OpenAI龐大算力需求的幕后功臣。

據(jù)悉，甲骨文與OpenAI在德州阿比林（Abilene）共建了「星際之門」旗艦AI超級(jí)計(jì)算集群，而OCI Zettascale10正是其算力骨干。

OpenAI基礎(chǔ)設(shè)施部門副總裁Peter Hoeschele表示，甲骨文定制的RoCE高速網(wǎng)絡(luò)架構(gòu)在「千兆瓦級(jí)」規(guī)模下最大化了整體性能，同時(shí)將大部分能耗都用在了計(jì)算上。

換言之，甲骨文研發(fā)的這套R(shí)DMA over Converged Ethernet網(wǎng)絡(luò)（代號(hào)Acceleron）將海量GPU緊密連接成一個(gè)整體，使得OpenAI的大模型訓(xùn)練能夠在如此龐大的芯片陣列上高效運(yùn)轉(zhuǎn)。

正因有了與OpenAI的深度合作背書，Zettascale10一亮相便自帶「實(shí)戰(zhàn)」光環(huán)，它已經(jīng)在為當(dāng)今業(yè)界最嚴(yán)苛的一些AI工作負(fù)載提供動(dòng)力。

Acceleron網(wǎng)絡(luò)架構(gòu)揭秘

如此規(guī)模的GPU「巨陣」要高效運(yùn)轉(zhuǎn)，奧秘就在于甲骨文獨(dú)創(chuàng)的Acceleron RoCE網(wǎng)絡(luò)架構(gòu)。

簡(jiǎn)單來(lái)說，Acceleron讓每塊GPU的網(wǎng)絡(luò)接口卡（NIC）都充當(dāng)一個(gè)小型交換機(jī)，一次可連接到多個(gè)隔離的網(wǎng)絡(luò)交換平面。

這種多平面、扁平化的網(wǎng)絡(luò)設(shè)計(jì)大幅降低了GPU之間的通信延遲，并確保即使某一路由出現(xiàn)故障時(shí)，訓(xùn)練作業(yè)也能自動(dòng)切換到其它路徑繼續(xù)運(yùn)行，不至于被迫中斷。

相比傳統(tǒng)三級(jí)交換結(jié)構(gòu)，Acceleron減少了網(wǎng)絡(luò)層級(jí)，使GPU對(duì)GPU的直連延遲更加一致，整體性能更具可預(yù)測(cè)性。

此外，該架構(gòu)引入了線性可插拔光學(xué)模塊（LPO）和線性接收光學(xué)組件（LRO）等新技術(shù)，在不降低400G/800G帶寬的前提下削減了網(wǎng)絡(luò)的能耗與冷卻成本。

甲骨文稱這種創(chuàng)新網(wǎng)絡(luò)既提高了效率又降低了成本，讓客戶可以用更少的電力完成同樣的AI訓(xùn)練任務(wù)；

NVIDIA公司高管Ian Buck也認(rèn)可道，正是這種全棧優(yōu)化的「計(jì)算結(jié)構(gòu)」（compute fabric）提供了將AI從實(shí)驗(yàn)推進(jìn)到工業(yè)化所需的基礎(chǔ)。

峰值神話與現(xiàn)實(shí)考驗(yàn)

甲骨文計(jì)劃在2026年下半年正式向客戶提供Zettascale10集群服務(wù)，目前這一系統(tǒng)已開始接受預(yù)訂。

然而，對(duì)于16 ZFLOPS的驚人算力，不少業(yè)內(nèi)觀察者持保留態(tài)度。

該數(shù)據(jù)尚未經(jīng)獨(dú)立機(jī)構(gòu)驗(yàn)證，而且很可能是基于理論峰值算力而非持續(xù)實(shí)效得出。

據(jù)業(yè)內(nèi)報(bào)道，甲骨文宣稱的16 ZFLOPS有可能利用了極低精度的AI計(jì)算指標(biāo)（例如FP8甚至4比特稀疏運(yùn)算）來(lái)實(shí)現(xiàn)。

實(shí)際的大模型訓(xùn)練通常需要使用更高精度（如BF16或FP8）的數(shù)值格式以保證模型收斂效果，因此16 ZFLOPS這個(gè)數(shù)字更多體現(xiàn)了甲骨文硬件在理想情況下的上限潛力，而非日常工作負(fù)載下可持續(xù)交付的性能。

這臺(tái)「云端巨無(wú)霸」真正的實(shí)戰(zhàn)表現(xiàn)還有待時(shí)間檢驗(yàn)，只有等到系統(tǒng)明年投入使用，各種基準(zhǔn)測(cè)試與用戶實(shí)際反饋才能揭曉它能否如宣稱般高效且可靠。

云端AI競(jìng)賽的挑戰(zhàn)與展望

甲骨文并非孤軍奮戰(zhàn)。

當(dāng)前，微軟、谷歌、亞馬遜等云計(jì)算巨頭也在爭(zhēng)相構(gòu)建各自的大規(guī)模AI集群，它們或采購(gòu)海量GPU，或研發(fā)自家AI加速硬件，云端AI算力版圖正迅速擴(kuò)張。

甲骨文此次押下重注推出Zettascale10，一方面鞏固了與OpenAI的戰(zhàn)略聯(lián)盟，另一方面也是向業(yè)界宣示其在AI時(shí)代不容忽視的新實(shí)力。

然而在市場(chǎng)前景上，甲骨文依然面臨如何吸引客戶的問題。

為此，該公司還發(fā)布了新的「多云通用積分」計(jì)劃，允許運(yùn)營(yíng)商用統(tǒng)一的預(yù)付積分在甲骨文云及AWS、Azure、Google等多家云服務(wù)間自由調(diào)配甲骨文數(shù)據(jù)庫(kù)和OCI服務(wù)。

這項(xiàng)舉措旨在降低客戶遷移門檻、提高平臺(tái)黏性，為甲骨文云生態(tài)爭(zhēng)取更大的用戶基礎(chǔ)。

OCI Zettascale10的出現(xiàn)展示了云服務(wù)商為滿足AI空前算力需求所做的大膽探索。

等到明年這套系統(tǒng)真正落地，我們才能知道甲骨文能否憑借這一云端「巨無(wú)霸」在激烈的AI基礎(chǔ)設(shè)施競(jìng)賽中搶得先機(jī)，并兌現(xiàn)其關(guān)于高效、規(guī)模和可靠性的承諾。

參考資料：

https://www.oracle.com/news/announcement/ai-world-oracle-unveils-next-generation-oci-zettascale10-cluster-for-ai-2025-10-14/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.