公眾號(hào)記得加星標(biāo)??,第一時(shí)間看推送不會(huì)錯(cuò)過。
來源 : 內(nèi)容 編譯自 hpcwire 。
如今,Nvidia 并不缺乏競(jìng)爭(zhēng)對(duì)手。其中之一就是韓國芯片初創(chuàng)公司 FuriosaAI,該公司憑借其獨(dú)特的張量收縮處理器 (TCP) 半導(dǎo)體架構(gòu)備受關(guān)注,該架構(gòu)是其全新 RNGD AI 加速卡的基礎(chǔ)。正如 FuriosaAI 的首席執(zhí)行官向HPCwire解釋的那樣,該公司正尋求通過 TCP 的高效設(shè)計(jì)來提升 AI 性能優(yōu)勢(shì)。
FuriosaAI由前三星和AMD工程師June Paik 于 2017 年在首爾創(chuàng)立,他預(yù)見到用于運(yùn)行深度學(xué)習(xí)工作負(fù)載的專用芯片市場(chǎng)正在興起。2021 年,該公司推出了第一代神經(jīng)處理單元 (NPU),由三星制造,采用 14 納米工藝。該芯片在 MLPerf 基準(zhǔn)測(cè)試中的良好表現(xiàn)令客戶興奮不已,其中包括韓國云計(jì)算集團(tuán) Kakao,該公司已將其用于計(jì)算機(jī)視覺 AI。
首席執(zhí)行官 Paik 在 2021 年看到了OpenAI使用 GPT-3 在大型語言模型 (LLM) 方面所做的工作,因此他的團(tuán)隊(duì)啟動(dòng)了一個(gè)為期三年的研發(fā)項(xiàng)目,開發(fā)其第二代芯片 RNGD(或“Renegade”),該芯片針對(duì)生成式 AI 和語言模型。RNGD 由臺(tái)積電采用 5nm 工藝制造,目前正在向客戶提供樣品。
每張 RNGD 卡配備 48GB HBM3 顯存,每秒 1.5 TB 的顯存帶寬,可提供 512 TFLOPS 的 FP8 性能,同時(shí)功耗最高僅為 180 瓦。據(jù) Paik 介紹,他的 PCIe 卡兼具性能、能效和可編程性的三重優(yōu)勢(shì),而這正是客戶一直以來難以通過基于 GPU 的解決方案實(shí)現(xiàn)的。
隨著公司致力于第三代設(shè)計(jì),它正在尋求推出基于其 RNGD 卡的完整系統(tǒng),例如 NXT RNGD 服務(wù)器。上周,F(xiàn)uriosaAI 宣布 NXT RNGD 服務(wù)器將配備八張 RNGD 卡,使其擁有總計(jì) 384 GB 的 HBM3 內(nèi)存、每秒 12 TB 的內(nèi)存帶寬,并在 3 kW 的熱設(shè)計(jì)功率 (TDP) 額定功率下提供 4 petaFLOPS 的 FP8 性能。
FuriosaAI 表示,其 RNGD 卡和系統(tǒng)與傳統(tǒng) GPU 和基于 GPU 的系統(tǒng)相比具有優(yōu)勢(shì)。Nvidia于 2022 年推出的Nvidia H100 GPU 并非 Nvidia 的最新 GPU,但它常用于 AI 推理,而這正是 FuriosaAI RNGD 和 NXT RNGD 服務(wù)器的目標(biāo)市場(chǎng)。
Nvidia H100 配備 80GB HBM2 顯存,提供每秒 2 TB 的顯存帶寬和 1513 TFLOPS 的峰值性能。PCIe 版本的 TDP 額定值為 350 瓦,使用 Nvidia 專有插槽擴(kuò)展模塊 (SXM) 的版本則高達(dá) 700 瓦。
據(jù) FuriosaAI 稱,在運(yùn)行大型語言模型和按每瓦計(jì)算時(shí),RNGD 的性能比 Nvidia 高出三倍。
Paik 表示,關(guān)鍵在于高效地提供高性能。要實(shí)現(xiàn)高性能和低功耗,不僅需要從零開始開發(fā)芯片和配套硬件,還需要從零開始開發(fā)軟件堆棧和編譯器。
“關(guān)鍵的創(chuàng)新在于基礎(chǔ)架構(gòu),它與通用 GPU 的傳統(tǒng)架構(gòu)截然不同,從一開始就與我們的編譯器和軟件堆棧共同設(shè)計(jì),”Paik 說道?!拔覀儧]有依賴 GPU 的矩陣乘法(這是一種低級(jí)的二維運(yùn)算),而是以張量收縮作為基本基元進(jìn)行構(gòu)建。張量收縮是深度學(xué)習(xí)的原生高級(jí)語言?!?/p>
FuriosaAI 首席技術(shù)官 Hanjoon Kim 在6 月份的一篇博客文章中寫道,張量收縮處理器 (TCP) 架構(gòu)的秘訣在于如何最大限度地減少數(shù)據(jù)移動(dòng)。
Kim 寫道: “對(duì)于所有芯片架構(gòu)(包括 CPU、GPU 和我們的 TCP 設(shè)計(jì)),在 DRAM 和芯片處理元件之間傳輸數(shù)據(jù) 比執(zhí)行計(jì)算本身消耗的能量要多得多(多達(dá)10,000 倍)?!?/p>
這意味著,為了高效地實(shí)現(xiàn)人工智能算法,芯片必須通過重用已存儲(chǔ)在片上存儲(chǔ)器中的數(shù)據(jù)來最大限度地減少數(shù)據(jù)移動(dòng)。如果數(shù)據(jù)可以被劃分為可預(yù)測(cè)、可重復(fù)的模式或片段,通常就可以多次使用(例如,通過采用單個(gè)權(quán)重矩陣并計(jì)算與多個(gè)不同輸入的點(diǎn)積)。
Paik 表示,TCP 架構(gòu)提高了抽象層,從而有助于克服傳統(tǒng) GPU 架構(gòu)中導(dǎo)致數(shù)據(jù)移動(dòng)浪費(fèi)的根本限制。
Paik 告訴我們:“我們?cè)O(shè)計(jì) RNGD 就是為了消除這種能耗。我們的內(nèi)部架構(gòu)采用電路交換提取網(wǎng)絡(luò),以確保靈活且高吞吐量的數(shù)據(jù)訪問,從而實(shí)現(xiàn)跨計(jì)算單元的廣泛數(shù)據(jù)重用。這種方法最大限度地減少了外部?jī)?nèi)存?zhèn)鬏?,最大限度地提高了利用率,并提供了可預(yù)測(cè)的性能?!?/p>
開發(fā)人員可以通過 PyTorch 的原生即時(shí)編譯器與 FuriosaAI 合作。該公司提供與 OpenAI 兼容的 API,用于部署和服務(wù)模型,并補(bǔ)充說,它支持 Kubernetes,是開源 vLLM 框架的直接替代品。Paik 表示:“對(duì)于要求絕對(duì)最低延遲的專業(yè)用戶,我們提供了一個(gè)低級(jí) API,允許開發(fā)人員直接在我們的硬件上優(yōu)化他們的專有模型。”
FuriosaAI 表示,其每瓦性能優(yōu)勢(shì)已使其獲得眾多客戶采用,其中包括 LG AI Research,該公司在其 EXAONE AI 模型上測(cè)試了該卡。該團(tuán)隊(duì)得出的結(jié)論是,與之前的 GPU 解決方案相比,RNGD 能夠在每個(gè)機(jī)架上提供約 3.5 倍的tokens。
Paik 表示:“由于大多數(shù)數(shù)據(jù)中心機(jī)架的功率限制在 15kW 以下,我們的低功耗技術(shù)是一項(xiàng)關(guān)鍵突破。這意味著客戶可以在標(biāo)準(zhǔn)機(jī)架中安裝更強(qiáng)大的計(jì)算能力,與高功率 H100 GPU 服務(wù)器相比,每個(gè)機(jī)架的tokens數(shù)量可增加約 3.5 倍。這種卓越的密度和效率可直接轉(zhuǎn)化為顯著的運(yùn)營成本節(jié)省和更低的總體擁有成本 (TCO)。
另一家測(cè)試 RNGD 的機(jī)構(gòu)是韓國的 OpenAI 團(tuán)隊(duì)。OpenAI 的 Danial Mirza 表示,他對(duì)最近的測(cè)試感到滿意。Mirza 在LinkedIn 的一篇帖子中寫道:“能夠與 FuriosaAI 才華橫溢的團(tuán)隊(duì)合作,將這個(gè)演示變?yōu)楝F(xiàn)實(shí),我深感榮幸。” “在我們首爾新辦公室的啟用儀式上,我們展示了在 Furiosa 旗艦 RNGD 加速器上實(shí)時(shí)運(yùn)行的 gpt-oss 120B 模型,這標(biāo)志著我們的模型首次在韓國芯片上運(yùn)行。這是一個(gè)重要的里程碑,展示了世界級(jí)人工智能與世界級(jí)硬件創(chuàng)新相遇時(shí)所能創(chuàng)造的奇跡?!?/p>
該公司的努力引起了云計(jì)算巨頭的關(guān)注。據(jù)《福布斯》報(bào)道,F(xiàn)acebook 母公司Meta在今年早些時(shí)候曾表示有意收購 FuriosaAI 。然而,這家在圣克拉拉設(shè)有辦事處的公司最終決定單干,并于 7 月底完成了 1.25 億美元的 C 輪過橋融資,使總?cè)谫Y額達(dá)到 2.46 億美元。
FuriosaAI 還進(jìn)行了一些人才招聘,包括聘請(qǐng)韓國科學(xué)技術(shù)院(KAIST ) 的并行系統(tǒng)專家 Jeehoon Kang 擔(dān)任首席研究官,領(lǐng)導(dǎo)編譯器和軟件研究。此外,該公司還聘請(qǐng)了硅片和 SoC 專家 Youngjin Cho,他曾擔(dān)任三星公司副總裁,現(xiàn)任硬件副總裁,將負(fù)責(zé)加速公司的芯片開發(fā)。
Paik 告訴我們:“我們目前專注于與全球少數(shù)重要的戰(zhàn)略客戶達(dá)成最終的設(shè)計(jì)協(xié)議,而不是優(yōu)先考慮產(chǎn)量。繼今年夏天完成 1.25 億美元的過橋融資后,我們正在加大 RNGD 的量產(chǎn)力度,以便在 2026 年初擴(kuò)大全球客戶參與度?!?/p>
https://www.hpcwire.com/2025/09/30/the-fast-and-the-furiosaai-korean-chip-startup-takes-aim-at-nvidia-gpus-with-tensor-contraction-architecture/
*免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn),不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持,如果有任何異議,歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。
今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4182期內(nèi)容,歡迎關(guān)注。
加星標(biāo)??第一時(shí)間看推送,小號(hào)防走丟
求推薦
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.