網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

一顆芯片，叫板英偉達(dá)

2025-10-02 09:18:54　來源: 半導(dǎo)體行業(yè)觀察

上海舉報(bào)

分享至

公眾號(hào)記得加星標(biāo)??，第一時(shí)間看推送不會(huì)錯(cuò)過。

來源：內(nèi)容編譯自 hpcwire 。

如今，Nvidia 并不缺乏競(jìng)爭(zhēng)對(duì)手。其中之一就是韓國芯片初創(chuàng)公司 FuriosaAI，該公司憑借其獨(dú)特的張量收縮處理器 (TCP) 半導(dǎo)體架構(gòu)備受關(guān)注，該架構(gòu)是其全新 RNGD AI 加速卡的基礎(chǔ)。正如 FuriosaAI 的首席執(zhí)行官向HPCwire解釋的那樣，該公司正尋求通過 TCP 的高效設(shè)計(jì)來提升 AI 性能優(yōu)勢(shì)。

FuriosaAI由前三星和AMD工程師June Paik 于 2017 年在首爾創(chuàng)立，他預(yù)見到用于運(yùn)行深度學(xué)習(xí)工作負(fù)載的專用芯片市場(chǎng)正在興起。2021 年，該公司推出了第一代神經(jīng)處理單元 (NPU)，由三星制造，采用 14 納米工藝。該芯片在 MLPerf 基準(zhǔn)測(cè)試中的良好表現(xiàn)令客戶興奮不已，其中包括韓國云計(jì)算集團(tuán) Kakao，該公司已將其用于計(jì)算機(jī)視覺 AI。

首席執(zhí)行官 Paik 在 2021 年看到了OpenAI使用 GPT-3 在大型語言模型 (LLM) 方面所做的工作，因此他的團(tuán)隊(duì)啟動(dòng)了一個(gè)為期三年的研發(fā)項(xiàng)目，開發(fā)其第二代芯片 RNGD（或“Renegade”），該芯片針對(duì)生成式 AI 和語言模型。RNGD 由臺(tái)積電采用 5nm 工藝制造，目前正在向客戶提供樣品。

每張 RNGD 卡配備 48GB HBM3 顯存，每秒 1.5 TB 的顯存帶寬，可提供 512 TFLOPS 的 FP8 性能，同時(shí)功耗最高僅為 180 瓦。據(jù) Paik 介紹，他的 PCIe 卡兼具性能、能效和可編程性的三重優(yōu)勢(shì)，而這正是客戶一直以來難以通過基于 GPU 的解決方案實(shí)現(xiàn)的。

隨著公司致力于第三代設(shè)計(jì)，它正在尋求推出基于其 RNGD 卡的完整系統(tǒng)，例如 NXT RNGD 服務(wù)器。上周，F(xiàn)uriosaAI 宣布 NXT RNGD 服務(wù)器將配備八張 RNGD 卡，使其擁有總計(jì) 384 GB 的 HBM3 內(nèi)存、每秒 12 TB 的內(nèi)存帶寬，并在 3 kW 的熱設(shè)計(jì)功率 (TDP) 額定功率下提供 4 petaFLOPS 的 FP8 性能。

FuriosaAI 表示，其 RNGD 卡和系統(tǒng)與傳統(tǒng) GPU 和基于 GPU 的系統(tǒng)相比具有優(yōu)勢(shì)。Nvidia于 2022 年推出的Nvidia H100 GPU 并非 Nvidia 的最新 GPU，但它常用于 AI 推理，而這正是 FuriosaAI RNGD 和 NXT RNGD 服務(wù)器的目標(biāo)市場(chǎng)。

Nvidia H100 配備 80GB HBM2 顯存，提供每秒 2 TB 的顯存帶寬和 1513 TFLOPS 的峰值性能。PCIe 版本的 TDP 額定值為 350 瓦，使用 Nvidia 專有插槽擴(kuò)展模塊 (SXM) 的版本則高達(dá) 700 瓦。

據(jù) FuriosaAI 稱，在運(yùn)行大型語言模型和按每瓦計(jì)算時(shí)，RNGD 的性能比 Nvidia 高出三倍。

Paik 表示，關(guān)鍵在于高效地提供高性能。要實(shí)現(xiàn)高性能和低功耗，不僅需要從零開始開發(fā)芯片和配套硬件，還需要從零開始開發(fā)軟件堆棧和編譯器。

“關(guān)鍵的創(chuàng)新在于基礎(chǔ)架構(gòu)，它與通用 GPU 的傳統(tǒng)架構(gòu)截然不同，從一開始就與我們的編譯器和軟件堆棧共同設(shè)計(jì)，”Paik 說道?！拔覀儧]有依賴 GPU 的矩陣乘法（這是一種低級(jí)的二維運(yùn)算），而是以張量收縮作為基本基元進(jìn)行構(gòu)建。張量收縮是深度學(xué)習(xí)的原生高級(jí)語言?！?/p>

FuriosaAI 首席技術(shù)官 Hanjoon Kim 在6 月份的一篇博客文章中寫道，張量收縮處理器 (TCP) 架構(gòu)的秘訣在于如何最大限度地減少數(shù)據(jù)移動(dòng)。

Kim 寫道： “對(duì)于所有芯片架構(gòu)（包括 CPU、GPU 和我們的 TCP 設(shè)計(jì)），在 DRAM 和芯片處理元件之間傳輸數(shù)據(jù) 比執(zhí)行計(jì)算本身消耗的能量要多得多（多達(dá)10,000 倍）?！?/p>

這意味著，為了高效地實(shí)現(xiàn)人工智能算法，芯片必須通過重用已存儲(chǔ)在片上存儲(chǔ)器中的數(shù)據(jù)來最大限度地減少數(shù)據(jù)移動(dòng)。如果數(shù)據(jù)可以被劃分為可預(yù)測(cè)、可重復(fù)的模式或片段，通常就可以多次使用（例如，通過采用單個(gè)權(quán)重矩陣并計(jì)算與多個(gè)不同輸入的點(diǎn)積）。

Paik 表示，TCP 架構(gòu)提高了抽象層，從而有助于克服傳統(tǒng) GPU 架構(gòu)中導(dǎo)致數(shù)據(jù)移動(dòng)浪費(fèi)的根本限制。

Paik 告訴我們：“我們?cè)O(shè)計(jì) RNGD 就是為了消除這種能耗。我們的內(nèi)部架構(gòu)采用電路交換提取網(wǎng)絡(luò)，以確保靈活且高吞吐量的數(shù)據(jù)訪問，從而實(shí)現(xiàn)跨計(jì)算單元的廣泛數(shù)據(jù)重用。這種方法最大限度地減少了外部?jī)?nèi)存?zhèn)鬏?，最大限度地提高了利用率，并提供了可預(yù)測(cè)的性能?！?/p>

開發(fā)人員可以通過 PyTorch 的原生即時(shí)編譯器與 FuriosaAI 合作。該公司提供與 OpenAI 兼容的 API，用于部署和服務(wù)模型，并補(bǔ)充說，它支持 Kubernetes，是開源 vLLM 框架的直接替代品。Paik 表示：“對(duì)于要求絕對(duì)最低延遲的專業(yè)用戶，我們提供了一個(gè)低級(jí) API，允許開發(fā)人員直接在我們的硬件上優(yōu)化他們的專有模型。”

FuriosaAI 表示，其每瓦性能優(yōu)勢(shì)已使其獲得眾多客戶采用，其中包括 LG AI Research，該公司在其 EXAONE AI 模型上測(cè)試了該卡。該團(tuán)隊(duì)得出的結(jié)論是，與之前的 GPU 解決方案相比，RNGD 能夠在每個(gè)機(jī)架上提供約 3.5 倍的tokens。

Paik 表示：“由于大多數(shù)數(shù)據(jù)中心機(jī)架的功率限制在 15kW 以下，我們的低功耗技術(shù)是一項(xiàng)關(guān)鍵突破。這意味著客戶可以在標(biāo)準(zhǔn)機(jī)架中安裝更強(qiáng)大的計(jì)算能力，與高功率 H100 GPU 服務(wù)器相比，每個(gè)機(jī)架的tokens數(shù)量可增加約 3.5 倍。這種卓越的密度和效率可直接轉(zhuǎn)化為顯著的運(yùn)營成本節(jié)省和更低的總體擁有成本 (TCO)。

另一家測(cè)試 RNGD 的機(jī)構(gòu)是韓國的 OpenAI 團(tuán)隊(duì)。OpenAI 的 Danial Mirza 表示，他對(duì)最近的測(cè)試感到滿意。Mirza 在LinkedIn 的一篇帖子中寫道：“能夠與 FuriosaAI 才華橫溢的團(tuán)隊(duì)合作，將這個(gè)演示變?yōu)楝F(xiàn)實(shí)，我深感榮幸。” “在我們首爾新辦公室的啟用儀式上，我們展示了在 Furiosa 旗艦 RNGD 加速器上實(shí)時(shí)運(yùn)行的 gpt-oss 120B 模型，這標(biāo)志著我們的模型首次在韓國芯片上運(yùn)行。這是一個(gè)重要的里程碑，展示了世界級(jí)人工智能與世界級(jí)硬件創(chuàng)新相遇時(shí)所能創(chuàng)造的奇跡?！?/p>

該公司的努力引起了云計(jì)算巨頭的關(guān)注。據(jù)《福布斯》報(bào)道，F(xiàn)acebook 母公司Meta在今年早些時(shí)候曾表示有意收購 FuriosaAI 。然而，這家在圣克拉拉設(shè)有辦事處的公司最終決定單干，并于 7 月底完成了 1.25 億美元的 C 輪過橋融資，使總?cè)谫Y額達(dá)到 2.46 億美元。

FuriosaAI 還進(jìn)行了一些人才招聘，包括聘請(qǐng)韓國科學(xué)技術(shù)院(KAIST ) 的并行系統(tǒng)專家 Jeehoon Kang 擔(dān)任首席研究官，領(lǐng)導(dǎo)編譯器和軟件研究。此外，該公司還聘請(qǐng)了硅片和 SoC 專家 Youngjin Cho，他曾擔(dān)任三星公司副總裁，現(xiàn)任硬件副總裁，將負(fù)責(zé)加速公司的芯片開發(fā)。

Paik 告訴我們：“我們目前專注于與全球少數(shù)重要的戰(zhàn)略客戶達(dá)成最終的設(shè)計(jì)協(xié)議，而不是優(yōu)先考慮產(chǎn)量。繼今年夏天完成 1.25 億美元的過橋融資后，我們正在加大 RNGD 的量產(chǎn)力度，以便在 2026 年初擴(kuò)大全球客戶參與度?！?/p>

https://www.hpcwire.com/2025/09/30/the-fast-and-the-furiosaai-korean-chip-startup-takes-aim-at-nvidia-gpus-with-tensor-contraction-architecture/

*免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn)，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn)，不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4182期內(nèi)容，歡迎關(guān)注。

加星標(biāo)??第一時(shí)間看推送，小號(hào)防走丟

求推薦

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.