網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

華為版CUDA，全面開源了

2025-08-06 16:44:50　來源: 量子位

北京舉報

分享至

紅交發(fā)自凹非寺
量子位 | 公眾號 QbitAI

華為版本CUDA，全面開源開放！

最新消息，華為宣布為其昇騰AI GPU開源其CANN軟件工具包。

華為輪值董事長徐直軍在主題演講中強(qiáng)調(diào)：華為AI戰(zhàn)略的核心是算力，并堅持昇騰硬件變現(xiàn)。

基于這一背景下，徐直軍在會上宣布華為昇騰硬件使能CANN全面開源開放，Mind系列應(yīng)用使能套件及工具鏈全面開源，支持用戶自主的深度挖潛和自定義開發(fā)，加速廣大開發(fā)者的創(chuàng)新步伐，讓昇騰更好用、更易用。

CANN，神經(jīng)網(wǎng)絡(luò)計算架構(gòu)，提供多層編程接口，幫助用戶構(gòu)建針對華為昇騰的AI應(yīng)用程序。

它是一個由多種技能棧和算子加速庫等組成的軟件生態(tài)系統(tǒng)，換句話說，它就像是華為版本的CUDA，為GPU提供相同的接口。

巧合的是，同一天，一傳奇GPU大佬創(chuàng)業(yè)公司終于浮出水面，他們不搞消費(fèi)級GPU，而是做CUDA類似軟件生態(tài)系統(tǒng)。

看來，想要挑戰(zhàn)英偉達(dá)的玩家可真不少。

華為版CUDA全面開源

過去，開發(fā)者苦于CUDA封閉生態(tài)系統(tǒng)久矣。

除了英偉達(dá)自身硬件，CUDA幾乎不支持其他第三方，因此開發(fā)者如果想用CUDA來構(gòu)建軟件，就只能使用英偉達(dá)的GPU。這其實(shí)也構(gòu)成了英偉達(dá)的核心壁壘。

因?yàn)橐坏╅_發(fā)者想要遷移到其他產(chǎn)品。那么就需要重寫代碼，使用生態(tài)相對不成熟的替代庫，同時也會失去英偉達(dá)圍繞CUDA建立起來的龐大技術(shù)社區(qū)的支持。

之前有項目嘗試將CUDA功能（通過轉(zhuǎn)換層）引入其他 GPU供應(yīng)商，但由于英偉達(dá)阻攔，這些項目大多未能成功。2024年CUDA 11.6版開始，就禁止使用轉(zhuǎn)換層。

如今，在昇騰計算產(chǎn)業(yè)發(fā)展峰會上，華為宣布開源CANN架構(gòu)，以及Mind系列應(yīng)用使能套件及工具鏈也跟著開源，那么開發(fā)者可以自主深度挖掘昇騰GPU的潛力。

目前CANN已經(jīng)升級到8.0版本，它主要提供兩個版本：社區(qū)版，提供新功能的早期體驗(yàn)；商業(yè)版，提供專為企業(yè)用戶量身定制的穩(wěn)定版本。兩個版本都更新到了8.2.RC1版本，新增適配12款操作系統(tǒng)。

與CANN配套的，還有華為自研深度學(xué)習(xí)框架MindSpore，其作用類似于PyTorch，這些工具共同構(gòu)成了華為原生的AI軟硬件方案。

截至目前，CANN已支持包括PyTorch、MindSpore、TensorFlow、飛槳、ONNX、計圖、OpenCV和OpenMMLab等深度學(xué)習(xí)框架與第三方庫。

在會上，與會代表和華為還共同發(fā)起了《CANN開源開放生態(tài)共建倡議》。

看來在構(gòu)建開源開放的昇騰生態(tài)這件事兒上，華為已經(jīng)開始大力出手了。

傳奇GPU架構(gòu)師創(chuàng)業(yè)，對標(biāo)英偉達(dá)CUDA

而挑戰(zhàn)英偉達(dá)CUDA生態(tài)的，業(yè)內(nèi)還有不少玩家。

比如就有一位傳奇GPU架構(gòu)師Raja Koduri，宣布創(chuàng)立了一家GPU初創(chuàng)公司Oxmiq Labs。

他曾效力于AMD、蘋果、英特爾等，曾在英特爾擔(dān)任加速計算系統(tǒng)和圖形（AXG）業(yè)務(wù)執(zhí)行副總裁。加入英特爾之前，他曾擔(dān)任AMD的圖形部門Radeon Technologies Group的高級副總裁兼首席架構(gòu)師。

而現(xiàn)在創(chuàng)立的這家公司專注于開發(fā)GPU硬件和軟件IP，并將其授權(quán)給各方。他將這家公司定位為硅谷25年以來第一家GPU初創(chuàng)公司。

不過他們不打造消費(fèi)級GPU，也不開發(fā)GPU所需的所有IP模塊，他們提供一個垂直集成平臺，該平臺將GPU硬件IP與功能齊全的軟件堆棧相結(jié)合，旨在滿足AI、圖形和多模態(tài)工作負(fù)載的需求，在這些工作負(fù)載中，顯式并行處理至關(guān)重要。

在硬件方面，Oxmiq提供了一個基于RISC-V指令集架構(gòu)(ISA)的GPU IP核OxCore，該核將標(biāo)量、矢量和張量計算引擎集成在一個模塊化架構(gòu)中，并支持近內(nèi)存和內(nèi)存計算功能。

Oxmiq還提供基于芯片集(chiplet)的系統(tǒng)級芯片(SoC)構(gòu)建器OxQuilt，使客戶能夠根據(jù)特定工作負(fù)載需求，快速且經(jīng)濟(jì)高效地創(chuàng)建集成計算集群橋接器（CCB，可能集成OxCores）、內(nèi)存集群橋接器(MCB)和互連集群橋接器(ICB)模塊的SoC。

例如，用于邊緣應(yīng)用的推理AI加速器可以封裝一個或兩個CCB和一個ICB，推理SoC則需要更多CCB、MCB和ICB，而用于AI訓(xùn)練的大規(guī)模SoC則可能封裝數(shù)十個芯片集。

Oxmiq尚未透露其OxQuilt是僅支持構(gòu)建多芯片集系統(tǒng)級封裝(SiP)，還是也可用于組裝單片處理器。

不過他們的軟件業(yè)務(wù)似乎更為核心和關(guān)鍵。他們提供的軟件包可以兼容第三方的硬件，支持在各種硬件平臺上部署AI和圖形工作負(fù)載。

該軟件堆棧的核心是OXCapsule，這是一個統(tǒng)一的運(yùn)行時和調(diào)度層，用于管理工作負(fù)載分配、資源平衡和硬件抽象。

該堆棧的一個突出組件是OXPython，它是一個兼容層，將以CUDA為中心的工作負(fù)載轉(zhuǎn)換為Oxmiq的運(yùn)行時，并允許基于Python的CUDA應(yīng)用程序在非英偉達(dá)硬件上無需修改即可運(yùn)行，無需重新編譯。

OXPython最初不會在Oxmiq的IP上發(fā)布，而是在Tenstorrent的Wormhole和Blackhole AI加速器上發(fā)布。

事實(shí)上，Oxmiq的軟件堆棧從根本上設(shè)計為獨(dú)立于Oxmiq硬件，這是其戰(zhàn)略的核心部分。

不管最后結(jié)果如何，但競爭的號角已經(jīng)吹響，最終受益的究竟還是開發(fā)者。

參考鏈接：
[1]https://x.com/RajaXg/status/1952633159818060164
[2]https://www.tomshardware.com/tech-industry/artificial-intelligence/huawei-is-making-its-ascend-ai-gpu-software-toolkit-open-source-to-better-compete-against-cuda
[3]https://www.tomshardware.com/tech-industry/artificial-intelligence/legendary-gpu-architect-raja-koduris-new-startup-leverages-risc-v-and-targets-cuda-workloads-oxmiq-labs-supports-running-python-based-cuda-applications-unmodified-on-non-nvidia-hardware
[4]https://mp.weixin.qq.com/s/cK7REZ9_ToHPEq4iyWoRqA

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.