紅交 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
華為版本CUDA,全面開源開放!
最新消息,華為宣布為其昇騰AI GPU開源其CANN軟件工具包。
華為輪值董事長徐直軍在主題演講中強(qiáng)調(diào):華為AI戰(zhàn)略的核心是算力,并堅持昇騰硬件變現(xiàn)。
基于這一背景下,徐直軍在會上宣布華為昇騰硬件使能CANN全面開源開放,Mind系列應(yīng)用使能套件及工具鏈全面開源,支持用戶自主的深度挖潛和自定義開發(fā),加速廣大開發(fā)者的創(chuàng)新步伐,讓昇騰更好用、更易用。
CANN,神經(jīng)網(wǎng)絡(luò)計算架構(gòu),提供多層編程接口,幫助用戶構(gòu)建針對華為昇騰的AI應(yīng)用程序。
它是一個由多種技能棧和算子加速庫等組成的軟件生態(tài)系統(tǒng),換句話說,它就像是華為版本的CUDA,為GPU提供相同的接口。
巧合的是,同一天,一傳奇GPU大佬創(chuàng)業(yè)公司終于浮出水面,他們不搞消費(fèi)級GPU,而是做CUDA類似軟件生態(tài)系統(tǒng)。
看來,想要挑戰(zhàn)英偉達(dá)的玩家可真不少。
華為版CUDA全面開源
過去,開發(fā)者苦于CUDA封閉生態(tài)系統(tǒng)久矣。
除了英偉達(dá)自身硬件,CUDA幾乎不支持其他第三方,因此開發(fā)者如果想用CUDA來構(gòu)建軟件,就只能使用英偉達(dá)的GPU。這其實(shí)也構(gòu)成了英偉達(dá)的核心壁壘。
因?yàn)橐坏╅_發(fā)者想要遷移到其他產(chǎn)品。那么就需要重寫代碼,使用生態(tài)相對不成熟的替代庫,同時也會失去英偉達(dá)圍繞CUDA建立起來的龐大技術(shù)社區(qū)的支持。
之前有項目嘗試將CUDA功能(通過轉(zhuǎn)換層)引入其他 GPU供應(yīng)商,但由于英偉達(dá)阻攔,這些項目大多未能成功。2024年CUDA 11.6版開始,就禁止使用轉(zhuǎn)換層。
如今,在昇騰計算產(chǎn)業(yè)發(fā)展峰會上,華為宣布開源CANN架構(gòu),以及Mind系列應(yīng)用使能套件及工具鏈也跟著開源,那么開發(fā)者可以自主深度挖掘昇騰GPU的潛力。
目前CANN已經(jīng)升級到8.0版本,它主要提供兩個版本:社區(qū)版,提供新功能的早期體驗(yàn);商業(yè)版,提供專為企業(yè)用戶量身定制的穩(wěn)定版本。兩個版本都更新到了8.2.RC1版本,新增適配12款操作系統(tǒng)。
與CANN配套的,還有華為自研深度學(xué)習(xí)框架MindSpore,其作用類似于PyTorch,這些工具共同構(gòu)成了華為原生的AI軟硬件方案。
截至目前,CANN已支持包括PyTorch、MindSpore、TensorFlow、飛槳、ONNX、計圖、OpenCV和OpenMMLab等深度學(xué)習(xí)框架與第三方庫。
在會上,與會代表和華為還共同發(fā)起了《CANN開源開放生態(tài)共建倡議》。
看來在構(gòu)建開源開放的昇騰生態(tài)這件事兒上,華為已經(jīng)開始大力出手了。
傳奇GPU架構(gòu)師創(chuàng)業(yè),對標(biāo)英偉達(dá)CUDA
而挑戰(zhàn)英偉達(dá)CUDA生態(tài)的,業(yè)內(nèi)還有不少玩家。
比如就有一位傳奇GPU架構(gòu)師Raja Koduri,宣布創(chuàng)立了一家GPU初創(chuàng)公司Oxmiq Labs。
他曾效力于AMD、蘋果、英特爾等,曾在英特爾擔(dān)任加速計算系統(tǒng)和圖形(AXG)業(yè)務(wù)執(zhí)行副總裁。加入英特爾之前,他曾擔(dān)任AMD的圖形部門Radeon Technologies Group的高級副總裁兼首席架構(gòu)師。
而現(xiàn)在創(chuàng)立的這家公司專注于開發(fā)GPU硬件和軟件IP,并將其授權(quán)給各方。他將這家公司定位為硅谷25年以來第一家GPU初創(chuàng)公司。
不過他們不打造消費(fèi)級GPU,也不開發(fā)GPU所需的所有IP模塊,他們提供一個垂直集成平臺,該平臺將GPU硬件IP與功能齊全的軟件堆棧相結(jié)合,旨在滿足AI、圖形和多模態(tài)工作負(fù)載的需求,在這些工作負(fù)載中,顯式并行處理至關(guān)重要。
在硬件方面,Oxmiq提供了一個基于RISC-V指令集架構(gòu)(ISA)的GPU IP核OxCore,該核將標(biāo)量、矢量和張量計算引擎集成在一個模塊化架構(gòu)中,并支持近內(nèi)存和內(nèi)存計算功能。
Oxmiq還提供基于芯片集(chiplet)的系統(tǒng)級芯片(SoC)構(gòu)建器OxQuilt,使客戶能夠根據(jù)特定工作負(fù)載需求,快速且經(jīng)濟(jì)高效地創(chuàng)建集成計算集群橋接器(CCB,可能集成OxCores)、內(nèi)存集群橋接器(MCB)和互連集群橋接器(ICB)模塊的SoC。
例如,用于邊緣應(yīng)用的推理AI加速器可以封裝一個或兩個CCB和一個ICB,推理SoC則需要更多CCB、MCB和ICB,而用于AI訓(xùn)練的大規(guī)模SoC則可能封裝數(shù)十個芯片集。
Oxmiq尚未透露其OxQuilt是僅支持構(gòu)建多芯片集系統(tǒng)級封裝(SiP),還是也可用于組裝單片處理器。
不過他們的軟件業(yè)務(wù)似乎更為核心和關(guān)鍵。他們提供的軟件包可以兼容第三方的硬件,支持在各種硬件平臺上部署AI和圖形工作負(fù)載。
該軟件堆棧的核心是OXCapsule,這是一個統(tǒng)一的運(yùn)行時和調(diào)度層,用于管理工作負(fù)載分配、資源平衡和硬件抽象。
該堆棧的一個突出組件是OXPython,它是一個兼容層,將以CUDA為中心的工作負(fù)載轉(zhuǎn)換為Oxmiq的運(yùn)行時,并允許基于Python的CUDA應(yīng)用程序在非英偉達(dá)硬件上無需修改即可運(yùn)行,無需重新編譯。
OXPython最初不會在Oxmiq的IP上發(fā)布,而是在Tenstorrent的Wormhole和Blackhole AI加速器上發(fā)布。
事實(shí)上,Oxmiq的軟件堆棧從根本上設(shè)計為獨(dú)立于Oxmiq硬件,這是其戰(zhàn)略的核心部分。
不管最后結(jié)果如何,但競爭的號角已經(jīng)吹響,最終受益的究竟還是開發(fā)者。
參考鏈接:
[1]https://x.com/RajaXg/status/1952633159818060164
[2]https://www.tomshardware.com/tech-industry/artificial-intelligence/huawei-is-making-its-ascend-ai-gpu-software-toolkit-open-source-to-better-compete-against-cuda
[3]https://www.tomshardware.com/tech-industry/artificial-intelligence/legendary-gpu-architect-raja-koduris-new-startup-leverages-risc-v-and-targets-cuda-workloads-oxmiq-labs-supports-running-python-based-cuda-applications-unmodified-on-non-nvidia-hardware
[4]https://mp.weixin.qq.com/s/cK7REZ9_ToHPEq4iyWoRqA
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.