從模型到芯片:國(guó)產(chǎn)AI生態(tài)閉環(huán)初現(xiàn)TileLang:從“高門(mén)檻”到“平民化”的跨越
當(dāng)市場(chǎng)目光聚焦于DeepSeek帶來(lái)的API價(jià)格腰斬時(shí),一個(gè)隱藏在公告中的技術(shù)細(xì)節(jié)——“編程語(yǔ)言TileLang”,正在打開(kāi)一扇新的大門(mén)。
9月29日,深度求索(DeepSeek)公告正式發(fā)布V3.2-Exp模型(實(shí)驗(yàn)性版本),大幅提升了長(zhǎng)文本處理效率,并宣布API調(diào)用成本降低50%以上。在這篇公告中,有這樣一段表述:
- 我們使用高級(jí)語(yǔ)言TileLang進(jìn)行快速原型開(kāi)發(fā),以支持更深入的探索。
這句話看似技術(shù)細(xì)節(jié),卻可能成為國(guó)產(chǎn)算力生態(tài)建設(shè)的關(guān)鍵支點(diǎn),其也迅速引發(fā)了產(chǎn)業(yè)鏈的連鎖反應(yīng)。
民生證券最新報(bào)告指出,同日華為昇騰、寒武紀(jì)等國(guó)產(chǎn)芯片廠商宣布實(shí)現(xiàn)了對(duì)DeepSeek新模型的適配。尤其值得關(guān)注的是,昇騰已針對(duì)TileLang語(yǔ)言啟動(dòng)了核心算子的開(kāi)發(fā)工作,后續(xù)將支持更完備的NPU算子。
- 同日,華為昇騰、寒武紀(jì)等國(guó)產(chǎn)芯片廠商宣布實(shí)現(xiàn)了對(duì)DeepSeek-V3.2-Exp的適配。針對(duì)特有的Tilelang編程語(yǔ)言,昇騰已經(jīng)實(shí)現(xiàn)TileLang的Sparse Flash Attention和Lightning Indexer算子開(kāi)發(fā),后續(xù)將支持更完備的NPU算子并提升性能和泛化性。
從頂尖AI模型提出需求,到新興編程語(yǔ)言提供工具,再到國(guó)產(chǎn)芯片提供硬件支持,這一系列聯(lián)動(dòng)被視為構(gòu)建國(guó)產(chǎn)AI“偉大閉環(huán)”的關(guān)鍵一步。民生證券團(tuán)隊(duì)說(shuō)道:
- DeepSeek v3.2實(shí)現(xiàn)國(guó)產(chǎn)AI的偉大“閉環(huán)”。
對(duì)于國(guó)產(chǎn)計(jì)算產(chǎn)業(yè)而言,TileLang的價(jià)值遠(yuǎn)不止于提升開(kāi)發(fā)效率。它扮演了一個(gè)關(guān)鍵的“中間件”角色,連接了上層AI應(yīng)用與底層國(guó)產(chǎn)硬件。
在DeepSeek的案例中,TileLang使其能夠快速迭代和驗(yàn)證復(fù)雜的稀疏注意力算法。而當(dāng)這一高效模型被市場(chǎng)驗(yàn)證后,其所依賴的編程工具也自然成為硬件廠商需要兼容的對(duì)象。
民生證券的報(bào)告明確指出,華為昇騰已實(shí)現(xiàn)TileLang的“Sparse Flash Attention”和“Lightning Indexer”算子開(kāi)發(fā)。這意味著,國(guó)產(chǎn)AI芯片正在積極擁抱由本土AI應(yīng)用催生出的新軟件標(biāo)準(zhǔn),逐步構(gòu)建一個(gè)不完全依賴于英偉達(dá)CUDA的生態(tài)系統(tǒng)。
CUDA是一套英偉達(dá)提供給開(kāi)發(fā)人員的編程工具,讓工程師能運(yùn)用CUDA,省下大量撰寫(xiě)低階語(yǔ)法的時(shí)間,進(jìn)而直接使用高階語(yǔ)法諸如C++或Java等來(lái)編寫(xiě)應(yīng)用于通用GPU上的演算法,解決平行運(yùn)算中復(fù)雜的問(wèn)題。
根據(jù)TileLang開(kāi)發(fā)社區(qū)Tile-AI發(fā)起人王磊博士的介紹,TileLang是一種采用類(lèi)Python語(yǔ)法的領(lǐng)域?qū)S谜Z(yǔ)言(DSL),旨在簡(jiǎn)化GPU和NPU等加速器上的算子編程。其核心設(shè)計(jì)理念是將復(fù)雜的硬件調(diào)度與開(kāi)發(fā)者的算法邏輯解耦。
據(jù)民生證券分析,TileLang的核心價(jià)值在于大幅降低了GPU編程的技術(shù)門(mén)檻。
傳統(tǒng)GPU編程一直被視為高性能計(jì)算領(lǐng)域的“技術(shù)高地”,需要開(kāi)發(fā)者精通硬件架構(gòu)、內(nèi)存管理等復(fù)雜知識(shí)。據(jù)王磊博士在技術(shù)沙龍上透露,傳統(tǒng)開(kāi)發(fā)模式下,一個(gè)高性能算子的開(kāi)發(fā)需要數(shù)周時(shí)間,且代碼難以維護(hù)。
而TileLang通過(guò)分層設(shè)計(jì),讓不同技術(shù)背景的開(kāi)發(fā)者都能參與GPU編程。王磊博士在分享中表示:
如果你是完全不懂硬件的初學(xué)者,可以像寫(xiě)高級(jí)數(shù)學(xué)表達(dá)式一樣編程;如果你是專(zhuān)家,也能進(jìn)行深度優(yōu)化。
這種設(shè)計(jì)理念使得GPU編程向更廣泛的開(kāi)發(fā)者群體開(kāi)放。王磊博士在沙龍上強(qiáng)調(diào),TileLang的目標(biāo)是“橋接程序性與性能”。在實(shí)際應(yīng)用中,這一目標(biāo)已初見(jiàn)成效——據(jù)民生證券轉(zhuǎn)述的測(cè)試數(shù)據(jù),使用TileLang開(kāi)發(fā)的部分算子在保持95%性能的同時(shí),代碼量減少至傳統(tǒng)方法的十分之一。
民生證券團(tuán)隊(duì)稱(chēng),Tilelang的主要技術(shù)亮點(diǎn)包括:
- 1)簡(jiǎn)化NPU算子編程復(fù)雜度:Tilelang采用類(lèi)Python語(yǔ)法,大大降低NPU算子開(kāi)發(fā)門(mén)檻,封裝調(diào)度空間為自定義原語(yǔ),開(kāi)發(fā)者更加關(guān)注數(shù)據(jù)流本身。
- 2)支持靈活擴(kuò)展:實(shí)現(xiàn)調(diào)度空間與數(shù)據(jù)流解耦,NPU算子優(yōu)化由編譯器自動(dòng)完成,同時(shí)充分利用NPU底層硬件特性。
- 3)高性能:Tilelang可以實(shí)現(xiàn)高性能NPU算子,允許用戶感知NPU硬件特性,相較Triton理論上可以獲得更好的性能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.