夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

成本0.3美元,耗時(shí)26分鐘!CudaForge:顛覆性低成本CUDA優(yōu)化框架

0
分享至




本文作者包括明尼蘇達(dá)大學(xué)的張子?。ü餐谝蛔髡撸?,王嶸(共同第一作者),李世陽,羅越波,洪明毅,丁才文。

CUDA 代碼的性能對(duì)于當(dāng)今的模型訓(xùn)練與推理至關(guān)重要,然而手動(dòng)編寫優(yōu)化 CUDA Kernel 需要很高的知識(shí)門檻和時(shí)間成本。與此同時(shí),近年來 LLM 在 Code 領(lǐng)域獲得了諸多成功。這推動(dòng)人們?nèi)ヌ剿魅绾卫?LLM 來編寫優(yōu)化 CUDA kernel。然而,現(xiàn)有的方法面臨諸多問題,例如高昂的訓(xùn)練與推理成本,不良的 kernel 性能,以及缺乏硬件反饋導(dǎo)致的盲目探索。

那么對(duì)于使用 LLM 進(jìn)行 CUDA 代碼生成,我們能不能設(shè)計(jì)一個(gè)簡單而有效的方法,使其能夠低成本地生成可靠高效的 CUDA kernel?

明尼蘇達(dá)大學(xué)的團(tuán)隊(duì)提出了一種新的方法——CudaForge。這是一種簡單、高效且低成本的多智能體 CUDA Kernel 生成與優(yōu)化工作流。該工作流受人類專家的實(shí)際開發(fā)流程啟發(fā),包含初始 Kernel 的編寫、正確性測試、硬件反饋分析以及迭代改進(jìn)等關(guān)鍵階段。

  • 論文標(biāo)題:CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization
  • 論文鏈接:https://arxiv.org/pdf/2511.01884
  • 代碼地址: https://github.com/OptimAI-Lab/CudaForge

實(shí)驗(yàn)結(jié)果表明,CudaForge 在 KernelBench Levels 1-3 上取得了 SOTA 的結(jié)果,超越了現(xiàn)有的所有方法。值得注意的是,通過 CudaForge 生成一個(gè)經(jīng)過優(yōu)化的 Kernel 在單張 RTX6000上僅需約26.5 分鐘,同時(shí)僅產(chǎn)生約0.3 美元的 API 調(diào)用成本!

CudaForge Workflow 介紹

正如人類專家所采用的開發(fā)方法,包括初始 Kernel 的編寫、正確性測試、硬件反饋分析以及迭代改進(jìn),我們將 CudaForge 設(shè)計(jì)為如上所示的迭代式優(yōu)化框架。

該框架包含兩個(gè)相互獨(dú)立的智能體:CoderJudge

Coder 根據(jù)任務(wù)描述以及來自 Judge 的反饋生成候選 CUDA kernel;而 Judge 則利用 kernel 本身、硬件反饋以及運(yùn)行時(shí)信息對(duì)每個(gè)候選進(jìn)行評(píng)估。

具體而言,給定一個(gè) CUDA kernel 生成任務(wù),Coder 首先接收任務(wù)要求以及對(duì)應(yīng)的 PyTorch 參考實(shí)現(xiàn),然后生成一個(gè)初始的候選 kernel。該 kernel 將被編譯并在測試用例上執(zhí)行以驗(yàn)證其正確性。

如果測試失敗,Judge 會(huì)檢查運(yùn)行時(shí)信息(例如編譯錯(cuò)誤、與 PyTorch 參考結(jié)果不一致的輸出),并分析該錯(cuò)誤 kernel 的問題所在。隨后,Judge 會(huì)返回相應(yīng)的糾錯(cuò)反饋(如缺少頭文件等),以指導(dǎo)下一輪生成。當(dāng)某個(gè)候選 kernel 通過了正確性測試后,Judge 會(huì)使用NCU工具對(duì)其進(jìn)行性能剖析,獲取NCU 性能指標(biāo)(如內(nèi)存帶寬、占用率、warp 效率等)。

結(jié)合 GPU 硬件規(guī)格,這些指標(biāo)構(gòu)成了用于識(shí)別主要性能瓶頸(如算力受限或帶寬受限)的硬件反饋,Judge 會(huì)進(jìn)一步基于此返回一個(gè)明確的優(yōu)化建議(如使用 shared memory)給 Coder。

在下一輪中,Coder 會(huì)同時(shí)接收上一輪的 kernel、Judge 的反饋以及原始任務(wù)需求,并生成新的、經(jīng)過修正或優(yōu)化的 kernel。該過程最多重復(fù)N輪,最終我們會(huì)從所有正確的候選結(jié)果中選擇效率最高的 kernel作為最終輸出。

在此,我們給出一個(gè)使用 CudaForge 進(jìn)行 Kernel 優(yōu)化的案例,并將其與Kevin-32B方法進(jìn)行對(duì)比:

這一對(duì)比進(jìn)一步凸顯出使用硬件反饋對(duì)于 Cuda 代碼優(yōu)化的重要意義。

具體來說,CudaForge通過以下三項(xiàng)關(guān)鍵設(shè)計(jì)顯著提升了 CUDA kernel 的生成與優(yōu)化能力:

雙智能體分工協(xié)作:CudaForge 采用Coder–Judge雙智能體架構(gòu),其中 Coder 專注于代碼生成,Judge 負(fù)責(zé)評(píng)估代碼并提供反饋,從而實(shí)現(xiàn)“認(rèn)知負(fù)載”的有效分離。

迭代式優(yōu)化流程:CudaForge 通過多輪迭代逐步糾錯(cuò)與提速,使得 Kernel 能在每一輪中持續(xù)被改進(jìn),特別是在復(fù)雜任務(wù)中能夠獲得更加穩(wěn)定的優(yōu)化效果。

顯式引入硬件反饋:CudaForge 將GPU 規(guī)格NCU 性能指標(biāo)(如帶寬、占用率、Warp 效率)納入反饋,使 Judge 能精確定位瓶頸并提供可執(zhí)行的優(yōu)化指導(dǎo)

實(shí)驗(yàn)評(píng)估

我們在 KernelBench Levels 1-3 上評(píng)估了我們的模型,并與 Kevin-32B,OpenAI-o3 等模型進(jìn)行了比較。

在 RTX 6000 上的 KernelBench Levels 1–3 主要結(jié)果:

在我們的主要實(shí)驗(yàn)中,我們默認(rèn)將OpenAI-o3同時(shí)用作 Coder 與 Judge,并將最大迭代輪數(shù)設(shè)為N = 10,以在性能提升與推理成本之間取得平衡。

在 KernelBench 上,CudaForge 達(dá)到了 97.6% 的正確率,平均加速比為 1.677×,F(xiàn)ast1 比例為 70.8%,并且實(shí)現(xiàn)了1.107× 的中位數(shù)加速比1.592× 的 75 分位加速比。這些結(jié)果顯著優(yōu)于基礎(chǔ)模型 OpenAI-o3 與一系列消融變體(包括o3-self-refine、o3-correction、o3-optimization)。

與 Kevin-32B 在 H200 上的對(duì)比:

考慮到 Kevin-32B 是基于 H200 訓(xùn)練的 RL 模型,我們在 H200 上對(duì)比了 Kevin-32B 和 CudaForge。下圖展示了 CudaForge 與 Kevin-32B 在 KernelBench 上的正確性與性能表現(xiàn)對(duì)比。虛線表示 CudaForge 在 Level 1 和 Level 2 上的平均水平。

盡管CudaForge 不需要訓(xùn)練(training-free),它在KernelBench Level 1–2上的表現(xiàn)依然優(yōu)于Kevin-32B,并且在Level 3上也取得了極為出色的性能。

CudaForge 的 API 與計(jì)算時(shí)間成本分析

我們進(jìn)一步分析了 CudaForge 的性能與其 API 調(diào)用成本和計(jì)算時(shí)間之間的關(guān)系,如圖所示。隨著 API 成本與計(jì)算時(shí)間的增加,CudaForge 的性能呈單調(diào)提升趨勢。值得注意的是,即使在每個(gè)任務(wù)耗費(fèi)不超過 0.15 美元和 10 分鐘的情況下,CudaForge 也已經(jīng)能夠超越 Agentic 基線方法,這充分展示了其出色的性能-成本平衡能力。



基于 KernelBench,我們測評(píng)了 CudaForge 所需的時(shí)間和 API 成本,結(jié)果表明在 KernelBench Levels 1-3 所有任務(wù)上,CudaForge 每個(gè)任務(wù)僅需平均 0.3 美元的 API 成本,以及在單卡 RTX6000 上 26.5 分鐘的運(yùn)行時(shí)間!

消融實(shí)驗(yàn)

在不同 LLM 上實(shí)例化 CudaForge:

為了驗(yàn)證 CudaForge 是否依賴某個(gè)特定基礎(chǔ)模型,我們在實(shí)驗(yàn)中固定一方(Coder 或 Judge)為 OpenAI-o3(記作 O3),并將另一方替換為多種先進(jìn)的大模型,包括 QwQ-32B、GPT-5、Claude-Sonnet-4、GPT-OSS-120B 等。

如表所示,所有組合都能夠取得較高的正確率和良好的性能表現(xiàn),并且在某些情況下甚至超過原始的 O3/O3 配置。

這一結(jié)果表明,CudaForge 并不依賴于某個(gè)特定的基礎(chǔ)模型:其有效性主要來源于 Coder–Judge 的工作流機(jī)制,并且隨著更強(qiáng)模型的出現(xiàn),它可以直接受益并進(jìn)一步提升性能。

在不同 GPU 架構(gòu)上使用 CudaForge:

我們進(jìn)一步在多種 GPU 架構(gòu)上評(píng)估 CudaForge,包括 RTX 6000、RTX 4090、RTX 3090 和 A100,以考察其在不同硬件條件下的適用性。

實(shí)驗(yàn)結(jié)果(如表所示)顯示,CudaForge 在所有測試 GPU 上均保持了高正確率和強(qiáng)性能表現(xiàn),證明其具有良好的硬件通用性和穩(wěn)定性。

總結(jié)

我們提出了 CudaForge,一個(gè)無需訓(xùn)練的多智能體 CUDA kernel 生成與優(yōu)化框架。該框架模擬人類專家的迭代式工作流程,并顯式地引入硬件反饋,以實(shí)現(xiàn)有針對(duì)性的 Kernel 優(yōu)化,而非盲目搜索。 在 KernelBench 基準(zhǔn)上,CudaForge 相較于現(xiàn)有方法取得了最高的正確率和顯著的性能提升,同時(shí)在不同 GPU 架構(gòu)和多種基礎(chǔ)大模型上均表現(xiàn)出強(qiáng)魯棒性與泛化性。

此外,CudaForge 的性能隨著迭代輪數(shù)的增加能夠進(jìn)一步提升。 最后,得益于其低 API 開銷與低時(shí)間成本,CudaForge 為自動(dòng)化 CUDA Kernel 開發(fā)提供了一種高效、實(shí)用且可投入實(shí)際使用的解決方案。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
鵜鶘隊(duì)傳聞:達(dá)文·哈姆或?qū)⒔犹嫱じ窳?>
    </a>
        <h3>
      <a href=好火子
2025-11-18 03:59:22
蘇丹一地發(fā)生屠城,血跡太空可見

蘇丹一地發(fā)生屠城,血跡太空可見

大風(fēng)新聞
2025-11-16 16:06:05
郭晶晶終于大方一次, 和老公看全運(yùn)會(huì) 用上17pro了最好看的愛馬仕

郭晶晶終于大方一次, 和老公看全運(yùn)會(huì) 用上17pro了最好看的愛馬仕

動(dòng)物奇奇怪怪
2025-11-18 03:58:21
女子網(wǎng)購布娃娃發(fā)現(xiàn)內(nèi)有類似攝像頭裝置 平臺(tái)回應(yīng):已對(duì)涉事商家商品下架處理

女子網(wǎng)購布娃娃發(fā)現(xiàn)內(nèi)有類似攝像頭裝置 平臺(tái)回應(yīng):已對(duì)涉事商家商品下架處理

紅星新聞
2025-11-17 23:33:57
別信“補(bǔ)工齡”能多拿退休金!3個(gè)真辦法幫你避坑

別信“補(bǔ)工齡”能多拿退休金!3個(gè)真辦法幫你避坑

阿芒娛樂說
2025-11-18 05:39:44
霸占投資 2.6 億公園超十年收不回,戴虎硬剛南京法院背后多少秘密

霸占投資 2.6 億公園超十年收不回,戴虎硬剛南京法院背后多少秘密

今日搞笑分享
2025-11-17 13:19:27
高市早苗引火燒身!

高市早苗引火燒身!

梳子姐
2025-11-17 14:21:14
吳艷妮穿緊身三角褲太窄被批“露骨”,到底礙了誰的眼?

吳艷妮穿緊身三角褲太窄被批“露骨”,到底礙了誰的眼?

傲嬌的馬甲線
2025-09-17 18:06:44
足壇最大遺憾!從未踢過世界杯的15位大神,榜首人稱“史上最佳”

足壇最大遺憾!從未踢過世界杯的15位大神,榜首人稱“史上最佳”

瀾歸序
2025-11-16 02:35:43
你身邊有沒有降維打擊的例子?網(wǎng)友:萬里挑一的天才,中國也有14萬

你身邊有沒有降維打擊的例子?網(wǎng)友:萬里挑一的天才,中國也有14萬

夜深愛雜談
2025-11-17 21:39:36
演出過程中突然“點(diǎn)支煙”,知名歌手被處罰

演出過程中突然“點(diǎn)支煙”,知名歌手被處罰

新京報(bào)
2025-11-16 22:40:32
烏前總理稱美已在物色澤連斯基繼任者!美威脅與俄貿(mào)易面臨500%關(guān)稅,特朗普首次表態(tài)

烏前總理稱美已在物色澤連斯基繼任者!美威脅與俄貿(mào)易面臨500%關(guān)稅,特朗普首次表態(tài)

紅星新聞
2025-11-17 19:06:52
燒一賠三!輪到廣汽掀桌子,10.48萬的埃安i60開賣

燒一賠三!輪到廣汽掀桌子,10.48萬的埃安i60開賣

超電實(shí)驗(yàn)室
2025-11-17 18:25:48
黑龍江省佳木斯市人大常委會(huì)原黨組書記、主任劉臣被開除黨籍

黑龍江省佳木斯市人大常委會(huì)原黨組書記、主任劉臣被開除黨籍

界面新聞
2025-11-17 16:03:57
中國向古巴提供緊急人道主義援助

中國向古巴提供緊急人道主義援助

參考消息
2025-11-17 20:43:29
蘋果 CEO 又穿球鞋!這次是「閃電倒鉤」!

蘋果 CEO 又穿球鞋!這次是「閃電倒鉤」!

FLIGHTCLUB中文站
2025-11-17 12:05:08
剛剛,市場傳來幾條重要消息!明天,A股會(huì)止跌反彈?

剛剛,市場傳來幾條重要消息!明天,A股會(huì)止跌反彈?

風(fēng)風(fēng)順
2025-11-18 00:05:08
白大拿對(duì)張偉麗有些失望:我原本覺得她像比特犬,能不斷瘋狂輸出

白大拿對(duì)張偉麗有些失望:我原本覺得她像比特犬,能不斷瘋狂輸出

楊華評(píng)論
2025-11-17 20:05:35
此次未入選英格蘭隊(duì)身價(jià)前10:帕爾默、阿諾德前2,梅努在列

此次未入選英格蘭隊(duì)身價(jià)前10:帕爾默、阿諾德前2,梅努在列

懂球帝
2025-11-18 03:29:21
破防了!狗咬人事件追蹤:李律師發(fā)近20條作品,為申某良無罪辯護(hù)

破防了!狗咬人事件追蹤:李律師發(fā)近20條作品,為申某良無罪辯護(hù)

火山詩話
2025-11-17 12:50:06
2025-11-18 06:56:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11737文章數(shù) 142506關(guān)注度
往期回顧 全部

科技要聞

京東外賣要“獨(dú)立” 劉強(qiáng)東還宣戰(zhàn)“點(diǎn)評(píng)”

頭條要聞

該聊聊琉球問題了 日本國內(nèi)集體破大防

頭條要聞

該聊聊琉球問題了 日本國內(nèi)集體破大防

體育要聞

當(dāng)家球星受傷后,球迷樂翻了天?

娛樂要聞

金雞獎(jiǎng)是“照妖鏡”,揭露人情冷暖?

財(cái)經(jīng)要聞

高市早苗的算計(jì),將讓日本割肉5000億

汽車要聞

新增CDC后變化大嗎? 試駕特斯拉model Y L

態(tài)度原創(chuàng)

房產(chǎn)
健康
教育
手機(jī)
旅游

房產(chǎn)要聞

首開狂賣6.68億!??谶@個(gè)頂級(jí)教育紅盤,引爆??跇鞘校?/h3>

血液科專家揭秘白血病七大誤區(qū)

教育要聞

學(xué)生“爆改”教室!你給哪個(gè)打滿分?

手機(jī)要聞

華為第一款Pro Max!華為Mate 80 Pro Max四色官圖公布

旅游要聞

今日數(shù)據(jù)精選:韓國取代日本,出境游洗牌;地鐵車輛將有新國標(biāo)

無障礙瀏覽 進(jìn)入關(guān)懷版 欧美同性videos| 亚洲欧美另类精品久久久| 亚洲av无码专区国产不卡顿| 精品视频无码在线观看| 无码人妻少妇久久中文字幕蜜桃| 国产在线视频福利资源站| 欧美女人视频操逼| 国产无遮挡吃胸膜奶免费看| 亚洲日产韩国一二三四区| 黄色视频在线观看网站| 中文字幕人妻少妇乳区| 女人高潮抽搐喷液30分钟视频| 人妻少妇不卡| 两个人免费高清视频WWW| 欧美国产国产综合视频| Chinese黑人亚洲人videos| 午夜国产亚洲精品一区| 日韩色无码一级毛片一区二区-百 久久人妻内射无码一区三区 | 中文字幕搜索结果 -- 69XX| 日韩v亚洲v欧美v精品综合| 少妇按摩一区二区| 人妻少妇一区二区三区蜜臀精品| 日日噜噜噜夜夜爽爽狠狠视频| 性做久久久久久久无码免费| 韩国无码视频一区| 人妻久久久一区二区三区| 国产国产人免费人成免费视频| 久久激情偷拍综合| 亚洲午夜精品日韩乱码| 激情国产一区二区三区四区小说 | 国产精品无码一本二本三本色| 成人免费无码大片A毛片久久| 性狠狠18禁久久久久久| 狠狠88综合久久久久综合网 | 国产a一级毛片爽爽影院无码| 国产激情久久久久久熟女老人| 亚洲精品日韩在线观看 | 国产草草影院ccyycom| 在线天堂新版资源www在线| 暴力强伦姧人妻| 麻豆av福利av久久av|