機(jī)器之心報(bào)道
機(jī)器之心編輯部
在過去三年里,AI 領(lǐng)域取得了顯著進(jìn)步,這一飛躍主要得益于基礎(chǔ)模型的發(fā)展。這些模型在大規(guī)模多模態(tài)數(shù)據(jù)上進(jìn)行訓(xùn)練,并在公開發(fā)布后取得了巨大成功。
然而,基礎(chǔ)模型的研究需要大量的數(shù)據(jù)、算力和人力資源。這一問題引發(fā)了廣泛關(guān)注與討論,更大的資源獲取是否會(huì)直接帶來更有影響力的研究成果,例如更多的論文發(fā)表或更高的引用量。
這一問題的答案對(duì)于資源分配策略、研究方向的優(yōu)先級(jí)設(shè)定,以及如何保障基礎(chǔ)模型研究的公平與可持續(xù)參與,都具有重要意義。
然而,由于缺乏統(tǒng)一的資源披露標(biāo)準(zhǔn),研究成本往往難以量化。在缺乏全面公開的情況下,研究經(jīng)費(fèi)最直觀的衡量方式,通常是購買或租用硬件(如計(jì)算集群或芯片)的具體成本。當(dāng)然,研究還包括軟件、云存儲(chǔ)服務(wù)以及專業(yè)平臺(tái)等其他開支。
在這些資源中,GPU 是一個(gè)尤其關(guān)鍵的指標(biāo),因?yàn)樗且环N供應(yīng)量有限、受嚴(yán)格控制的資源。
在本文中,來自 MIT、劍橋等機(jī)構(gòu)的研究者研究了硬件資源與 AI/ML 領(lǐng)域頂級(jí)會(huì)議論文發(fā)表之間的關(guān)系。他們重點(diǎn)考察了兩種計(jì)算能力指標(biāo):GPU 數(shù)量和 TFLOPs(每秒浮點(diǎn)運(yùn)算次數(shù)),并將這些數(shù)據(jù)與 2022 至 2024 年間共 34,828 篇錄用論文進(jìn)行關(guān)聯(lián)分析。
本文共識(shí)別出 5,889 篇基礎(chǔ)模型相關(guān)論文,并發(fā)現(xiàn) GPU 獲取能力越強(qiáng),其在八個(gè)頂級(jí)會(huì)議中的論文接收率和引用量也越高。
此外,本文還對(duì) 312 篇論文的 229 位作者進(jìn)行了問卷調(diào)查后發(fā)現(xiàn):
- 大多數(shù)基礎(chǔ)模型論文由學(xué)術(shù)界研究者撰寫(共 4,851 篇),而產(chǎn)業(yè)界研究者的論文數(shù)量相對(duì)較少(1,425 篇);
- 大多數(shù)論文使用的是開源模型(如 LLaMA),其次是閉源模型(如 GPT);
- GPU 使用信息在論文中很少被披露,這表明當(dāng)前亟需制定統(tǒng)一的計(jì)算資源報(bào)告規(guī)范,以提升研究的透明度與可復(fù)現(xiàn)性。
- 論文標(biāo)題:THE ROLE OF COMPUTING RESOURCES IN PUBLISHING FOUNDATION MODEL RESEARCH
- 論文地址:https://arxiv.org/pdf/2510.13621
計(jì)算資源識(shí)別方法
研究者收集了2022 年至 2024 年間、八個(gè)頂級(jí)機(jī)器學(xué)習(xí)會(huì)議上被接收的論文(2025 年 3 月之前已可獲?。?,包括 NeurIPS、ICLR、ICML、COLM、EMNLP、ACL、NAACL、EACL。
采用的方法是:在論文標(biāo)題或摘要中搜索關(guān)鍵詞來識(shí)別與基礎(chǔ)模型(FM)相關(guān)的論文。最終在總計(jì) 34828 篇論文中,挑選出了5889 篇與 FM 相關(guān)的已接收論文。此外收集了同期被拒稿或撤稿的 ICLR 與 FM 相關(guān)的論文,共計(jì) 613 篇,用于對(duì)比分析。
在完成論文標(biāo)題和摘要的整理后,研究者使用 GPT-4o mini 將每篇論文分為三個(gè)類別,即領(lǐng)域(Domain)、階段(Phase)和方法(Method)。這些類別的定義見下表 1。
更進(jìn)一步地,研究者通過系統(tǒng) API 從全部 5889 篇已接收論文中收集結(jié)構(gòu)化信息,包括文章 ID、標(biāo)題、作者信息(姓名、人數(shù)及所屬機(jī)構(gòu))、發(fā)表信息(年份、會(huì)議、接收或拒稿狀態(tài)、論文鏈接、評(píng)審意見和摘要)。對(duì)于系統(tǒng) API 中缺失的信息,研究者使用 GPT-4o mini 處理論文 PDF,以提取資深作者的所屬機(jī)構(gòu)、GPU 使用情況、數(shù)據(jù)集描述以及資助信息。
在調(diào)研中,118 所機(jī)構(gòu)的研究者參與了本次調(diào)查,包括了 267 名學(xué)術(shù)界一作和 36 名產(chǎn)業(yè)界一作,最終共有 229 位 FM 論文的一作(包括 312 篇論文)提供有效反饋。當(dāng)論文中未記錄計(jì)算資源使用情況時(shí),參與者需在調(diào)查中自行報(bào)告相關(guān)信息
圖 1 (B) 展示了不同年份和會(huì)議中有效 GPU 類型的比例,以及各會(huì)議作者和審稿人檢查清單中是否包含報(bào)告計(jì)算資源使用情況的相關(guān)指南。圖 1 (C) 展示了由 GPT-4o 自動(dòng)抓取的數(shù)據(jù)與論文作者自報(bào)數(shù)據(jù)在 GPU 使用量與 FP 16 計(jì)算性能(TFLOPS 16)上的差異。
為確保提取的 GPU 信息準(zhǔn)確性,兩位 FM 研究者在盲評(píng)條件下獨(dú)立檢查了 312 篇論文,并與 GPT-4o mini 的提取結(jié)果進(jìn)行對(duì)比。研究者交叉比對(duì)了 GPT-4o mini 提取的信息、人工標(biāo)注結(jié)果以及論文一作自報(bào)的 GPU 數(shù)據(jù)。
結(jié)果顯示:在被調(diào)查的 312 篇論文中,288 篇自報(bào)了 GPU 數(shù)量,292 篇自報(bào)了 GPU 類型,281 篇自報(bào)了 GPU 使用時(shí)長(zhǎng);另有 24 篇使用了非 GPU 計(jì)算資源(如 TPU、NPU 或 CPU)。
不過,兩位 FM 研究者發(fā)現(xiàn)僅有 172 篇論文中包含 GPU 數(shù)量信息,141 篇包含 GPU 類型信息,249 篇包含 GPU 時(shí)長(zhǎng)信息。GPT-4o mini 僅從 116 篇論文中成功提取到 GPU 數(shù)量,與作者報(bào)告相比存在 59.7% 的缺失率。GPU 類型與 GPU 時(shí)長(zhǎng)的缺失率也較高,分別為 48.3% 和 88.6%。
結(jié)果
基礎(chǔ)模型研究呈爆炸式增長(zhǎng)
從 2022 年到 2024 年,基礎(chǔ)模型的研究在廣度和深度上都經(jīng)歷了顯著增長(zhǎng)。
一個(gè)直觀的體現(xiàn)是,在八個(gè)頂級(jí) AI 會(huì)議中,基礎(chǔ)模型相關(guān)論文的占比迅速攀升
- 2022 年: 2.07%
- 2023 年: 10.29%
- 2024 年:飆升至 34.64%(圖 A)
尤其在NLP 領(lǐng)域,這一趨勢(shì)更為明顯。在 COLM、EMNLP 和 ACL 等專業(yè)會(huì)議上,基礎(chǔ)模型論文的比例甚至超過了 ICLR、ICML 和 NeurIPS 等綜合性機(jī)器學(xué)習(xí)會(huì)議。
從研究方向來看,與推理相關(guān)的論文增長(zhǎng)最快。從研究類型來看,算法和實(shí)證研究的增長(zhǎng)速度超過了數(shù)據(jù)集、基準(zhǔn)測(cè)試和工具包等類別(圖 B)。
有趣的是,盡管論文數(shù)量激增,但單個(gè)項(xiàng)目使用的 GPU 數(shù)量保持相對(duì)穩(wěn)定。無論是已發(fā)表的論文還是待發(fā)表的研究,大多數(shù)項(xiàng)目使用的 GPU 數(shù)量集中在 1 到 8 個(gè),其中 1 到 4 個(gè) GPU 的配置最為常見,占據(jù)了約一半的比例(圖 C)。不過,考慮到目前 GPU 的采購周期越來越長(zhǎng),這一趨勢(shì)未來是否會(huì)變化,值得我們持續(xù)關(guān)注。
工業(yè)界與學(xué)術(shù)界共同引領(lǐng)研究浪潮
基礎(chǔ)模型的研究延續(xù)了計(jì)算機(jī)科學(xué)領(lǐng)域產(chǎn)學(xué)研緊密結(jié)合的傳統(tǒng)。
數(shù)據(jù)顯示,學(xué)術(shù)界貢獻(xiàn)了更多的論文總量,但頂尖的工業(yè)界實(shí)驗(yàn)室在單一機(jī)構(gòu)產(chǎn)出上表現(xiàn)突出。具體來看:
- 學(xué)術(shù)界: 611 個(gè)機(jī)構(gòu)共發(fā)表了 4851 篇論文。
- 工業(yè)界: 163 個(gè)機(jī)構(gòu)共發(fā)表了 1425 篇論文。
其中,谷歌和微軟是論文產(chǎn)出最多的兩個(gè)單一實(shí)體,緊隨其后的是清華大學(xué)、Meta 和斯坦福大學(xué)。
值得注意的是,兩大陣營的研究效率相當(dāng)。工業(yè)界研究者人均發(fā)表 8.72 篇論文,學(xué)術(shù)界人均發(fā)表 7.93 篇。這表明,基礎(chǔ)模型的研究高度集中在少數(shù)能提供強(qiáng)大算力支持的頂級(jí)學(xué)術(shù)和工業(yè)機(jī)構(gòu)中。如果獲取大規(guī)模算力的門檻持續(xù)提高,這種集中化趨勢(shì)可能會(huì)進(jìn)一步加劇。
從國家層面看,美國和中國在基礎(chǔ)模型研究產(chǎn)出方面處于領(lǐng)先地位(圖 B),這可能與兩國在高等教育和人工智能領(lǐng)域的長(zhǎng)期投入有關(guān)。
開源模型成為研究的主流選擇
在眾多模型中,以LLaMA 系列為代表的開源權(quán)重模型是研究中使用最頻繁的(圖 C)。
這一現(xiàn)象至關(guān)重要。雖然像 GPT 系列這樣的專有閉源模型因其卓越的性能和便捷的 API 接口,在研究中仍占有一席之地,但開源模型憑借其高度的靈活性和可訪問性贏得了研究社區(qū)的青睞。研究人員可以基于開源模型進(jìn)行微調(diào)、領(lǐng)域適配和深入的基準(zhǔn)測(cè)試,而這些操作在閉源模型上通常難以實(shí)現(xiàn)。
GPU 使用情況:NVIDIA A100 成為核心算力
在具體的 GPU 類型上,NVIDIA A100 是基礎(chǔ)模型研究中使用最廣泛的核心,并且排名前十的 GPU 均來自 NVIDIA 家族(圖 3D)。
進(jìn)一步分析發(fā)現(xiàn),算力資源的使用并非均勻分布:
- 研究階段: 專注于預(yù)訓(xùn)練的研究,其 GPU 使用數(shù)量顯著高于側(cè)重于后訓(xùn)練或推理的研究(p<0.001)。
- 其他維度: 在不同機(jī)構(gòu)、應(yīng)用領(lǐng)域或研究方法之間,GPU 的使用量沒有表現(xiàn)出統(tǒng)計(jì)學(xué)上的顯著差異。例如,安全相關(guān)研究的 GPU 使用量中位數(shù)較低,而工具包開發(fā)研究的使用量較高,但這些差異并不顯著(圖 D)。
從論文的研究重點(diǎn)來看:
- 47.4% 關(guān)注算法開發(fā)。
- 86.4% 集中在 NLP 領(lǐng)域,僅有 5.7% 涉及 CV。
- 48.7% 的論文研究推理過程,遠(yuǎn)超預(yù)訓(xùn)練(13.3%)。
政府是基礎(chǔ)模型研究的最大資助方
通過分析論文中披露的資金信息,發(fā)現(xiàn)政府是基礎(chǔ)模型研究最主要的資助來源(圖 4)。在提供了資助信息的論文中:
- 85.5%(848 篇)獲得了政府資助。
- 29.3%(291 篇)獲得了企業(yè)資助。
- 10.3%(102 篇)獲得了基金會(huì)資助(圖 4A)。
有趣的是,一個(gè)國家的人均 GDP 與其資助的論文數(shù)量之間沒有必然聯(lián)系(圖 4B)。這表明,機(jī)構(gòu)的支持力度和相關(guān)政策,比單純的國家經(jīng)濟(jì)實(shí)力更能影響基礎(chǔ)模型的研究產(chǎn)出。(注:僅有 15.3% 的論文披露了詳細(xì)的資助信息。)
研究產(chǎn)出與影響力:算力比 GPU 數(shù)量更關(guān)鍵
一個(gè)典型的基礎(chǔ)模型研究項(xiàng)目是怎樣的?數(shù)據(jù)顯示,一篇被接收的論文,通常有 5 名作者,使用 4 個(gè) GPU,項(xiàng)目平均持續(xù)約 5 個(gè)月。
進(jìn)一步探究了計(jì)算資源與研究成果(論文數(shù)量和引用量)之間的關(guān)系,發(fā)現(xiàn)了更深層的規(guī)律:
對(duì)于產(chǎn)出(論文數(shù)量): 單純的 GPU 數(shù)量與論文產(chǎn)出不成正比。然而,以 TFLOPs(每秒萬億次浮點(diǎn)運(yùn)算)衡量的總計(jì)算能力,與論文產(chǎn)出呈現(xiàn)出更強(qiáng)的正相關(guān)性,尤其是在工業(yè)界(圖 4C)。這說明,決定研究產(chǎn)出效率的,是高質(zhì)量的計(jì)算基礎(chǔ)設(shè)施,而不僅僅是 GPU 的堆砌。
對(duì)于影響力(引用次數(shù)): 同樣,TFLOPs 比 GPU 數(shù)量更能預(yù)測(cè)一篇論文的引用潛力(圖 4D)。擁有更強(qiáng)算力支持的機(jī)構(gòu),其研究成果往往能獲得更多引用
盡管如此,算力并非決定性因素。許多高引用論文同樣來自計(jì)算資源相對(duì)有限的機(jī)構(gòu),證明了研究影響力是由多種因素共同決定的。
論文接收與否:資源多少并非決定性因素
更多的 GPU 或更強(qiáng)的算力,能提高論文被接收的概率嗎?
研究者對(duì) ICLR 會(huì)議 2022-2024 年的數(shù)據(jù)進(jìn)行了分析。結(jié)果發(fā)現(xiàn),平均而言,被拒稿的論文確實(shí)比被接收的論文使用了略少的 GPU、略低的 TFLOPs和規(guī)模略小的作者團(tuán)隊(duì)。
但是,兩者在資源使用上的分布情況非常相似,差距微乎其微。這與頂級(jí)會(huì)議的審稿指南相符,即審稿人更應(yīng)關(guān)注研究的新穎性、清晰度和貢獻(xiàn),而非其使用的資源多寡。(注:由于只有 ICLR 公開了被拒稿論文的數(shù)據(jù),這個(gè)結(jié)論的普適性還有待更多數(shù)據(jù)驗(yàn)證。)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.