vLLM 和 SGLang 的社區(qū)發(fā)展故事。
作者 | 趙晨、夏小雅
責(zé)編 | Echo Tang
出品丨AI 科技大本營(ID:rgznai100)
首先,什么是 LLM 推理?
大語言模型(LLM)的訓(xùn)練過程因巨大的計算需求和突破性的成果而備受關(guān)注,然而決定這些模型在現(xiàn)實世界中實用性和廣泛采用的關(guān)鍵,卻是在推理(Inference)階段的效率、成本和延遲。推理的定義是,一個經(jīng)過訓(xùn)練的 AI 模型將其學(xué)到的知識應(yīng)用于全新的、未見過的數(shù)據(jù),以做出預(yù)測或生成輸出的過程。對于 LLM 而言,這一過程具體表現(xiàn)為:接收用戶的提示(Prompt),通過模型龐大的權(quán)重網(wǎng)絡(luò)進(jìn)行計算,最終生成一段連續(xù)的文本響應(yīng)。
LLM 推理的核心挑戰(zhàn)在于,如何在嚴(yán)格的延遲、吞吐量和成本約束下,部署參數(shù)量高達(dá)數(shù)百億甚至數(shù)千億的模型。這是一個涉及算法、軟件和硬件等多個層面的復(fù)雜問題。一方面,模型本身的巨大體積,以及對應(yīng)的計算和內(nèi)存密集型操作(如注意力機(jī)制的計算),構(gòu)成了本質(zhì)上的障礙;另一方面,生成文本所依賴的自回歸解碼(Autoregressive Decoding)過程,其固有的串行性限制了并行處理能力。因此,LLM 推理需要一個全棧式的解決方案,涵蓋從底層硬件到頂層應(yīng)用的全方位考量,而推理引擎處于上述方案的核心位置。
vLLM 和 SGLang 就是其中最受人關(guān)注的兩個開源的推理引擎項目。
從學(xué)術(shù)創(chuàng)新到社區(qū)驅(qū)動的開源標(biāo)桿
vLLM 起源于 2023 年圍繞著 PagedAttention 算法的一篇論文
“Efficient Memory Management for Large Language Model Serving with PagedAttention”。如果你仔細(xì)關(guān)注這篇論文的作者列表,會發(fā)現(xiàn)很多名字在后面會或多或少地被提及。
在 LLM 服務(wù)化還處于初期階段時,vLLM 的突破性貢獻(xiàn)在于,它沒有發(fā)明一種新的 AI 算法,而是借鑒了操作系統(tǒng)中的分頁緩存管理技術(shù)來精細(xì)化內(nèi)存管理,通過 PagedAttention 機(jī)制,為高吞吐量的請求處理奠定了基礎(chǔ)。此外,vLLM 也充分借鑒和發(fā)揚了業(yè)界的一些先進(jìn)特性,例如由論文
“Orca: A Distributed Serving System for Transformer-Based Generative Models”最早提出的 Continuous Batching 技術(shù)。
在大模型推理領(lǐng)域,性能和速度是絕對的殺手锏。實踐證明,vLLM 對性能的提升是驚人的,在當(dāng)時官方發(fā)布的博客中表明,與之前基于 Hugging Face Transformers 的后端相比,vLLM 能夠處理高達(dá) 5 倍的流量,并將吞吐量提升了 30 倍。也正因如此,在很短時間內(nèi),vLLM 從一個學(xué)術(shù)機(jī)構(gòu)中的研究型項目演變?yōu)橐粋€由強(qiáng)大社區(qū)驅(qū)動的開源項目,不到半年時間就獲得了上萬的 Star 關(guān)注,直到今天,已經(jīng)發(fā)展出了強(qiáng)大的開發(fā)者社區(qū):倉庫中有超過上萬個社區(qū)開發(fā)者參與到 Issue 或 PR 的討論之中,而提交過 PR 的開發(fā)者就將近 2000 位,平均每天,都有不少于 10 位開發(fā)者在項目中提交新的 Issue,海量的用戶請求甚至是貢獻(xiàn)請求不斷的涌入進(jìn)項目里,至今仍有超過 2000 條 Issue 和 PR 等待著處理。
來源:star-history
SGLang 則起源于論文
“SGLang: Efficient Execution of Structured Language Model Programs”,通過其高度優(yōu)化的后端運行時(以 RadixAttention 為核心),以及高效的 CPU 調(diào)度設(shè)計,開辟了全新的發(fā)展空間。RadixAttention 并沒有丟棄 PagedAttention 的設(shè)計,而是在其基礎(chǔ)上繼續(xù)拓展,盡可能的保留過往的 Prompt 和生成結(jié)果的 KVCache,在新的請求到達(dá)時嘗試重用過往其他請求的 KVCache,在前綴成功匹配時可以大幅度減少 Prefill 階段的計算量從而提升性能,其論文表明相對于未采用 RadixAttention 的推理引擎有顯著的性能優(yōu)勢。除了 RadixAttention 的創(chuàng)新,SGLang 的基本功底也非常扎實,即使關(guān)閉 RadixAttention 進(jìn)行 Benchmark 測試,其性能表現(xiàn)仍然優(yōu)秀。
從開源社區(qū)的發(fā)展層面,SGLang 作為后起之秀,擁有一個體量更加輕盈的社區(qū),整體開發(fā)者數(shù)量不及 vLLM 的二分之一,用戶和參與者的規(guī)模雖然也多達(dá) 2000 多人,依舊不及 vLLM 的五分之一??焖俚牡瓦^于熱情的社區(qū)也讓項目的維護(hù)者們有些疲于應(yīng)對:兩個項目中都堆積了大量待解決的 issue/PR,近 3 個月中,vLLM 社區(qū)中的大部分的 Issue 一般在 12 小時到 3 天能夠得到響應(yīng),而 SGLang 社區(qū)則需要 3 到 5 天。
(兩個項目當(dāng)前的社區(qū)數(shù)據(jù),數(shù)據(jù)統(tǒng)計截止時間:2025 年 8 月 22 日)
起源,創(chuàng)新基因的持續(xù)流淌
作為美國頂尖的公立研究型大學(xué),加州大學(xué)伯克利分校為世界貢獻(xiàn)了非常多杰出的開源項目。在上一個時代,比較知名的有數(shù)據(jù)庫領(lǐng)域的 Postgres、硬件領(lǐng)域的 RISC-V、大數(shù)據(jù)處理領(lǐng)域的 Spark、機(jī)器學(xué)習(xí)領(lǐng)域的 Ray。在這個被大模型浪潮沖擊的時代,創(chuàng)新的基因持續(xù)流淌,伯克利又誕生了 vLLM 這樣頂尖的開源推理引擎項目。而 SGLang 雖然不是由伯克利獨立創(chuàng)建,但它的誕生同樣與伯克利有著緊密的關(guān)聯(lián)。
vLLM 作為先行者,于 2023 年 6 月正式開源發(fā)布,SGLang 則在半年后橫空出世。兩個項目在早期的核心發(fā)起人之一 Woosuk Kwon(vLLM)、 和 Lianmin Zheng(SGLang )都來自伯克利并且都師從 Ion Stoica,也就是曾帶領(lǐng)學(xué)生先后創(chuàng)造出 Spark 和 Ray 這兩個頂級開源項目的超級大神。
2023 年,Lianmin 和來自斯坦福的 Ying Sheng 以及其他幾位來自不同高校的學(xué)者,成立了開放研究組織 LMSYS.org,并很快推出了 FastChat、Chatbot Arena、Vicuna 這樣廣受歡迎的項目。而當(dāng)下依然十分主流的大模型評測平臺 Chatbot Arena,早在 vLLM 正式開源出來之前的 4 月份就已經(jīng)使用 vLLM 和 FastChat 作為其后端服務(wù)引擎。在倉庫早期的提交記錄里,還能看到一些歷史的腳印:
SGLang 作者 Lianmin Zhang 在 2023 年 6 月給 vLLM 提交的修改
FastChat 曾是一個旨在覆蓋模型全生命周期的開源平臺,集訓(xùn)練、推理和評估于一體,但如今已逐漸淡出維護(hù)。后來蓬勃發(fā)展的 SGLang(核心 Idea 起源于 YingSheng 所在的斯坦福)和 Chatbot Arena(現(xiàn)已更名為 LMArena),或許正是基于 FastChat 的早期實踐,分別在推理和評估領(lǐng)域發(fā)展壯大,成為它的兩個分支。
如今作為核心發(fā)起人的 Woosuk 和 Lianmin 仍在積極的參與項目的維護(hù)和迭代。經(jīng)過一兩年的發(fā)展,兩個項目的核心開發(fā)者群體也或多或少地發(fā)生了變化。從近半年內(nèi)貢獻(xiàn)度靠前的開發(fā)者信息來看,來自高校的年輕研究者們依然是不可忽視的力量,這也與這兩個項目深厚的學(xué)術(shù)背景密不可分。除此之外,vLLM 的貢獻(xiàn)主力來自 Red Hat,而 SGLang 的貢獻(xiàn)主力則來自 xAI、Skywork、Oracle 和 LinkedIn。
在 vLLM 和 SGLang 這兩個項目中都提交過代碼的開發(fā)者多達(dá) 194 人,這個數(shù)字占到 SGLang 至今所有代碼貢獻(xiàn)者總數(shù)的 30%。
其中,有幾位值得關(guān)注的共同貢獻(xiàn)者。通過觀察他們的行為軌跡,我們可以一窺開源貢獻(xiàn)者在不同項目間的流動關(guān)系,甚至可以大膽地做出一些推測:
comaniac:一位來自 OpenAI 的工程師。去年年初 SGLang 剛剛問世時,他提交了 17 個代碼請求。他也是 vLLM 的重要貢獻(xiàn)者,前后提交了 77 個代碼請求。但從今年三月之后,他的活躍度也逐漸降低。聯(lián)想到 vLLM 的早期作者 Zhuohan 加入 OpenAI 之后也幾乎停止了對項目的貢獻(xiàn),這不禁讓人猜測:OpenAI 是否打算開發(fā)自己的內(nèi)部推理引擎?
ShangmingCai:一位來自阿里云飛天實驗室的研究員。從去年六月到今年四月,他在 vLLM 提交了 18 個代碼請求。而從四月開始,他的興趣明顯轉(zhuǎn)向 SGLang,并提交了 52 個代碼請求,已成為該項目的重要貢獻(xiàn)者。
CatherineSue:一位來自 Oracle 的工程師。去年七月至十月,她在 vLLM 提交了 4 個 Bug 修復(fù)請求。而從去年七月至今,她已在 SGLang 中提交了 76 個代碼請求,是該項目的核心貢獻(xiàn)者。
發(fā)展,重構(gòu)和激烈競爭
從兩個項目的版本迭代與社區(qū)熱度時間線來看,vLLM 自發(fā)布以來一路高歌猛進(jìn),直至去年 9-12 月出現(xiàn)明顯放緩;V1 上線后動能回歸,增長重啟。相較之下,SGLang 自 v0.2 發(fā)布后始終穩(wěn)步向上。今年上半年,或受 DeepSeek V3/R1 帶動,二者又雙雙進(jìn)入更為迅猛的增長通道。
OpenRank 視角下的關(guān)鍵發(fā)展節(jié)點:
2023 年 6 月:vLLM 正式發(fā)布,提出 PagedAttention 與 Continuous Batching,憑借領(lǐng)先的性能迅速發(fā)展。
2024 年 1 月:在 vLLM 快速演進(jìn)之際,SGLang 發(fā)布首個版本,依托其 RadixAttention 創(chuàng)新逐步獲得業(yè)界關(guān)注。
2024 年 7 月:SGLang 發(fā)布 v0.2,進(jìn)入首個加速增長階段。
2024 年 9 月:vLLM 發(fā)布 v0.6.0,通過 CPU 調(diào)度等優(yōu)化,實現(xiàn)約 2.7 倍性能提升與 5 倍延遲下降。前一日,SGLang 亦發(fā)布 v0.3。此后從趨勢看,SGLang 延續(xù)穩(wěn)健增長,而 vLLM 增速趨緩。
2024 年 12 月-2025 年 1 月:vLLM 經(jīng)過數(shù)月籌備推出 v1 重構(gòu)版本。伴隨 DeepSeek V3/R1 的橫空出世,vLLM 與 SGLang 同步開啟第二輪爆發(fā)式增長。
2024 年,隨著特性、模型與硬件支持的迅猛擴(kuò)張,vLLM 不可避免地遭遇了軟件工程中的經(jīng)典難題:代碼與架構(gòu)日益復(fù)雜,進(jìn)而拖緩了性能提升的步伐。一份第三方在 9 月發(fā)布的性能評估顯示,vLLM 的 CPU 調(diào)度開銷在部分場景下可能占到總推理時間的一半以上,致使本應(yīng)充分壓榨 GPU 的推理計算受制于過高的 CPU 開銷負(fù)擔(dān)。其官方博客也坦言,快速演進(jìn)帶來了水平擴(kuò)展方面的挑戰(zhàn),許多獨立開發(fā)的特性難以順暢合并,這促使團(tuán)隊回頭重審并重構(gòu)基礎(chǔ)設(shè)計:他們于 2025 年初及時推出 V1 版本,隨后重回增長軌道。相比之下,同時期的 SGLang 貌似在特性、模型與硬件支持上略顯不足,卻憑借更易擴(kuò)展的架構(gòu)與出色的 CPU 調(diào)度設(shè)計,乃至后續(xù)提出的“零開銷”調(diào)度方案,表現(xiàn)同樣亮眼。
vLLM(左) 和 SGLang(右) 的 CPU 調(diào)度開銷對比(來源:https://mlsys.wuklab.io/posts/scheduling_overhead/)
2025 年,推理引擎的性能之爭逐漸白熱化,業(yè)界前沿功能的持續(xù)集成、主流開源模型的首日支持、硬件平臺的不斷拓展,各家無不爭分奪秒。雙方每次發(fā)版幾乎都會同步公布 Benchmark 測試結(jié)果,且聲稱性能領(lǐng)先,由此在社交媒體上屢屢引發(fā)熱議。隨后,意識到“數(shù)字之爭”可能存在的局限性,二者逐步淡化同日對標(biāo),轉(zhuǎn)而強(qiáng)調(diào)可復(fù)現(xiàn)的方法、真實工作負(fù)載下的端到端指標(biāo),并鼓勵第三方獨立評測,幫助用戶作出更理性的選擇。
從大模型的發(fā)展趨勢看,模型架構(gòu)正在顯露收斂跡象,主流推理引擎在功能、算法與底層算子層面也日趨同質(zhì)化。處于領(lǐng)跑位置的 vLLM 與 SGLang 均已相繼支持 Continuous Batching、PagedAttention、RadixAttention、Chunked Prefill、Speculative Decoding、Disaggregated Serving、CUDA Graph 等特性,F(xiàn)lashInfer、FlashAttention、DeepGEMM 等算子庫,以及并行、量化等等關(guān)鍵能力。這些進(jìn)展往往帶來成倍的性能提升,而步履蹣跚者則被遠(yuǎn)遠(yuǎn)甩在身后,例如 Hugging Face 的 TGI 在性能上已與 vLLM、SGLang、TensorRT-LLM 逐漸拉開差距。與此同時,開源生態(tài)中的優(yōu)良特性會迅速互相借鑒,新出現(xiàn)的優(yōu)化方法也常被多方同步采納??梢灶A(yù)見,處于第一梯隊的推理引擎之間的性能表現(xiàn)將進(jìn)一步收斂,競爭的焦點可能更多轉(zhuǎn)向性能之外的因素。
一句話點評其他值得關(guān)注的一些推理引擎:
TensorRT-LLM:由 NVIDIA 在 2023 年下半年推出,專門為自家硬件做了深度定制,NVIDIA 之前對它的掌控比較強(qiáng),社區(qū)不容易深度參與。
OpenVINO:由 Intel 開發(fā),專注于在 Intel 自家的 CPU、GPU 多種硬件上高效部署和優(yōu)化模型,也是端側(cè)和集群推理場景的重要工具。
LLama.cpp:社區(qū)開發(fā)者 Georgi Gergano 在 2023 年使用 C++ 編寫,主要針對低硬件門檻的端側(cè)推理場景,主打可以在普通電腦甚至手機(jī)上運行大模型,在個人開發(fā)者和小型公司中得到廣泛采用。
LMDeploy: 由 MMDeploy 與 MMRazor 團(tuán)隊(上海 AI Lab)聯(lián)合開發(fā),采用 TurboMind(高性能)與 PyTorch(廣泛硬件適配)雙后端架構(gòu),官方數(shù)據(jù)表明吞吐量優(yōu)勢明顯,同時提供了強(qiáng)大的量化支持,可與 vLLM/SGLang 同臺競爭的一款推理引擎。
在生態(tài)鏈接中繼續(xù)向前
在項目快速發(fā)展的階段,vLLM 和 SGLang 先后獲得了投資機(jī)構(gòu)和開源基金會的關(guān)注:
嗅覺敏銳的 a16z 在 2023 年 8 月份成立了 Open Source AI Grant 專項基金,專門用于支持與 AI 相關(guān)的開源項目。在首批受資助名單中,vLLM 的核心開發(fā)者 Woosuk Kwon 和 Zhuohan Li 位列其中。而在今年 6 月公布的第三批名單中,SGLang 的核心開發(fā)者 Ying Sheng 和 Lianmin Zheng 也獲得了資助。
2024 年 7 月,真格基金宣布向 vLLM 提供捐贈。與此同時,Linux 基金會旗下的 LF AI & Data 子基金會也宣布 vLLM 正式進(jìn)入孵化捐贈流程,在今年,vLLM 又被轉(zhuǎn)移到 LF 的另一個子基金會 PyTorch 基金會中,計劃在多個方向上與 PyTorch 展開緊密合作。
而在 vLLM 正式加入 PyTorch 基金會的兩個月前,也就是 2025 年 3 月,PyTorch 官方發(fā)布了一篇博客,歡迎 SGLang “加入 PyTorch 生態(tài)系統(tǒng)”(注意,這不代表項目捐贈給了 PyTorch 基金會)。至此,PyTorch Landscape 的版圖也變得更加完整。
兩個項目幾乎已經(jīng)成為硅谷以及國內(nèi)科技公司在推理工具上的首選方案。在它們的代碼倉庫中,可以清晰看到來自 Google、Meta、Microsoft、字節(jié)跳動、阿里巴巴、騰訊等頂尖科技公司的開發(fā)者積極參與。
數(shù)據(jù)來源:ossinsight
如今,這兩個項目都擁有龐大的中國開發(fā)者社區(qū)。在 vLLM 中,中國開發(fā)者占比約為 33%,而在 SGLang 中,這一比例更是高達(dá) 52%。
vLLM 社區(qū)自誕生之初就展現(xiàn)出強(qiáng)大的號召力,平均每隔一兩個月就會舉辦一次與用戶和開發(fā)者面對面的線下交流活動。今年,在國內(nèi)北京、上海、深圳多地也舉辦了多場線下 Meetup。而在美麗的西子湖畔剛剛結(jié)束的 上,SGLang 也舉辦了首場專屬于中國開發(fā)者的線下 Workshop。
本文出自《》洞察報告專題洞察 Model Serving 篇,作者趙晨、夏小雅(螞蟻集團(tuán))。
特別注明:本文數(shù)據(jù)洞察所采用的 OpenRank 是一種基于社區(qū)協(xié)作關(guān)聯(lián)關(guān)系,計算生態(tài)中所有項目的相對影響力的算法,詳細(xì)介紹可以參閱文檔:https://open-digger.cn/docs/user_docs/metrics/openrank。同時,安裝 HyperCRX 瀏覽器插件,即可在 GitHub 倉庫右下角看到開源項目的 OpenRank 趨勢。
系列閱讀:
最新消息:
10 月 16-17 日,2025 全球機(jī)器學(xué)習(xí)技術(shù)大會將在北京威斯汀大酒店(亮馬橋)舉行,在會上,vLLM 核心維護(hù)者游凱超將為大家深入分享《vLLM:人人可用、快速且低成本的大模型推理服務(wù)》,SGLang 核心開發(fā)者、新加坡南洋理工大學(xué)在讀博士李升桂將帶來《SpecForge: 用于訓(xùn)練投機(jī)采樣模型的開源框架》的主題演講,歡迎感興趣或者想要面基的開發(fā)者朋友們掃描下方二維碼報名。
日程詳情可戳:《》
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.