夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

SGLang原生支持昇騰,新模型一鍵拉起無需改代碼

0
分享至

  • henry 發(fā)自 凹非寺
    量子位 | 公眾號(hào) QbitAI

當(dāng)Agent在應(yīng)用側(cè)不斷加速,推理系統(tǒng)能否承受隨之而來的真實(shí)負(fù)載,正在成為行業(yè)關(guān)注的焦點(diǎn)。

這是12月20日在杭州收官的SGLang AI 金融 π 對(duì)上,被反復(fù)提及的一個(gè)背景。



在這場(chǎng)聚焦大模型推理效率的“π對(duì)”上——

Agent的Vibe被暫時(shí)擱到一邊,真正擺上桌面的,是推理系統(tǒng)在真實(shí)負(fù)載中的工程問題:高并發(fā)請(qǐng)求長(zhǎng)上下文窗口多輪推理內(nèi)存管理,以及在具體金融agent場(chǎng)景下的一致性生成問題。

同時(shí),在活動(dòng)討論中,昇騰作為算力平臺(tái)也被多次提及。

當(dāng)前,昇騰已作為SGLang原生支持的后端之一進(jìn)入主倉庫,隨著 SGLang推理引擎的更新,DeepSeek、Qwen、GLM等模型可以在不調(diào)整模型參數(shù)、不引入額外插件的情況下直接運(yùn)行,HiCache、Mooncake等系統(tǒng)能力也在對(duì)應(yīng)版本中引入。

可以說,這次SGLang AI金融π對(duì)呈現(xiàn)的,并非零散技術(shù)點(diǎn),而是一條清晰的推理工程演進(jìn)路徑——從緩存與內(nèi)存體系,到權(quán)重更新、強(qiáng)化學(xué)習(xí)效率,再到算力與模型生態(tài)的協(xié)同。

接下來,我們具體來看。

面向Agent的推理系統(tǒng)工程解法

這次SGLang活動(dòng)由SGLangAtomGit社區(qū)聯(lián)合發(fā)起,于12月20日在杭州舉辦,活動(dòng)圍繞大模型推理架構(gòu)、Agent、強(qiáng)化學(xué)習(xí)及其在金融場(chǎng)景的落地展開討論。

在嘉賓方面,活動(dòng)由來自推理系統(tǒng)、模型與算力一線的工程團(tuán)隊(duì)共同參與,包括華為高級(jí)項(xiàng)目群總監(jiān)薛曜,SGLang開發(fā)者黃章衡尚旭春,華為“小巧靈”突擊隊(duì)工程師荊升航,昇騰高級(jí)研發(fā)工程師鎮(zhèn)亮,以及GLM技術(shù)布道師張昱軒

整體來看,Agent相較于以往的問答式LLM,在深度研究、代碼生成、工具調(diào)用等應(yīng)用以及強(qiáng)化學(xué)習(xí)訓(xùn)練中,對(duì)高并發(fā)請(qǐng)求、長(zhǎng)上下文窗口、多輪推理和內(nèi)存管理的效率提出了更高要求。

而在特定的部署場(chǎng)景,如金融Agent中,則對(duì)低延遲、響應(yīng)穩(wěn)定性、一致性及成本控制的要求則更為嚴(yán)苛。

本次Meetup正是圍繞這些Agent原生的系統(tǒng)變化,給出了工程實(shí)踐層面的集中回應(yīng)。

首先,針對(duì)高并發(fā)長(zhǎng)上下文場(chǎng)景下KV cache重復(fù)計(jì)算、顯存需求大的問題。

SGlang通過最新引入的HiCache體系,將KV cache擴(kuò)展到CPU和遠(yuǎn)端存儲(chǔ),由Cache Controller自動(dòng)管理KV卸載填裝,并結(jié)合流水線化異步預(yù)取,顯著降低了顯存占用,提升了上下文推理的穩(wěn)定性與吞吐。



此外,針對(duì)Qwen3-Next、Kimi Linear這類具備不同計(jì)算邏輯和內(nèi)存管理方式的混合模型。

SGLang通過Mamba Radix Tree實(shí)現(xiàn)前綴統(tǒng)一管理,并借助Elastic Memory Pool彈性調(diào)度KV Cache與Mamba State,在長(zhǎng)上下文、多并發(fā)場(chǎng)景下提供高效推理和顯存優(yōu)化能力。

其次,為應(yīng)對(duì)強(qiáng)化學(xué)習(xí)中策略權(quán)重頻繁更新導(dǎo)致GPU空轉(zhuǎn)、冷啟動(dòng)耗時(shí)過長(zhǎng)的瓶頸。

Mooncake基于Transfer Engine,采用異步預(yù)讀、pipeline并行設(shè)計(jì),顯著壓縮權(quán)重加載和模型啟動(dòng)時(shí)間,實(shí)現(xiàn)熱更新與彈性擴(kuò)容。



實(shí)測(cè)效果顯示:Kimi K2萬億參數(shù)模型的權(quán)重更新準(zhǔn)備時(shí)間被壓縮至20秒以內(nèi),63B模型的冷啟動(dòng)時(shí)間更是從85秒降至9秒。

此外,由于強(qiáng)化學(xué)習(xí)rollout不再是一次性推理,而是異步、多階段、長(zhǎng)度不可預(yù)測(cè)的過程。

換句話說,rollout中的長(zhǎng)尾請(qǐng)求可能拖慢90%的訓(xùn)練時(shí)間,甚至可能出現(xiàn)跑了一整夜仍未完成任何step的情況。

針對(duì)這一問題,SGLang通過Server化+全異步執(zhí)行、oversample與 partial rollout機(jī)制控制長(zhǎng)尾請(qǐng)求,大幅緩解Agentic RL中的長(zhǎng)尾問題,提高了訓(xùn)練效率。

最后,針對(duì)DeepSeek、GLM-4.5等MoE模型的fuse MoE、內(nèi)存調(diào)度和負(fù)載均衡問題,SGLang持續(xù)重構(gòu)執(zhí)行路徑與內(nèi)存管理機(jī)制。

同時(shí),Slime強(qiáng)化學(xué)習(xí)系統(tǒng)針對(duì)大規(guī)模GRPO與多階段RL訓(xùn)練定制,實(shí)現(xiàn)訓(xùn)練系統(tǒng)與推理引擎的深度協(xié)同。



一個(gè)值得注意的細(xì)節(jié)是,這些推理系統(tǒng)級(jí)能力,并非只停留在某一類算力平臺(tái)上。這些實(shí)踐中的HiCache、Mooncake、GLM都均已能夠在昇騰平臺(tái)上直接運(yùn)行,并進(jìn)入實(shí)際推理流程。

而這些不約而同的支持,恰恰從側(cè)面印證了當(dāng)前昇騰硬件在推理系統(tǒng)生態(tài)的角色轉(zhuǎn)變——

它已作為主流推理工作流中的后端之一,被自然納入系統(tǒng)設(shè)計(jì)與工程實(shí)現(xiàn)之中。

昇騰 × SGLang:大模型推理的高效實(shí)踐

在上述共性問題之下,活動(dòng)中也展示了SGLang在昇騰平臺(tái)上的最新進(jìn)展,覆蓋模型適配、性能優(yōu)化及系統(tǒng)加速能力模塊化沉淀。

主要亮點(diǎn)如下:

  • 模型優(yōu)化:針對(duì)DeepSeek、Qwen系列等開源模型進(jìn)行適配與性能提升,支持稠密、稀疏、多模態(tài)等架構(gòu),并支持Flux、Qwen-Image等多模態(tài)生成模型。
  • 系統(tǒng)特性:HiCache L1/L2/L3直通緩存機(jī)制已落地,MTP完全適配昇騰平臺(tái),兼容GPU與NPU后端。
  • 量化能力:推進(jìn)昇騰側(cè)量化與開源框架協(xié)同,支持壓縮張量等多種量化方案。
  • 推理模式:完善圖模式支持,實(shí)現(xiàn)DeepSeek V3.2、Qwen-Next、Longcat等新模型的day0支持。
  • 強(qiáng)化學(xué)習(xí):支持SGLang VeRL等強(qiáng)化學(xué)習(xí)相關(guān)模型的推理與部署。



在具體的模型上,昇騰此次實(shí)現(xiàn)了對(duì)DeepSeek V3.2Day 0支持,在PD分離、64K輸入、3K輸出場(chǎng)景下,推理吞吐達(dá)15TPS / 卡,TTFT約4秒,PD傳輸(HCCS)< 8ms,TPOT ≈ 20毫秒。

為實(shí)現(xiàn)上述性能,團(tuán)隊(duì)在系統(tǒng)層面進(jìn)行了多項(xiàng)優(yōu)化:負(fù)載均衡方面,通過重新分配計(jì)算任務(wù),使各CP rank計(jì)算量均衡。

融合算子方面,減少計(jì)算過程中的內(nèi)存訪問次數(shù)和Kernel啟動(dòng)開銷。將多個(gè)連續(xù)的小算子合并為一個(gè)復(fù)合算子,使中間結(jié)果保留在高速緩存中,從而顯著提升計(jì)算效率。

多流并行方面,通過Cube與Vector計(jì)算單元并行執(zhí)行算子,提升計(jì)算資源利用率。

同時(shí),在Cube計(jì)算路徑中引入權(quán)重預(yù)取機(jī)制,實(shí)現(xiàn)數(shù)據(jù)搬運(yùn)與計(jì)算階段的重疊,減少訪存等待帶來的性能損耗。

這些優(yōu)化讓昇騰平臺(tái)在大規(guī)模、高復(fù)雜度推理場(chǎng)景中,實(shí)現(xiàn)了高吞吐、低延遲、資源高效利用的表現(xiàn)。



針對(duì)Qwen的優(yōu)化則包括通用能力增強(qiáng)(圖模式、W8A8 量化、EAGLE3),為不同規(guī)模和形態(tài)等模型提供基礎(chǔ)性能支撐。

同時(shí),引入昇騰親和性專項(xiàng)優(yōu)化:利用多流并行,并在大EP(Expert Parallelism)場(chǎng)景中通過Dispatch/Combine流程將GMM計(jì)算融合處理,減少算子切換和中間調(diào)度開銷,提升整體執(zhí)行效率。



除DeepSeek、Qwen外,SGLang在昇騰硬件上也已覆蓋KimiLongChat等模型,新模型可在不改代碼的前提下直接運(yùn)行。

同時(shí)就像開頭所說的,這些模型的所有代碼均已合入SGLang主社區(qū)倉,開發(fā)者無需額外安裝插件,直接拉取主倉代碼即可使用。

昇騰表示這里的核心理念是盡量不動(dòng)Models層,僅在底層完成硬件親和與性能提升

而這一系列進(jìn)展背后,是昇騰與SGLang主倉的深度共建邏輯,也意味著AI算力與開源推理框架的融合進(jìn)入新階段:

從架構(gòu)層面看,昇騰相關(guān)優(yōu)化已下沉到SGL-kernel-NPU算子庫,親和算子能力與代碼實(shí)現(xiàn)均在此集中維護(hù)演進(jìn)。

Engine層作為核心優(yōu)化區(qū),支持EPLB、Graph Runner與MTP,覆蓋GPU與NPU等多硬件后端以實(shí)現(xiàn)統(tǒng)一推理能力。

緩存與通信則依托HiCache完成L1/L2及L3-L1直通優(yōu)化,最底層的SGL-kernel-NPU則承載昇騰加速算子、量化算子及傳輸接口,實(shí)現(xiàn)開源能力與昇騰性能的雙向賦能。

整體來看,這些進(jìn)展體現(xiàn)了昇騰與SGLang開源社區(qū)在推理系統(tǒng)層面的持續(xù)協(xié)同,也為后續(xù)更復(fù)雜推理與強(qiáng)化學(xué)習(xí)場(chǎng)景提供了穩(wěn)定的工程基礎(chǔ)。

全面擁抱開源

在這次活動(dòng)中,我們了解到,昇騰是今年七月份才正式啟動(dòng)與SGLang的適配工作。薛曜表示,這一工作的目標(biāo)很明確——全面擁抱開源、加速昇騰生態(tài)建設(shè)

在過去5個(gè)多月里,昇騰不僅補(bǔ)齊了多類主流模型的推理支持,還覆蓋了強(qiáng)化學(xué)習(xí)訓(xùn)練、多模態(tài)理解與生成等關(guān)鍵場(chǎng)景,并在PD傳輸?shù)认到y(tǒng)層面持續(xù)優(yōu)化,將SGLang on Ascend的整體性能推到了“可打”的水平

此外,據(jù)現(xiàn)場(chǎng)披露,昇騰已基于SGLang已在真實(shí)業(yè)務(wù)場(chǎng)景中,對(duì)DeepSeek V3.2完成了灰度測(cè)試。這意味著相關(guān)能力已不再停留在實(shí)驗(yàn)或Demo階段,而是進(jìn)入了真實(shí)生產(chǎn)環(huán)境的驗(yàn)證周期。

從roadmap來看,昇騰接下來的演進(jìn)方向也并非泛化擴(kuò)展,而是明確圍繞“推理系統(tǒng)”展開的系統(tǒng)性工程投入

一方面,通過Zero Buffer、昇騰親和加速庫等機(jī)制,持續(xù)壓榨單機(jī)與多機(jī)推理吞吐,服務(wù)高并發(fā)、低時(shí)延的真實(shí)業(yè)務(wù)負(fù)載;

另一方面,在基礎(chǔ)軟件層構(gòu)建昇騰版Triton生態(tài),與SGLang、vllm等開源引擎保持接口與演進(jìn)節(jié)奏對(duì)齊,使模型上線、算子開發(fā)與性能調(diào)優(yōu)形成可復(fù)用路徑。

這些動(dòng)作共同指向了一個(gè)清晰變化:昇騰不再只是“能否支持某個(gè)模型”的硬件選項(xiàng),而是開始以推理系統(tǒng)為核心,被納入開源工程的主線討論與默認(rèn)方案評(píng)估之中

當(dāng)模型、推理引擎與算力平臺(tái)在工程層形成穩(wěn)定協(xié)作,AI算力真正需要回答的問題,也將不再是“能不能跑”,而是“系統(tǒng)能不能長(zhǎng)期跑、規(guī)?;?、穩(wěn)定地跑”。

因?yàn)檎f到底,高性能、易用性、開箱即用才是真道理。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
楊冪代言,商場(chǎng)“無頭大衣”嚇人,網(wǎng)友:冪級(jí)恐懼犯了!

楊冪代言,商場(chǎng)“無頭大衣”嚇人,網(wǎng)友:冪級(jí)恐懼犯了!

品牌頭版
2025-12-21 11:04:08
西安警方通報(bào)“私人影院存在異性陪侍服務(wù)”

西安警方通報(bào)“私人影院存在異性陪侍服務(wù)”

新京報(bào)政事兒
2025-12-21 18:46:44
東南亞的色情產(chǎn)業(yè)還是太離譜了

東南亞的色情產(chǎn)業(yè)還是太離譜了

求實(shí)處
2025-12-03 20:08:14
你和同事最曖昧的經(jīng)歷是啥?網(wǎng)友:辦公室戀情要不得,太污了辣眼

你和同事最曖昧的經(jīng)歷是啥?網(wǎng)友:辦公室戀情要不得,太污了辣眼

解讀熱點(diǎn)事件
2025-10-05 00:15:03
明星無濾鏡后,把人看的一愣一愣的,秦海璐和蔣欣就像換了一個(gè)人

明星無濾鏡后,把人看的一愣一愣的,秦海璐和蔣欣就像換了一個(gè)人

小馮聊體育
2025-12-20 17:20:49
央視點(diǎn)名批評(píng)的6部爛劇,侮辱觀眾智商,一部沒看的太幸運(yùn)了

央視點(diǎn)名批評(píng)的6部爛劇,侮辱觀眾智商,一部沒看的太幸運(yùn)了

小Q侃電影
2025-12-21 21:43:14
老婆出差3個(gè)月,丈母娘買菜照顧,把我叫進(jìn)臥室:你得幫我個(gè)忙

老婆出差3個(gè)月,丈母娘買菜照顧,把我叫進(jìn)臥室:你得幫我個(gè)忙

云端小院
2025-11-07 09:20:31
國(guó)乒總教練花落誰家?已經(jīng)有三人報(bào)名競(jìng)聘,馬琳王皓秦志戩成焦點(diǎn)

國(guó)乒總教練花落誰家?已經(jīng)有三人報(bào)名競(jìng)聘,馬琳王皓秦志戩成焦點(diǎn)

曹說體育
2025-12-21 18:36:04
突然由漲轉(zhuǎn)跌!超6.7萬人爆倉

突然由漲轉(zhuǎn)跌!超6.7萬人爆倉

每日經(jīng)濟(jì)新聞
2025-12-21 14:11:10
廣東東莞一校花 好漂亮178cm身高 55kg 美得太犯規(guī) 絕世佳人不過如此

廣東東莞一?;?好漂亮178cm身高 55kg 美得太犯規(guī) 絕世佳人不過如此

特特農(nóng)村生活
2025-12-20 09:45:11
星光大賞紅毯修羅場(chǎng):趙露思?jí)狠S被嘲,宋祖兒像偷穿大人衣服

星光大賞紅毯修羅場(chǎng):趙露思?jí)狠S被嘲,宋祖兒像偷穿大人衣服

阿甘天天傳
2025-12-22 00:05:49
沈陽恒大某項(xiàng)目的商場(chǎng)竟淪為廢品回收站

沈陽恒大某項(xiàng)目的商場(chǎng)竟淪為廢品回收站

小樣雜談
2025-12-21 19:56:49
運(yùn)營(yíng)商聽話照做,詐騙電話攔截99%!

運(yùn)營(yíng)商聽話照做,詐騙電話攔截99%!

家傳編輯部
2025-12-21 18:16:05
尹錫悅放棄抵抗了,親手送金建希進(jìn)監(jiān)獄,是他能爭(zhēng)取到的最好結(jié)果

尹錫悅放棄抵抗了,親手送金建希進(jìn)監(jiān)獄,是他能爭(zhēng)取到的最好結(jié)果

生活魔術(shù)專家
2025-12-20 16:49:24
和女兒在一起生活了七天,忽然感覺自己幾十年的省吃儉用很多余

和女兒在一起生活了七天,忽然感覺自己幾十年的省吃儉用很多余

蟬吟槐蕊
2025-12-21 14:50:50
這一夜,59歲陶慧敏秒了63歲張凱麗,才懂穿著得體的含金量有多高

這一夜,59歲陶慧敏秒了63歲張凱麗,才懂穿著得體的含金量有多高

大鐵貓娛樂
2025-12-19 16:44:25
新王登基,小波波夫2-0大破石宇奇游擊打法,賽后問怎么回事?

新王登基,小波波夫2-0大破石宇奇游擊打法,賽后問怎么回事?

真理是我親戚
2025-12-21 20:07:39
瑞幸咖啡實(shí)控人黎輝:父親是原蘭州軍區(qū)副司令,妻子是知名主持人

瑞幸咖啡實(shí)控人黎輝:父親是原蘭州軍區(qū)副司令,妻子是知名主持人

小莜讀史
2025-12-16 14:58:18
埃及被打醒了,蘇35和殲10都不買:就要一種4000萬美元中國(guó)新軍機(jī)

埃及被打醒了,蘇35和殲10都不買:就要一種4000萬美元中國(guó)新軍機(jī)

南宗歷史
2025-12-21 20:39:57
土耳其出動(dòng)F-16,報(bào)復(fù)俄羅斯對(duì)其商船的襲擊!絕不縱容無理要求

土耳其出動(dòng)F-16,報(bào)復(fù)俄羅斯對(duì)其商船的襲擊!絕不縱容無理要求

知兵
2025-12-21 23:31:40
2025-12-22 03:43:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11894文章數(shù) 176340關(guān)注度
往期回顧 全部

科技要聞

生態(tài)適配已超95% 鴻蒙下一關(guān):十萬個(gè)應(yīng)用

頭條要聞

洛熙爸爸看1000遍法醫(yī)視頻找女兒 發(fā)解剖臺(tái)畫面被禁播

頭條要聞

洛熙爸爸看1000遍法醫(yī)視頻找女兒 發(fā)解剖臺(tái)畫面被禁播

體育要聞

勇士火箭贏球:王牌之外的答案?

娛樂要聞

星光大賞太尷尬!搶話擋鏡頭,場(chǎng)地還小

財(cái)經(jīng)要聞

老房子“強(qiáng)制體檢”,政府出手了

汽車要聞

-30℃,標(biāo)致508L&凡爾賽C5 X冰雪"大考"

態(tài)度原創(chuàng)

旅游
房產(chǎn)
健康
游戲
教育

旅游要聞

萬物皆可愛

房產(chǎn)要聞

中交·藍(lán)色港灣一周年暨藍(lán)調(diào)生活沙龍圓滿舉行

這些新療法,讓化療不再那么痛苦

誰說游戲里只能打怪?這游戲讓你做鬼差推因果,善惡全由你定

教育要聞

山東理工制藥專業(yè)近三年分?jǐn)?shù)線揭秘!穩(wěn)操勝券

無障礙瀏覽 進(jìn)入關(guān)懷版 日本a级特黄特黄刺激大片| 免费观看成人av| 岛国av无码中文久久精品成人| 久久精品人妻无码一区二区三区| 精品福利国产在线| 新版中文在线官网| 日韩淫妇一区| 一边摸一边吃奶一边做爽| 白嫩大长腿尤物被打开双腿| 人妻天天摸天天爽视频| 午夜福利视频大全| 亚洲一区二区三区四区的| 国产清纯在线一区二区WWW| 亚洲国产成人综合自在线| 日韩欧美在线网站| 黑人巨大av在线播放无码| 日本熟女双插| 国产精品中文字幕av| 国产a v无码专区亚洲av| 亚洲和欧洲一码二码区别在| 久久久久久久无码区| 久久久久久HD| 亚洲、少妇、熟女| 亚洲乱妇熟女高潮到爽| 国产成人年无码av片在线观看| 欧美色图国产成人| 国产乱子伦无套一区二区三区| 久久久精品中文字幕乱码18| 国产激情久久久久影院小草| 日本免费乱论电影| 日韩激情一区二区无码AV| 精品亚洲TV| 国产 av 仑乱内谢| www.熟女.com| 免费在线观看黄色| 免费黄色视频在线观看| 国产精品人人做人人爱人人爽视频| 97在线视频免费观看| 国产亚洲日本精品成人专区| 國產亂倫視頻| 国产在线精品无码二区二区|