夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網易首頁 > 網易號 > 正文 申請入駐

NextStep-1:一次在圖像生成上自回歸范式的探索

0
分享至



機器之心發(fā)布

機器之心編輯部

自回歸模型,是 AIGC 領域一塊迷人的基石。開發(fā)者們一直在探索它在視覺生成領域的邊界,從經典的離散序列生成,到結合強大擴散模型的混合范式,每一步都凝聚了社區(qū)的智慧。

這些工作,比如 MAR、Fluid、LatentLM 等,為我們帶來了巨大的啟發(fā),也讓我們看到了進一步優(yōu)化的空間:比如,如何避免離散化帶來的信息損失?如何讓模型的架構更輕盈、更強大?

帶著這些問題,階躍星辰團隊進行了新的嘗試,并分享了階段性成果:NextStep-1

階躍星辰的初衷是探索一條新的自回歸圖像生成的路徑。NextStep-1 的核心思想是直接在連續(xù)的視覺空間中,以自回歸方式進行生成

為實現(xiàn)這一點,團隊采用了一個輕量的「流匹配頭」(Flow Matching Head)。它讓模型能夠:

  • 學會在連續(xù)的視覺空間中直接生成單個圖像 Patch,從根本上繞開了作為信息瓶頸的離散化步驟。
  • 模型以自回歸的方式,逐一生成所有 patches,最終完成一幅完整的圖像。

這一設計帶來了另一個顯著優(yōu)勢:架構的簡潔與純粹。由于不再需要外部大型擴散模型的 「輔助」,NextStep-1 的整體架構變得高度統(tǒng)一,實現(xiàn)了真正意義上的端到端訓練。

階躍星辰團隊認為,NextStep-1 的探索指向了一個有趣且充滿潛力的方向。它證明了在不犧牲連續(xù)性的前提下,構建一個簡潔、高效的自回歸模型是完全可行的。

這只是探索的第一步。階躍星辰選擇將 NextStep-1 開源,衷心期待它能引發(fā)更多有價值的討論,并希望能與社區(qū)的研究者一起,繼續(xù)推動生成技術的演進



  • 論文鏈接:https://arxiv.org/abs/2508.10711
  • GitHub 鏈接:https://github.com/stepfun-ai/NextStep-1
  • Hugging Face 模型:https://huggingface.co/collections/stepfun-ai/nextstep-1-689d80238a01322b93b8a3dc

動因探究:背后的技術支撐

整體架構

NextStep-1 的架構如圖 1 所示,其核心是一個強大的 Transformer 骨干網絡(14B 參數(shù)),輔以一個輕量級的流匹配頭(Flow Matching Head,157M 參數(shù)),用于直接生成連續(xù)的圖像 Patch。



圖 1 NextStep-1 的架構圖

這一結構極其簡潔、純粹,它帶來了兩大解放:

  • 解放了對離散化的依賴:不再需要圖像 Tokenizer 進行離散化,直接在連續(xù)空間操作。
  • 解放了對外部擴散模型的依賴:不再需要外接大型擴散模型作為 「解碼器」,實現(xiàn)了端到端的自回歸訓練。

核心發(fā)現(xiàn)

在探索 NextStep-1 的過程中,階躍星辰團隊獲得了兩個關鍵發(fā)現(xiàn),它們不僅解釋了模型為何高效,也為未來的研究提供了新的思路。

發(fā)現(xiàn)一:真正的「藝術家」 是 Transformer

在階躍星辰的框架中,Transformer 是 「主創(chuàng)」,流匹配頭更像是「畫筆」。團隊通過實驗發(fā)現(xiàn),流匹配頭的尺寸大小( 157M -> 528M),對最終圖像質量影響很小。這有力地證明了,核心的生成建模與邏輯推理等 「重活」,完全由 Transformer 承擔。流匹配頭則作為一個高效輕量的采樣器,忠實地將 Transformer 的潛在預測 「翻譯」 成圖像 Patch。

發(fā)現(xiàn)二:Tokenizer 的「煉金術」—— 穩(wěn)定與質量的關鍵

在連續(xù)視覺 Token 上的操作帶來了獨特的穩(wěn)定性挑戰(zhàn),團隊發(fā)現(xiàn)兩個關鍵 「煉金術」:

  • 通道歸一化 (Channel-Wise Normalization) 是穩(wěn)定性的「壓艙石」:通過引入簡單的通道歸一化,極其有效地穩(wěn)定了 Token 的統(tǒng)計特性,即使在高 CFG 指導強度下,也能確保生成清晰、無偽影的圖像。
  • 「更多噪聲」 竟能帶來「更好質量」:一個反直覺的發(fā)現(xiàn)是,訓練 Tokenizer 時加入更多噪聲正則化,反而能顯著提升最終生成圖像的質量。階躍星辰團隊推斷,這有助于塑造一個更魯棒、分布更均勻的潛在空間,為自回歸主模型提供更理想的工作平臺。

眼見為實:高保真的視覺生成和編輯能力

NextStep-1 實現(xiàn)了高保真的文生圖的生成,同時具有強大的圖像編輯能力,覆蓋多種編輯操作(如物體增刪、背景修改、動作修改、風格遷移等),并能理解用戶的日常語言指令,實現(xiàn)形式自由的圖像編輯。



圖 2 展示 NextStep-1 全面的圖像生成和編輯能力

硬核實力:權威 Benchmark 下的表現(xiàn)

除了直觀的視覺效果,階躍星辰團隊也在多個行業(yè)公認的 Benchmark 上對 NextStep-1 進行了嚴格的評估。結果表明,

  • 綜合性能在自回歸模型中達到了新的 SOTA(State-of-the-Art)水平
  • 在多個 benchmark 上已能與頂尖的擴散模型(Diffusion Models)直接競爭



表 1 NextStep-1 在 GenEval、GenAI-Bench 和 DPG-Bench 上的性能



表 2 NextStep-1 在 OneIG 上的性能



表 3 NextStep-1 在 WISE 上的性能



表 4 NextStep-1 在 GEdit-Bench 和 ImgEdit-Bench 上的性能

局限性與未來展望

NextStep-1 是階躍星辰團隊對構建簡潔的高保真生成模型的一次真誠探索。它證明了,在不犧牲連續(xù)性的前提下,構建一個純粹的端到端自回歸模型是完全可行的。階躍星辰相信,這條 「簡潔」 的道路,為多模態(tài)生成領域提供了有價值的新視角。

階躍星辰團隊深知這只是探索的開始,前路依然廣闊。作為一個對新范式的初步探索,NextStep-1 在展現(xiàn)出巨大潛力的同時,也讓團隊識別出了一些亟待解決的挑戰(zhàn)。我們在此坦誠地列出這些觀察,并視其為未來工作的重要方向。

生成過程中不穩(wěn)定

NextStep-1 成功證明了自回歸模型可以在高維連續(xù)潛在空間中運行,并達到媲美擴散模型的生成質量,但這條路徑也帶來了獨特的穩(wěn)定性挑戰(zhàn)。觀察到,當模型的潛在空間從低維(如 4 通道)擴展到更高維(如 16 通道)時,盡管后者能表達更豐富的細節(jié),但也偶發(fā)性地出現(xiàn)了一些生成 「翻車」的情況(如圖 3 所示)。



圖 3 失敗的例子,展示圖像生成過程中一些暴露出的問題

雖然其根本原因仍有待進一步探究,但團隊推測可能存在以下因素:

  • 局部噪聲 / 塊狀偽影: 可能源于生成后期出現(xiàn)的數(shù)值不穩(wěn)定性。
  • 全局噪聲: 可能反映了模型尚未完全收斂,需要更多的訓練來優(yōu)化。
  • 網格狀偽影: 可能揭示了當前一維位置編碼在精確捕捉二維空間關系上的局限性。

順序解碼帶來的推理延遲

自回歸模型的順序解碼特性,是其推理速度的主要瓶頸。研究團隊對單個 Token 在 H100 GPU 上的延遲進行了理論分析(如表 5 所示),結果表明:

  • 主要瓶頸在于大模型(LLM)骨干網絡的順序解碼
  • 流匹配頭(Flow Matching Head)的多步采樣過程也構成了不可忽視的開銷



表 5 H100 上生成每個 token 的理論延遲速度 ( batch size 為 1 )

這一觀察指明了兩個明確的加速方向:

  • 優(yōu)化流匹配頭:通過減小其參數(shù)量、應用模型蒸餾以實現(xiàn)少步生成,或采用更先進的少步采樣器。
  • 加速自回歸主干:借鑒大語言模型領域的最新進展,如將多 Token 預測等技術,適配到圖像 Token 的生成中。

高分辨率生成的挑戰(zhàn)

在擴展到高分辨率圖像生成方面,與技術生態(tài)已相當成熟的擴散模型相比,階躍星辰團隊的框架面臨兩大挑戰(zhàn):

  • 收斂效率:自回歸模型的嚴格順序生成特性,在更高分辨率下需要更多的訓練步數(shù)才能收斂。相比之下,擴散模型在每次迭代中并行地優(yōu)化整張圖像,能更直接地利用二維空間歸納偏置。
  • 技術遷移難度:為高分辨率擴散模型開發(fā)的先進技術(如 timestep shift)難以直接遷移。其根本原因在于,流匹配頭主要扮演一個輕量級采樣器的角色,而核心的生成建模由 Transformer 骨干網絡完成,因此單純修改采樣過程對最終輸出的影響有限。

因此,基于 patch-wise 的圖像自回歸模型的高分辨率生成是一個重要探索方向。

監(jiān)督微調(SFT)的獨特挑戰(zhàn)

團隊觀察到,當使用小規(guī)模、高質量的數(shù)據(jù)集進行微調時,訓練動態(tài)會變得極不穩(wěn)定

擴散模型通常僅需數(shù)千個樣本,就能穩(wěn)定地適應目標數(shù)據(jù)分布,同時保持良好的泛化生成能力。相比之下,階躍星辰的 SFT 過程:

  • 依賴大規(guī)模數(shù)據(jù):只有在百萬樣本規(guī)模的數(shù)據(jù)集上訓練時,才能觀察到顯著且穩(wěn)定的提升。
  • 在小數(shù)據(jù)集上表現(xiàn)脆弱:當使用小規(guī)模數(shù)據(jù)集時,模型會陷入一種 「岌岌可危」 的平衡狀態(tài)。它要么收效甚微,幾乎沒有變化;要么突然 「崩潰」,完全過擬合到目標數(shù)據(jù)分布上,喪失了原有的泛化能力。

因此,如何在一個小規(guī)模數(shù)據(jù)集上,找到一個既能對齊目標風格、又能保留通用生成能力的 「甜蜜點」(sweet spot)檢查點,對階躍星辰團隊而言仍然是一個重大的挑戰(zhàn)。

階躍星辰團隊相信,坦誠地面對這些挑戰(zhàn),是推動領域前進的第一步。

NextStep-1 的開源是團隊為此付出的努力,也希望能成為社區(qū)進一步研究的基石。階躍星辰團隊期待與全球的研究者和開發(fā)者交流與合作,共同推動自回歸生成技術向前發(fā)展。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
細思極恐!這是大S和汪小菲第一次見面的照片,大S看起來像極了獵人

細思極恐!這是大S和汪小菲第一次見面的照片,大S看起來像極了獵人

扒星人
2025-10-13 15:51:55
全新豐田卡羅拉官圖發(fā)布!顏值爆改,網友:讓人認不出

全新豐田卡羅拉官圖發(fā)布!顏值爆改,網友:讓人認不出

汽車網評
2025-10-13 22:58:26
印尼外交部駁斥:沒有相關計劃

印尼外交部駁斥:沒有相關計劃

參考消息
2025-10-13 21:37:08
官方公示!上?!暗诙l南北高架”來了!

官方公示!上海“第二條南北高架”來了!

新浪財經
2025-10-13 19:07:31
Mai穿30萬泰銖緊身褲亮相,全場沸騰!網友:這身也太敢了吧!

Mai穿30萬泰銖緊身褲亮相,全場沸騰!網友:這身也太敢了吧!

萌姐
2025-10-14 00:29:31
加拿大地方政府要求 取消對中國電動汽車關稅

加拿大地方政府要求 取消對中國電動汽車關稅

每日經濟新聞
2025-10-13 09:52:37
假戲真做?《色戒》上映18年,一張圖再次引發(fā)爭議

假戲真做?《色戒》上映18年,一張圖再次引發(fā)爭議

一盅情懷
2025-09-24 13:57:00
長安汽車第三代 UNI-V 車型將于 8月7日上市

長安汽車第三代 UNI-V 車型將于 8月7日上市

IT之家
2025-07-25 15:17:25
中科院院士怒批:我們不是拿不到諾獎,而是整天想著怎么搞關系

中科院院士怒批:我們不是拿不到諾獎,而是整天想著怎么搞關系

吃瓜局
2025-10-13 13:16:23
2024年,廣州寶馬撞人案溫慶運被注射死刑,行刑前含淚求父母救他

2024年,廣州寶馬撞人案溫慶運被注射死刑,行刑前含淚求父母救他

老謝談史
2025-10-12 12:49:42
段永平:今天買了點茅臺

段永平:今天買了點茅臺

財聯(lián)社
2025-10-13 16:30:08
兩名中國游客馬來西亞美人魚島失聯(lián) 搜救7天仍無線索,當局宣布停止搜救

兩名中國游客馬來西亞美人魚島失聯(lián) 搜救7天仍無線索,當局宣布停止搜救

紅星新聞
2025-10-13 11:54:07
梅毒腳的典型表現(xiàn)!多數(shù)人卻以為是得了腳氣,白白耽誤了病情

梅毒腳的典型表現(xiàn)!多數(shù)人卻以為是得了腳氣,白白耽誤了病情

小舟談歷史
2025-10-13 09:15:45
“花約4萬為父母升頭等艙,沒想到發(fā)生這種事!”手機落在飛機上,安全員撿到從比利時帶回上海家中

“花約4萬為父母升頭等艙,沒想到發(fā)生這種事!”手機落在飛機上,安全員撿到從比利時帶回上海家中

魯中晨報
2025-10-12 17:12:07
美財長也嘴軟了:100%對華關稅不一定要發(fā)生

美財長也嘴軟了:100%對華關稅不一定要發(fā)生

觀察者網
2025-10-14 00:06:58
荷蘭發(fā)達到什么程度了?人口僅1700萬,卻擁有12個世界五百強!

荷蘭發(fā)達到什么程度了?人口僅1700萬,卻擁有12個世界五百強!

蜉蝣說
2025-08-25 18:02:25
44歲薛凱琪演唱會造型太奔放,被嘲笑像尿不濕,爭議越大門票越漲

44歲薛凱琪演唱會造型太奔放,被嘲笑像尿不濕,爭議越大門票越漲

鄭丁嘉話
2025-09-05 09:40:09
烏克蘭網紅交易員自殺身亡,最近一波加密幣暴跌中虧掉3000萬美元

烏克蘭網紅交易員自殺身亡,最近一波加密幣暴跌中虧掉3000萬美元

都市快報橙柿互動
2025-10-12 20:24:17
為什么大部分人的認知很低,看網友所說,原來我也是這樣的人?

為什么大部分人的認知很低,看網友所說,原來我也是這樣的人?

侃神評故事
2025-10-13 17:15:03
奧迪A5L售價公布:25.58萬起,車長4908mm,搭載華為ADS智能駕駛

奧迪A5L售價公布:25.58萬起,車長4908mm,搭載華為ADS智能駕駛

念寒車評
2025-09-02 12:27:22
2025-10-14 02:35:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11450文章數(shù) 142478關注度
往期回顧 全部

科技要聞

楊強院士:AGI真正到來時 人與AI將和諧共生

頭條要聞

小米成都車禍引解鎖爭議 打不開的電動車門成監(jiān)管焦點

頭條要聞

小米成都車禍引解鎖爭議 打不開的電動車門成監(jiān)管焦點

體育要聞

29+12后24+10:韋爾生涯第二年沖MIP

娛樂要聞

王詩齡16歲生日:李湘王岳倫同框

財經要聞

2025諾貝爾經濟學獎:創(chuàng)新、毀滅與增長

汽車要聞

小米SU7高速碰撞后起火 事發(fā)前速度或超200km/h

態(tài)度原創(chuàng)

家居
教育
旅游
公開課
軍事航空

家居要聞

重奏外灘 都市微度假地

教育要聞

高中掉隊的孩子,往往都輸在初二

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

20名以色列被扣押人員將分兩批獲釋

無障礙瀏覽 進入關懷版 欧美另类第7页| 久久久久九九精品影院| 苍井空一区二区| 亚洲AV成人无码久久精品麻豆| 日本福利一区二区精品| 激情性爽三级成人| 亚洲欧美另类精品久久久| 亚洲精品自在在线观看| 一区二区三区直播公开| 亚洲人妻自拍视频| 国产老熟女狂叫对白| 亚洲精品50免费| 国内精品vA久久久久中文字幕| 国产一区二区三区无码视频| 欧美日产亚洲国产精品| 久久久 高清无码| 亚洲女同精品一区二区| 蜜美杏中文字幕一区二区| 欧美午夜一区| 欧美激情视频一区二区三区免费| 自拍校园亚洲欧美另类| 无码专区永久免费av网站| 麻豆一区二区三区精品蜜桃| 亚洲国产精品无码久久九老少| 色噜噜噜亚洲男人的天堂| 国产国产伦老妇女精品视频| 国产性生大片免费观看性| 消息称老熟妇乱视频一区二区| 色欲国产精品一区成人精品| 国产精品久久久久久亚洲色欲| 天天拍夜夜添久久精品大| 日本极品少妇XXXXⅩ喷水 | 一本一生久久a久久精品综合蜜| 日本少妇高潮| 99久久久无码国产精品免费| 伊人狼人影院| 国产精品三级黄色小视频| 天天躁人人躁人人躁狂躁| 91亚洲精品国产自在现线| 精品无码久久久久国产手机版| 手机AV在线网站|