夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

高效訓(xùn)練新標(biāo)桿!華人開源原生VLM-NEO,以少數(shù)據(jù)追平頂級模型

0
分享至

當(dāng)下主流的視覺語言模型(Vision-Language Models, VLM),通常都采用這樣一種設(shè)計思路:將預(yù)訓(xùn)練的視覺編碼器與大語言模型通過投影層拼接起來。這種模塊化架構(gòu)成就了當(dāng)前 VLM 的輝煌,但也帶來了一系列新的問題——多階段訓(xùn)練復(fù)雜、組件間語義對齊成本高,不同模塊的擴展規(guī)律難以協(xié)調(diào)。

由南洋理工大學(xué) S-Lab 助理教授劉子緯領(lǐng)導(dǎo)的聯(lián)合團隊最近提出了 NEO,試圖用另一種思路解決這些問題。這項工作試圖回答一個根本性問題:如果不依賴預(yù)訓(xùn)練的視覺編碼器,能否構(gòu)建出與頂級模塊化 VLM 相媲美的原生統(tǒng)一架構(gòu)?


圖丨相關(guān)論文(來源:arXiv)

在傳統(tǒng)方法中,視覺編碼器通常基于 CLIP 或 SigLIP 等預(yù)訓(xùn)練模型,這些編碼器雖然在視覺理解上表現(xiàn)出色,但其固有的語義偏置會限制模型在特定任務(wù)上的靈活性。

更重要的是,視覺編碼器和語言模型之間存在天然的“代溝”——前者采用雙向注意力機制來捕捉圖像中的全局關(guān)系,后者則使用因果注意力進行文本的自回歸生成。這種架構(gòu)上的不匹配使得多階段訓(xùn)練不僅復(fù)雜,還需要大量的對齊數(shù)據(jù)來彌合兩個模態(tài)之間的鴻溝。

原生 VLM 的探索并非由 NEO 首創(chuàng)。早期的 Fuyu、EVE 就開啟了這條路,但它們所面臨的一個重要問題是:如何在語言模型內(nèi)部高效構(gòu)建視覺表征?這個過程往往效率低下、訓(xùn)練不穩(wěn)定,甚至?xí)茐脑械恼Z言能力。后續(xù)研究嘗試用知識蒸餾、混合訓(xùn)練數(shù)據(jù)或?qū)<蚁到y(tǒng)來緩解,但始終未能觸及核心問題。NEO 的團隊認為,問題的根源在于沒有從根本上為多模態(tài)重新設(shè)計模型的基礎(chǔ)組件。

NEO 團隊的方案是構(gòu)建一個統(tǒng)一的原生基元(Native VLM Primitive),這個基元同時具備視覺編碼、跨模態(tài)對齊和多模態(tài)推理的能力。具體而言,NEO 引入了三項關(guān)鍵創(chuàng)新:多頭原生注意力(Multi-Head Native Attention, MHNA)、原生旋轉(zhuǎn)位置編碼(Native Rotary Position Embeddings, Native-RoPE)以及 Pre-Buffer 和 Post-LLM 的兩階段架構(gòu)設(shè)計。


圖丨原生視覺-語言框架概覽(來源:arXiv)

在注意力機制的設(shè)計上,NEO 采用了一種混合策略。對于圖像 token,模型使用雙向注意力,允許每個視覺 token 與圖像中的所有其他 token 進行交互,這保留了視覺編碼器捕捉全局空間關(guān)系的能力。而對于文本 token,則沿用傳統(tǒng)的因果注意力,確保自回歸生成的有效性。這種“幀級雙向、詞級因果”的混合注意力機制,讓 NEO 能夠在同一個統(tǒng)一架構(gòu)中同時處理視覺的全局理解和語言的序列生成。

位置編碼是 NEO 的另一個創(chuàng)新點。傳統(tǒng) VLM 在處理圖像和文本時,往往簡單地將預(yù)訓(xùn)練 LLM 的一維旋轉(zhuǎn)位置編碼(Rotary Position Embeddings, RoPE)擴展到二維或三維空間,但這種做法會破壞 LLM 原有的建模模式,損害其語言能力。NEO 采用的 Native-RoPE 則完全解耦了時間(T)、高度(H)和寬度(W)三個維度的索引和頻率分配。


圖丨NEO 框架(來源:arXiv)

對于文本,模型保持原有的時間維度索引,而將高度和寬度維度的索引置零;對于圖像,每個視覺 token 擁有固定的時間索引和獨特的空間坐標(biāo)。這種設(shè)計不僅保持了與預(yù)訓(xùn)練 LLM 的兼容性,還能更好地捕捉圖像中的局部語義依賴關(guān)系。

在訓(xùn)練策略上,NEO 采用了 Pre-Buffer 和 Post-LLM 的分離式預(yù)訓(xùn)練。Pre-Buffer 負責(zé)從頭學(xué)習(xí)視覺感知,而 Post-LLM 則繼承預(yù)訓(xùn)練 LLM 的強大語言能力和推理能力。在預(yù)訓(xùn)練階段,Post-LLM 的參數(shù)被凍結(jié),僅訓(xùn)練 Pre-Buffer 和新增的 Query-Key 頭維度及歸一化層。

這種設(shè)計既保護了 LLM 的語言知識不被低質(zhì)量的圖像-文本對破壞,又允許 Pre-Buffer 在大規(guī)模視覺數(shù)據(jù)上進行充分的學(xué)習(xí)。到了中期訓(xùn)練和監(jiān)督微調(diào)階段,Pre-Buffer 和 Post-LLM 被合并為一個統(tǒng)一的單體架構(gòu),模型能夠自主地在編碼、對齊和推理之間分配計算資源。

此外,Pre-Buffer 本身具有可復(fù)用性。這個經(jīng)過大規(guī)模視覺數(shù)據(jù)預(yù)訓(xùn)練的模塊可以作為開源資源,幫助后續(xù)研究者以更低的成本將新的 LLM 適配為 VLM。

值得注意的是,NEO 在訓(xùn)練效率上展現(xiàn)出令人驚訝的表現(xiàn)。整個預(yù)訓(xùn)練階段僅使用了 3.45 億圖文對,這個數(shù)據(jù)規(guī)模遠小于主流模塊化 VLM 動輒數(shù)十億的訓(xùn)練數(shù)據(jù)。在中期訓(xùn)練階段,NEO 使用 4000 萬樣本進行視覺-語言對齊的強化;監(jiān)督微調(diào)階段則使用約 400 萬條高質(zhì)量指令數(shù)據(jù)??傆嫴坏?4 億的訓(xùn)練樣本,NEO-2.2B 和 NEO-9B 兩個版本就達到了與頂級模塊化 VLM 相當(dāng)?shù)男阅芩健?/p>


圖丨與其他模塊化和原生 VLM 的基準測試比較(來源:arXiv)

在多項標(biāo)準評估基準上,NEO 的表現(xiàn)出色。在 MMMU(多學(xué)科多模態(tài)理解與推理)測試中,NEO-2.2B 獲得了 48.6 分,超過了 InternVL2.5(43.6 分)和 HoVLE(32.2 分)等原生 VLM 競品。

在文檔理解任務(wù)如 AI2D 和 DocVQA 上,NEO-2.2B 分別達到 80.1 分和 89.9 分,接近甚至超過了一些采用強化學(xué)習(xí)的模塊化模型。更大的 NEO-9B 版本在多個基準上的表現(xiàn)更加出色,在 MMBench 上獲得 82.1 分,在 AI2D 上達到 83.1 分,與使用數(shù)十億訓(xùn)練數(shù)據(jù)的 Qwen2-VL 和 InternVL2.5 處于同一競爭梯隊。

當(dāng)然,NEO 也還存在一些局限性。在知識密集型和 OCR(光學(xué)字符識別)重度任務(wù)上,如 MMMU、InfoVQA 和 TextVQA 等測試中,NEO 的表現(xiàn)相對落后。NEO-9B 在某些 OCR 任務(wù)如 DocVQA 和 InfoVQA 上的表現(xiàn)甚至不如 NEO-2.2B,這表明當(dāng)前的訓(xùn)練語料庫在這些特定領(lǐng)域可能存在不足。

研究團隊在論文中表示,這些局限性主要源于訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量限制,而非架構(gòu)本身的問題。如果能夠獲得更大規(guī)模、更高質(zhì)量的訓(xùn)練數(shù)據(jù),NEO 的潛力還有很大的提升空間。

參考資料:

1.https://arxiv.org/pdf/2510.14979v1

2.https://github.com/EvolvingLMMs-Lab/NEO

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
巴特勒:我們這幫老頭馬上要淡出聯(lián)盟了,要當(dāng)年輕人的引路人

巴特勒:我們這幫老頭馬上要淡出聯(lián)盟了,要當(dāng)年輕人的引路人

雷速體育
2025-10-29 15:20:14
陳偉霆眼光有多毒?何穗這狀態(tài)讓全網(wǎng)炸鍋!

陳偉霆眼光有多毒?何穗這狀態(tài)讓全網(wǎng)炸鍋!

阿俆評論哥
2025-10-28 12:47:57
“臺獨”頑固分子沈伯洋被重慶警方立案偵查,專家解讀

“臺獨”頑固分子沈伯洋被重慶警方立案偵查,專家解讀

環(huán)球網(wǎng)資訊
2025-10-29 07:25:05
我78無退休金,女兒養(yǎng)我20年,昨天兒媳主動來接,我當(dāng)場拒絕了

我78無退休金,女兒養(yǎng)我20年,昨天兒媳主動來接,我當(dāng)場拒絕了

黃小乖的日記
2025-10-29 23:26:35
經(jīng)濟學(xué)家王德培:中國老百姓是不容易的,已進入急劇大洗牌階段!

經(jīng)濟學(xué)家王德培:中國老百姓是不容易的,已進入急劇大洗牌階段!

普覽
2025-10-28 17:14:53
內(nèi)科主任提醒:過了60歲后,寧可打打麻將,也別在家隨意做5件事

內(nèi)科主任提醒:過了60歲后,寧可打打麻將,也別在家隨意做5件事

今日養(yǎng)生之道
2025-10-14 11:03:53
趕在坐飛機來陸前,鄭麗文率先發(fā)出邀請,解放軍轟6K飛抵臺島周邊

趕在坐飛機來陸前,鄭麗文率先發(fā)出邀請,解放軍轟6K飛抵臺島周邊

歷史有些冷
2025-10-28 20:40:08
辛納回應(yīng)巴黎重返世界第一:這是明年目標(biāo),這兒場地我也需要適應(yīng)

辛納回應(yīng)巴黎重返世界第一:這是明年目標(biāo),這兒場地我也需要適應(yīng)

網(wǎng)球之家
2025-10-29 22:24:28
最血腥一夜,烏軍彈盡糧絕敢死隊4次沖圍:俄軍火箭溫壓彈一鍋燴

最血腥一夜,烏軍彈盡糧絕敢死隊4次沖圍:俄軍火箭溫壓彈一鍋燴

薦史
2025-10-29 11:36:14
10月30日凌晨,冠軍賽16強出爐,國乒2勝5負,陳熠王藝迪晉級

10月30日凌晨,冠軍賽16強出爐,國乒2勝5負,陳熠王藝迪晉級

林子說事
2025-10-30 05:00:50
宏勝集團2025年片區(qū)工作會議召開,宗馥莉參會作工作部署

宏勝集團2025年片區(qū)工作會議召開,宗馥莉參會作工作部署

澎湃新聞
2025-10-29 18:46:33
賭王三房參與圍殺大房

賭王三房參與圍殺大房

毒舌扒姨太
2025-10-29 22:52:28
里皮之子:父親簽埃神是破例,俱樂部因此獲利1700萬歐

里皮之子:父親簽埃神是破例,俱樂部因此獲利1700萬歐

雷速體育
2025-10-29 16:35:15
鄭麗文慘遭迫害,賴清德玩陰的,中央政府雷霆出擊,力挽狂瀾

鄭麗文慘遭迫害,賴清德玩陰的,中央政府雷霆出擊,力挽狂瀾

小影的娛樂
2025-10-24 06:24:47
真是同屆的前三球員嗎?狀元已成巨星,榜眼玻璃人,探花平庸!

真是同屆的前三球員嗎?狀元已成巨星,榜眼玻璃人,探花平庸!

籃球圈里的那些事
2025-10-29 17:42:03
震撼出爐!超級計算機預(yù)測 2025-26 英超積分榜

震撼出爐!超級計算機預(yù)測 2025-26 英超積分榜

慕承
2025-10-29 12:50:59
河北1男子27年來,反復(fù)夢見1女子和梨樹:哪料,男子竟憑記憶找到

河北1男子27年來,反復(fù)夢見1女子和梨樹:哪料,男子竟憑記憶找到

林子說事
2025-10-30 03:44:02
央行欲推行一次性信用修復(fù),以前欠的錢不還也沒事了?

央行欲推行一次性信用修復(fù),以前欠的錢不還也沒事了?

王五說說看
2025-10-29 12:20:36
曝!中國移動原董事長奚國華重大動向

曝!中國移動原董事長奚國華重大動向

通信頭條
2025-10-29 21:20:18
長度200余米,比055型驅(qū)逐艦,長了20米,到底有多強悍?

長度200余米,比055型驅(qū)逐艦,長了20米,到底有多強悍?

阿芒娛樂說
2025-10-30 04:49:07
2025-10-30 07:48:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15793文章數(shù) 514247關(guān)注度
往期回顧 全部

科技要聞

英偉達GTC:黃仁勛撒錢、造芯、造夢

頭條要聞

男子徒步深圳"望郎歸"突發(fā)熱射病 家屬:多器官被燒壞

頭條要聞

男子徒步深圳"望郎歸"突發(fā)熱射病 家屬:多器官被燒壞

體育要聞

那不勒斯冬窗欲簽曼聯(lián)新帝星!阿莫林拒放行,或給其最后機會正名

娛樂要聞

她二婚嫁給許紹雄,恩愛40年不離不棄

財經(jīng)要聞

美聯(lián)儲降息25個基點 12月起結(jié)束縮表

汽車要聞

自信大廠做派 全新瑞虎8詮釋什么是穩(wěn)中進化

態(tài)度原創(chuàng)

親子
健康
手機
游戲
軍事航空

親子要聞

如果一個孩子變懂事了可能有個扎心的原因

肌腱、韌帶、滑膜知多少?

手機要聞

OPPO Find X9 Ultra與榮耀Magic8 Ultra:誰會更勝一籌?

魔獸懷舊服:MOP前夕即將開放,大量新增玩法,這些事情別忘記做

軍事要聞

以軍稱開始重新執(zhí)行加沙停火協(xié)議

無障礙瀏覽 進入關(guān)懷版 一本色综合久久| 婷婷五月综合色中文字幕| 在线观看成人永久免费网站| 午夜福利在线观看6080| 亚洲AV无码久久精品久久久天| 欧洲成人AV| 欧美顶级metart裸体全部自慰| 久久久久少妇久久久久| 少妇AV一区二区三区无码按摩| 国产精品欧美福利久久| а√8天堂中文官网资源| 夜夜爱夜夜做夜夜爽| 午夜av在线| 天堂亚洲免费视频| aaaaa少妇高潮大片| 亚洲熟女播放| 97一区二区国产好的精华液| 狼友av永久网站免费观看孕交| 在哪里可以看到免费毛片| 26uuu在线欧美| 午夜自慰喷水女成人AV| 日本人妻一区二区| 四虎在线播放无码| 欧美成a人片在线观看久| 少妇愉情理伦片BD| 欧美黑人性暴力猛交| 国产美女深夜福利在线一| 一卡2卡3卡4卡精品乱码视频| 婷婷开心激情综合五月天| 高清日韩一区二区视频| 人与禽zozo性伦| 久久久久久精品毛片A级蜜桃| 少妇粗大进出白浆嘿嘿视频| 久久少妇高潮| 亚洲AV无码国产精品专区| 亚洲а∨天堂2014在线无码| 91人妻人人澡| 操美女免费黄站| 人妻无码一区二区不卡无码av| 蜜乳aⅴ一区二区三区| 久久国产精品偷|