夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

高效訓(xùn)練新標(biāo)桿!華人開(kāi)源原生VLM-NEO,以少數(shù)據(jù)追平頂級(jí)模型

0
分享至

當(dāng)下主流的視覺(jué)語(yǔ)言模型(Vision-Language Models, VLM),通常都采用這樣一種設(shè)計(jì)思路:將預(yù)訓(xùn)練的視覺(jué)編碼器與大語(yǔ)言模型通過(guò)投影層拼接起來(lái)。這種模塊化架構(gòu)成就了當(dāng)前 VLM 的輝煌,但也帶來(lái)了一系列新的問(wèn)題——多階段訓(xùn)練復(fù)雜、組件間語(yǔ)義對(duì)齊成本高,不同模塊的擴(kuò)展規(guī)律難以協(xié)調(diào)。

由南洋理工大學(xué) S-Lab 助理教授劉子緯領(lǐng)導(dǎo)的聯(lián)合團(tuán)隊(duì)最近提出了 NEO,試圖用另一種思路解決這些問(wèn)題。這項(xiàng)工作試圖回答一個(gè)根本性問(wèn)題:如果不依賴預(yù)訓(xùn)練的視覺(jué)編碼器,能否構(gòu)建出與頂級(jí)模塊化 VLM 相媲美的原生統(tǒng)一架構(gòu)?


圖丨相關(guān)論文(來(lái)源:arXiv)

在傳統(tǒng)方法中,視覺(jué)編碼器通常基于 CLIP 或 SigLIP 等預(yù)訓(xùn)練模型,這些編碼器雖然在視覺(jué)理解上表現(xiàn)出色,但其固有的語(yǔ)義偏置會(huì)限制模型在特定任務(wù)上的靈活性。

更重要的是,視覺(jué)編碼器和語(yǔ)言模型之間存在天然的“代溝”——前者采用雙向注意力機(jī)制來(lái)捕捉圖像中的全局關(guān)系,后者則使用因果注意力進(jìn)行文本的自回歸生成。這種架構(gòu)上的不匹配使得多階段訓(xùn)練不僅復(fù)雜,還需要大量的對(duì)齊數(shù)據(jù)來(lái)彌合兩個(gè)模態(tài)之間的鴻溝。

原生 VLM 的探索并非由 NEO 首創(chuàng)。早期的 Fuyu、EVE 就開(kāi)啟了這條路,但它們所面臨的一個(gè)重要問(wèn)題是:如何在語(yǔ)言模型內(nèi)部高效構(gòu)建視覺(jué)表征?這個(gè)過(guò)程往往效率低下、訓(xùn)練不穩(wěn)定,甚至?xí)茐脑械恼Z(yǔ)言能力。后續(xù)研究嘗試用知識(shí)蒸餾、混合訓(xùn)練數(shù)據(jù)或?qū)<蚁到y(tǒng)來(lái)緩解,但始終未能觸及核心問(wèn)題。NEO 的團(tuán)隊(duì)認(rèn)為,問(wèn)題的根源在于沒(méi)有從根本上為多模態(tài)重新設(shè)計(jì)模型的基礎(chǔ)組件。

NEO 團(tuán)隊(duì)的方案是構(gòu)建一個(gè)統(tǒng)一的原生基元(Native VLM Primitive),這個(gè)基元同時(shí)具備視覺(jué)編碼、跨模態(tài)對(duì)齊和多模態(tài)推理的能力。具體而言,NEO 引入了三項(xiàng)關(guān)鍵創(chuàng)新:多頭原生注意力(Multi-Head Native Attention, MHNA)、原生旋轉(zhuǎn)位置編碼(Native Rotary Position Embeddings, Native-RoPE)以及 Pre-Buffer 和 Post-LLM 的兩階段架構(gòu)設(shè)計(jì)。


圖丨原生視覺(jué)-語(yǔ)言框架概覽(來(lái)源:arXiv)

在注意力機(jī)制的設(shè)計(jì)上,NEO 采用了一種混合策略。對(duì)于圖像 token,模型使用雙向注意力,允許每個(gè)視覺(jué) token 與圖像中的所有其他 token 進(jìn)行交互,這保留了視覺(jué)編碼器捕捉全局空間關(guān)系的能力。而對(duì)于文本 token,則沿用傳統(tǒng)的因果注意力,確保自回歸生成的有效性。這種“幀級(jí)雙向、詞級(jí)因果”的混合注意力機(jī)制,讓 NEO 能夠在同一個(gè)統(tǒng)一架構(gòu)中同時(shí)處理視覺(jué)的全局理解和語(yǔ)言的序列生成。

位置編碼是 NEO 的另一個(gè)創(chuàng)新點(diǎn)。傳統(tǒng) VLM 在處理圖像和文本時(shí),往往簡(jiǎn)單地將預(yù)訓(xùn)練 LLM 的一維旋轉(zhuǎn)位置編碼(Rotary Position Embeddings, RoPE)擴(kuò)展到二維或三維空間,但這種做法會(huì)破壞 LLM 原有的建模模式,損害其語(yǔ)言能力。NEO 采用的 Native-RoPE 則完全解耦了時(shí)間(T)、高度(H)和寬度(W)三個(gè)維度的索引和頻率分配。


圖丨NEO 框架(來(lái)源:arXiv)

對(duì)于文本,模型保持原有的時(shí)間維度索引,而將高度和寬度維度的索引置零;對(duì)于圖像,每個(gè)視覺(jué) token 擁有固定的時(shí)間索引和獨(dú)特的空間坐標(biāo)。這種設(shè)計(jì)不僅保持了與預(yù)訓(xùn)練 LLM 的兼容性,還能更好地捕捉圖像中的局部語(yǔ)義依賴關(guān)系。

在訓(xùn)練策略上,NEO 采用了 Pre-Buffer 和 Post-LLM 的分離式預(yù)訓(xùn)練。Pre-Buffer 負(fù)責(zé)從頭學(xué)習(xí)視覺(jué)感知,而 Post-LLM 則繼承預(yù)訓(xùn)練 LLM 的強(qiáng)大語(yǔ)言能力和推理能力。在預(yù)訓(xùn)練階段,Post-LLM 的參數(shù)被凍結(jié),僅訓(xùn)練 Pre-Buffer 和新增的 Query-Key 頭維度及歸一化層。

這種設(shè)計(jì)既保護(hù)了 LLM 的語(yǔ)言知識(shí)不被低質(zhì)量的圖像-文本對(duì)破壞,又允許 Pre-Buffer 在大規(guī)模視覺(jué)數(shù)據(jù)上進(jìn)行充分的學(xué)習(xí)。到了中期訓(xùn)練和監(jiān)督微調(diào)階段,Pre-Buffer 和 Post-LLM 被合并為一個(gè)統(tǒng)一的單體架構(gòu),模型能夠自主地在編碼、對(duì)齊和推理之間分配計(jì)算資源。

此外,Pre-Buffer 本身具有可復(fù)用性。這個(gè)經(jīng)過(guò)大規(guī)模視覺(jué)數(shù)據(jù)預(yù)訓(xùn)練的模塊可以作為開(kāi)源資源,幫助后續(xù)研究者以更低的成本將新的 LLM 適配為 VLM。

值得注意的是,NEO 在訓(xùn)練效率上展現(xiàn)出令人驚訝的表現(xiàn)。整個(gè)預(yù)訓(xùn)練階段僅使用了 3.45 億圖文對(duì),這個(gè)數(shù)據(jù)規(guī)模遠(yuǎn)小于主流模塊化 VLM 動(dòng)輒數(shù)十億的訓(xùn)練數(shù)據(jù)。在中期訓(xùn)練階段,NEO 使用 4000 萬(wàn)樣本進(jìn)行視覺(jué)-語(yǔ)言對(duì)齊的強(qiáng)化;監(jiān)督微調(diào)階段則使用約 400 萬(wàn)條高質(zhì)量指令數(shù)據(jù)??傆?jì)不到 4 億的訓(xùn)練樣本,NEO-2.2B 和 NEO-9B 兩個(gè)版本就達(dá)到了與頂級(jí)模塊化 VLM 相當(dāng)?shù)男阅芩健?/p>


圖丨與其他模塊化和原生 VLM 的基準(zhǔn)測(cè)試比較(來(lái)源:arXiv)

在多項(xiàng)標(biāo)準(zhǔn)評(píng)估基準(zhǔn)上,NEO 的表現(xiàn)出色。在 MMMU(多學(xué)科多模態(tài)理解與推理)測(cè)試中,NEO-2.2B 獲得了 48.6 分,超過(guò)了 InternVL2.5(43.6 分)和 HoVLE(32.2 分)等原生 VLM 競(jìng)品。

在文檔理解任務(wù)如 AI2D 和 DocVQA 上,NEO-2.2B 分別達(dá)到 80.1 分和 89.9 分,接近甚至超過(guò)了一些采用強(qiáng)化學(xué)習(xí)的模塊化模型。更大的 NEO-9B 版本在多個(gè)基準(zhǔn)上的表現(xiàn)更加出色,在 MMBench 上獲得 82.1 分,在 AI2D 上達(dá)到 83.1 分,與使用數(shù)十億訓(xùn)練數(shù)據(jù)的 Qwen2-VL 和 InternVL2.5 處于同一競(jìng)爭(zhēng)梯隊(duì)。

當(dāng)然,NEO 也還存在一些局限性。在知識(shí)密集型和 OCR(光學(xué)字符識(shí)別)重度任務(wù)上,如 MMMU、InfoVQA 和 TextVQA 等測(cè)試中,NEO 的表現(xiàn)相對(duì)落后。NEO-9B 在某些 OCR 任務(wù)如 DocVQA 和 InfoVQA 上的表現(xiàn)甚至不如 NEO-2.2B,這表明當(dāng)前的訓(xùn)練語(yǔ)料庫(kù)在這些特定領(lǐng)域可能存在不足。

研究團(tuán)隊(duì)在論文中表示,這些局限性主要源于訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量限制,而非架構(gòu)本身的問(wèn)題。如果能夠獲得更大規(guī)模、更高質(zhì)量的訓(xùn)練數(shù)據(jù),NEO 的潛力還有很大的提升空間。

參考資料:

1.https://arxiv.org/pdf/2510.14979v1

2.https://github.com/EvolvingLMMs-Lab/NEO

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
火箭斗雄鹿!傷病名單出爐:休城2人傷缺,雄鹿字母哥大概率出戰(zhàn)

火箭斗雄鹿!傷病名單出爐:休城2人傷缺,雄鹿字母哥大概率出戰(zhàn)

熊哥愛(ài)籃球
2025-11-09 21:29:58
被 Windows 11 氣瘋后,我怒裝了個(gè) Linux,結(jié)果…真香!

被 Windows 11 氣瘋后,我怒裝了個(gè) Linux,結(jié)果…真香!

呼呼歷史論
2025-11-10 00:13:55
凌晨4點(diǎn) 巴薩追分之戰(zhàn)!輸球?qū)⒌恋? 萊萬(wàn)回歸 4舊將反戈

凌晨4點(diǎn) 巴薩追分之戰(zhàn)!輸球?qū)⒌恋? 萊萬(wàn)回歸 4舊將反戈

葉青足球世界
2025-11-09 10:01:15
提拔干部之前,小道消息往往是真的,哪里傳出來(lái)的?

提拔干部之前,小道消息往往是真的,哪里傳出來(lái)的?

霹靂炮
2025-11-09 22:56:08
1-0,19歲新星一劍封喉,穆帥爭(zhēng)冠勁敵豪取3連勝,領(lǐng)先本菲卡7分

1-0,19歲新星一劍封喉,穆帥爭(zhēng)冠勁敵豪取3連勝,領(lǐng)先本菲卡7分

凌空倒鉤
2025-11-10 03:57:03
阿隆索毫無(wú)辦法,億元先生全都啞火,2場(chǎng)不勝0進(jìn)球太罕見(jiàn)

阿隆索毫無(wú)辦法,億元先生全都啞火,2場(chǎng)不勝0進(jìn)球太罕見(jiàn)

足球狗說(shuō)
2025-11-10 01:28:30
公職男子偽造公章假離婚后重婚,前妻:我惡心,當(dāng)初怎么看上他

公職男子偽造公章假離婚后重婚,前妻:我惡心,當(dāng)初怎么看上他

觀威海
2025-11-09 17:06:08
俄烏沖突,正朝著我們?cè)静桓蚁胂蟮姆较虬l(fā)展,中國(guó)的國(guó)運(yùn)要來(lái)了

俄烏沖突,正朝著我們?cè)静桓蚁胂蟮姆较虬l(fā)展,中國(guó)的國(guó)運(yùn)要來(lái)了

朔方瞭望
2025-11-09 18:11:41
演員溫崢嶸自曝刷到AI盜播,抖音副總裁李亮回應(yīng)

演員溫崢嶸自曝刷到AI盜播,抖音副總裁李亮回應(yīng)

界面新聞
2025-11-07 08:57:44
又被零封,皇馬自2023年5月以來(lái)首次連續(xù)兩場(chǎng)沒(méi)進(jìn)球

又被零封,皇馬自2023年5月以來(lái)首次連續(xù)兩場(chǎng)沒(méi)進(jìn)球

懂球帝
2025-11-10 01:37:08
一個(gè)壞習(xí)慣,掏空你的腎!很多人都中招了

一個(gè)壞習(xí)慣,掏空你的腎!很多人都中招了

掌上腎醫(yī)
2025-11-09 15:14:07
臺(tái)獨(dú)知錯(cuò)了?賴清德撤離臺(tái)軍,請(qǐng)求大陸和平統(tǒng)一,釋放什么訊號(hào)

臺(tái)獨(dú)知錯(cuò)了?賴清德撤離臺(tái)軍,請(qǐng)求大陸和平統(tǒng)一,釋放什么訊號(hào)

青途歷史
2025-10-16 20:28:37
11月9日晚間,多家上市公司發(fā)布重大利好利空好消息

11月9日晚間,多家上市公司發(fā)布重大利好利空好消息

A股數(shù)據(jù)表
2025-11-09 17:28:45
胡適評(píng)價(jià)毛主席寫(xiě)的詞,“沒(méi)有一句通的”,那么胡適的水平如何?

胡適評(píng)價(jià)毛主席寫(xiě)的詞,“沒(méi)有一句通的”,那么胡適的水平如何?

芊芊之言
2025-11-04 00:10:09
NBA發(fā)展聯(lián)盟首秀就打出現(xiàn)象級(jí)表現(xiàn),湖人其實(shí)不應(yīng)該將他裁掉?

NBA發(fā)展聯(lián)盟首秀就打出現(xiàn)象級(jí)表現(xiàn),湖人其實(shí)不應(yīng)該將他裁掉?

稻谷與小麥
2025-11-10 01:01:13
言承旭周渝民吳建豪組成F3,朱孝天被排除在外

言承旭周渝民吳建豪組成F3,朱孝天被排除在外

韓小娛
2025-11-09 17:46:11
拍三級(jí)片成名的“問(wèn)題少女”,沒(méi)家世沒(méi)文化,憑什么嫁給了鄭伊健

拍三級(jí)片成名的“問(wèn)題少女”,沒(méi)家世沒(méi)文化,憑什么嫁給了鄭伊健

兩兄弟養(yǎng)牛
2025-11-09 04:18:47
張國(guó)榮真正死因曝光!向太:根本沒(méi)抑郁癥,本來(lái)能活,男友不讓救

張國(guó)榮真正死因曝光!向太:根本沒(méi)抑郁癥,本來(lái)能活,男友不讓救

八斗小先生
2025-09-08 14:05:28
張家界荒野求生選手抓到了野豬,吃得滿嘴流油!網(wǎng)友:丟的骨頭都比其他選手的食物好

張家界荒野求生選手抓到了野豬,吃得滿嘴流油!網(wǎng)友:丟的骨頭都比其他選手的食物好

極目新聞
2025-11-08 19:06:51
顛覆認(rèn)知!美國(guó)發(fā)明新型人工神經(jīng)元,或從物理上復(fù)刻人類(lèi)大腦

顛覆認(rèn)知!美國(guó)發(fā)明新型人工神經(jīng)元,或從物理上復(fù)刻人類(lèi)大腦

徐德文科學(xué)頻道
2025-11-07 22:26:50
2025-11-10 06:32:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15843文章數(shù) 514278關(guān)注度
往期回顧 全部

科技要聞

黃仁勛親赴臺(tái)積電“討要更多芯片”

頭條要聞

白宮:BBC是“假媒體” 惡意剪輯特朗普講話

頭條要聞

白宮:BBC是“假媒體” 惡意剪輯特朗普講話

體育要聞

他只想默默地拿走最后一億美元

娛樂(lè)要聞

《繁花》事件影響:唐嫣工作被取消

財(cái)經(jīng)要聞

10月CPI同比漲0.2% PPI同比下降2.1%

汽車(chē)要聞

鈦7月銷(xiāo)破2萬(wàn) 霜霧灰與青巒翠配色正式開(kāi)啟交付

態(tài)度原創(chuàng)

游戲
房產(chǎn)
教育
藝術(shù)
公開(kāi)課

《暗黑四》又在藏什么?官方暗示TGA有新內(nèi)容!

房產(chǎn)要聞

封關(guān)倒計(jì)時(shí)!三亞主城 2.3 萬(wàn) /㎡+ 即買(mǎi)即住,手慢無(wú)!

教育要聞

每個(gè)掉隊(duì)的背后,都有懶散的影子

藝術(shù)要聞

Kelly Birkenruth:美國(guó)當(dāng)代現(xiàn)實(shí)主義畫(huà)家

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 欧美日韩在线亚洲综合国产人| 3级国产操逼片| 性爱网址欧美女同| 国模无码在线视频| 欧洲免费一区二区三区视频| www.zz17.cn| h视频在线播放| 亚洲无码网站在线免费播放 | 国产区视频在线观看| 欧美老熟妇卖屄| 正在播放肥臀熟妇在线视频| 久久综合给合久久狠狠狠97色69| 一区二区免费视频播放器| 91亚洲免费| 收个毛片看看| 狠狠躁夜夜躁人人躁婷婷视频| 奇米在线888| 欧美 日韩 人妻| 秋霞午夜无码鲁丝片午夜精品| 肏老熟妇高潮喷水专区| 久久久久久亚洲AV成人无码国产| 人人干人人插人人舔| 欧美肏屄网站| 免費A級毛片| 毛片网站播放| 国产精品久久久久久久久妇女| 亚洲av无码精品色午夜| 国产欧美日韩一区二区搜索| 亚洲日韩精品一区二区三区| 天堂AV片亚洲AV片内射AV片| 中文字幕黑人av| 久久久久国产精品| 精品国产拍国产天天人| 动漫videos麻豆| 下面一进一出好爽视频| 国内自拍五区| 日韩高清亚洲日韩精品一区二区 | 青青青爽在线视频免费观看| 免费视频爱爱太爽了| 精品久久久久久性色AV| 五十路久久精品中文字幕|