夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Being-VL的視覺(jué)BPE路線:把「看」和「說(shuō)」真正統(tǒng)一起來(lái)

0
分享至



在多模態(tài)模型里,CLIP-style encoder往往把視覺(jué)表征過(guò)早地拉近到文本空間:對(duì)于抽象層面的問(wèn)答,如總結(jié)圖片大致內(nèi)容,這樣的表征其實(shí)是沒(méi)有什么問(wèn)題的,但一旦追問(wèn)與語(yǔ)言無(wú)強(qiáng)依賴的細(xì)節(jié),模型就更易出現(xiàn)幻覺(jué)。根本原因之一,是在文本空間對(duì)齊之前,原生視覺(jué)結(jié)構(gòu)已被不可逆地壓縮 / 丟失,而語(yǔ)言模型不得不「二次解碼」來(lái)自他模態(tài)的 embedding,導(dǎo)致對(duì)齊脆弱、推理鏈條變長(zhǎng)。

為此,北大、UC San Diego 和 BeingBeyond 聯(lián)合提出一種新的方法——Being-VL 的視覺(jué) BPE 路線。Being-VL 的出發(fā)點(diǎn)是把這一步后置:先在純自監(jiān)督、無(wú) language condition的設(shè)定下,把圖像離散化并「分詞」,再與文本在同一詞表、同一序列中由同一 Transformer 統(tǒng)一建模,從源頭縮短跨模態(tài)鏈路并保留視覺(jué)結(jié)構(gòu)先驗(yàn)。

Being-VL 的實(shí)現(xiàn)分為三步。首先用 VQ(如 VQ-GAN)把圖像量化為離散VQ tokens;隨后訓(xùn)練一個(gè)視覺(jué)版 BPE,不只看共現(xiàn)頻次,還顯式度量空間一致性,以優(yōu)先合并那些既常見(jiàn)又在不同圖像中相對(duì)位置穩(wěn)定的 token 對(duì),得到更具語(yǔ)義與結(jié)構(gòu)的BPE tokens;最后把視覺(jué) tokens 與文本 tokens 串成同一序列,進(jìn)入同一個(gè)自回歸 LLM 統(tǒng)一建模,不再依賴額外 projector 或 CLIP 對(duì)齊。整個(gè) BPE 詞表學(xué)習(xí)僅依賴圖像統(tǒng)計(jì),不看文本,真正把「語(yǔ)言對(duì)齊」留到后續(xù)階段。





  • 論文鏈接:https://arxiv.org/abs/2506.23639
  • 項(xiàng)目主頁(yè):
  • https://beingbeyond.github.io/Being-VL-0.5
  • GitHub:
  • https://github.com/beingbeyond/Being-VL-0.5

與「把視覺(jué)直接投到文本空間」有何本質(zhì)不同?

傳統(tǒng)做法讓 LLM 去再解釋外部視覺(jué) encoder 的連續(xù) embedding;即便 encoder 學(xué)到了豐富模式,沒(méi)有對(duì)應(yīng)解碼器,LLM也要額外學(xué)習(xí)如何「讀懂」其他模態(tài),這會(huì)放大模態(tài)鴻溝并誘發(fā)幻覺(jué)。Being-VL 把視覺(jué)提前離散化為可組合的 tokens,并在序列里與文本統(tǒng)一建模,減少表征形態(tài)錯(cuò)位,縮短跨模態(tài)因果鏈條,從而在保持感知細(xì)節(jié)與高層語(yǔ)義的同時(shí),降低「想象成分」。


針對(duì)視覺(jué)場(chǎng)景設(shè)計(jì)的 BPE tokenizer:頻次 × 空間一致性

文本大模型中的 BPE 只看「誰(shuí)和誰(shuí)經(jīng)常相鄰」。在視覺(jué)里,如果只按頻次去合并,容易破壞結(jié)構(gòu)。Being-VL 因此提出Priority-Guided Encoding:基于 score P (a,b)=F (a,b)+α?S (a,b) 進(jìn)行 BPE 詞表構(gòu)建,其中 F 為鄰接頻次,S 衡量在不同圖像中的相對(duì)位置一致性,相似度用高斯核對(duì)齊。這樣得到的視覺(jué)詞表既覆蓋高頻模式,又保留空間結(jié)構(gòu)。并且這個(gè)過(guò)程完全不依賴文本。

三階段訓(xùn)練:從 VQ/BPE embeddings 到 LLM backbone 的漸進(jìn)解凍

為了讓統(tǒng)一的離散表示平滑接入語(yǔ)言模型,Being-VL 采用三階段(3-stage)訓(xùn)練并顯式控制解凍順序:

  • Stage-1 / Embedding Alignment:只訓(xùn)練新擴(kuò)展的視覺(jué) token embeddings(包括 VQ 與 BPE 兩部分),其余參數(shù)全部?jī)鼋Y(jié),完成基礎(chǔ)對(duì)齊而不擾動(dòng)原有語(yǔ)言能力。
  • Stage-2 / Selective Fine-tuning:解凍 LLM 前若干層(默認(rèn)約 25%),其余層繼續(xù)凍結(jié),讓跨模態(tài)交互首先在底層表征中發(fā)生。
  • Stage-3 / Full Fine-tuning:全量解凍,在更復(fù)雜的 reasoning /instruction 數(shù)據(jù)上收尾,強(qiáng)化高級(jí)能力。

與解凍節(jié)奏配套,數(shù)據(jù)采用curriculum:從基礎(chǔ) caption 與屬性識(shí)別,逐步過(guò)渡到視覺(jué)問(wèn)答與多輪指令,顯式對(duì)齊 BPE 的「由局部到整體」的層級(jí)特性。消融表明:漸進(jìn)解凍 + curriculum明顯優(yōu)于單階段訓(xùn)練;只用其中任一也不如兩者合用。



實(shí)驗(yàn)與分析

Being-VL 的一系列對(duì)照實(shí)驗(yàn)給出一個(gè)清晰結(jié)論:把圖像先離散化并做視覺(jué) BPE,再與文本在同一序列里統(tǒng)一建模,既穩(wěn)又有效。相較傳統(tǒng)「先拉到文本空間」的做法,這種統(tǒng)一的離散表示更少丟失原生視覺(jué)信息,因而在細(xì)節(jié)敏感的問(wèn)答與抗幻覺(jué)上更可靠;而一旦移除 BPE,性能與穩(wěn)健性都會(huì)整體下降,說(shuō)明增益主要來(lái)自于把「常見(jiàn)且空間關(guān)系穩(wěn)定」 的視覺(jué)模式合成更有語(yǔ)義的 tokens,讓 LLM 在更合適的粒度上推理。

訓(xùn)練與規(guī)模選擇方面也有明確「可執(zhí)行」的答案。三階段漸進(jìn)解凍 + curriculum是默認(rèn)策略:先只對(duì)齊VQ/BPE embeddings,再解凍一部分LLM backbone,最后全量微調(diào),能在不擾動(dòng)語(yǔ)言能力的前提下穩(wěn)步提升跨模態(tài)理解。

Visual BPE Token 激活機(jī)制可視化




Embedding 權(quán)重的可視化揭示了詞表設(shè)計(jì)對(duì)跨模態(tài)表征的影響:在不使用 visual BPE 的基線模型(上圖)中,文本與視覺(jué) token 的權(quán)重呈現(xiàn)顯著偏置與分離,體現(xiàn)出明顯的模態(tài)隔閡;而引入不同詞表大小的 visual BPE(中、下圖)后,兩類 token 的權(quán)重分布趨于均衡與同構(gòu),說(shuō)明 BPE 在更細(xì)粒度上對(duì)齊了子詞 / 子片段層面的統(tǒng)計(jì)與表征空間。由此帶來(lái)的直接效應(yīng)是跨模態(tài)注意力的共享基準(zhǔn)更一致、梯度信號(hào)更可比,從而降低模態(tài)間的分布漂移與共現(xiàn)偏差。

詞表大小對(duì)訓(xùn)練效率與擴(kuò)展?jié)摿Φ挠绊?/p>




研究進(jìn)一步考察了 BPE 詞表規(guī)模的作用??梢暬Y(jié)果顯示:在訓(xùn)練資源受限的情形下,與 VQ 等規(guī)模的碼本在表達(dá)能力與訓(xùn)練效率之間取得了更佳平衡,處于「甜點(diǎn)區(qū)」。當(dāng)詞表繼續(xù)增大(≥16K)時(shí),會(huì)出現(xiàn)大量低利用率、呈稀疏分布的 token,導(dǎo)致單位算力的收益下降。不過(guò),這也預(yù)示著在數(shù)據(jù)規(guī)模擴(kuò)張時(shí)存在更強(qiáng)的上限潛力。論文提出的方法可在更大的詞表與更多數(shù)據(jù)的配合下,釋放這部分?jǐn)U展空間,進(jìn)一步提升模型表現(xiàn)。

發(fā)展與小結(jié)(Being-VL-0 → Being-VL-0.5)

Being-VL-0 (ICLR 2025)

  • Being-VL-0 給出的是視覺(jué)離散化 + BPE 的可行性與動(dòng)機(jī):從理論分析與 toy 實(shí)驗(yàn)出發(fā),得出結(jié)論 BPE-style 合并能把必要的結(jié)構(gòu)先驗(yàn)灌注進(jìn) token,使 Transformer 更易學(xué)習(xí);并初步探索了兩階段訓(xùn)練(PT→SFT)、文本 embedding 凍結(jié)策略與數(shù)據(jù) scaling 帶來(lái)的穩(wěn)健增益。
  • 項(xiàng)目地址:
  • https://github.com/BeingBeyond/Being-VL-0

Being-VL-0.5 (ICCV 2025 highlight)

  • Being-VL-0.5 則把這一路線進(jìn)一步優(yōu)化為一個(gè)統(tǒng)一建??蚣埽侯l次與空間一致性聯(lián)合的 Priority-Guided Encoding、VQ/BPE/LLM 三階段漸進(jìn)解凍、以及配套的 curriculum 數(shù)據(jù)策略。
  • 項(xiàng)目地址:
  • https://beingbeyond.github.io/Being-VL-0.5

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
11個(gè)月,中國(guó)貿(mào)易順差首超1萬(wàn)億美元!連美媒都感嘆:前所未有!

11個(gè)月,中國(guó)貿(mào)易順差首超1萬(wàn)億美元!連美媒都感嘆:前所未有!

王爺說(shuō)圖表
2025-12-09 21:26:09
畢節(jié)一護(hù)士長(zhǎng)被查,引發(fā)軒然大波!網(wǎng)友:產(chǎn)品采購(gòu),需護(hù)士長(zhǎng)同意

畢節(jié)一護(hù)士長(zhǎng)被查,引發(fā)軒然大波!網(wǎng)友:產(chǎn)品采購(gòu),需護(hù)士長(zhǎng)同意

火山詩(shī)話
2025-12-10 09:53:41
汕頭火災(zāi)遇難者上升到12人,更多細(xì)節(jié)曝光

汕頭火災(zāi)遇難者上升到12人,更多細(xì)節(jié)曝光

靠山屯閑話
2025-12-10 14:09:09
加入CPTPP僅僅7年,越南人均GDP即將翻倍

加入CPTPP僅僅7年,越南人均GDP即將翻倍

山間聽(tīng)雨
2025-12-09 21:18:55
不堪丈夫家暴及生理期強(qiáng)行同房,“換婚”女子投毒殺夫被判無(wú)期徒刑 二審駁回上訴

不堪丈夫家暴及生理期強(qiáng)行同房,“換婚”女子投毒殺夫被判無(wú)期徒刑 二審駁回上訴

紅星新聞
2025-12-10 13:38:33
英特爾公司副總裁宋繼強(qiáng):異構(gòu)AI基礎(chǔ)設(shè)施是未來(lái)發(fā)展趨勢(shì)

英特爾公司副總裁宋繼強(qiáng):異構(gòu)AI基礎(chǔ)設(shè)施是未來(lái)發(fā)展趨勢(shì)

英才商業(yè)
2025-12-10 08:58:45
世界第一王楚欽首輪3-4爆冷出局18歲松島輝空成日本C位

世界第一王楚欽首輪3-4爆冷出局18歲松島輝空成日本C位

說(shuō)故事的阿襲
2025-12-10 12:23:31
社評(píng):正確理解中國(guó)的順差很重要

社評(píng):正確理解中國(guó)的順差很重要

環(huán)球網(wǎng)資訊
2025-12-10 01:08:40
朝鮮對(duì)三名未成年人處以極刑!

朝鮮對(duì)三名未成年人處以極刑!

扶蘇聊歷史
2025-12-10 09:57:20
上海繼續(xù)全國(guó)山姆“第一城”,第7家店將入駐浦東唐鎮(zhèn)

上海繼續(xù)全國(guó)山姆“第一城”,第7家店將入駐浦東唐鎮(zhèn)

上觀新聞
2025-12-09 22:27:04
重磅:烏克蘭摧毀俄羅斯切博克薩雷導(dǎo)彈工廠!打掉S300

重磅:烏克蘭摧毀俄羅斯切博克薩雷導(dǎo)彈工廠!打掉S300

項(xiàng)鵬飛
2025-12-09 17:40:34
中國(guó)絕美風(fēng)景外網(wǎng)爆紅卻被錯(cuò)標(biāo)成是日本,我外交官發(fā)文:這是中國(guó)江西望仙谷,親自來(lái)看看真正的中國(guó)吧

中國(guó)絕美風(fēng)景外網(wǎng)爆紅卻被錯(cuò)標(biāo)成是日本,我外交官發(fā)文:這是中國(guó)江西望仙谷,親自來(lái)看看真正的中國(guó)吧

揚(yáng)子晚報(bào)
2025-12-10 09:14:51
汕頭一自建房夜晚起火8人遇難:一樓為五金店,樓上住有多人,窗戶有防盜網(wǎng)

汕頭一自建房夜晚起火8人遇難:一樓為五金店,樓上住有多人,窗戶有防盜網(wǎng)

極目新聞
2025-12-10 11:32:09
中國(guó)留德女博士與女兒疑遭外籍丈夫殺害 死者弟弟:事發(fā)前無(wú)異常,姐姐曾計(jì)劃與丈夫回國(guó)定居

中國(guó)留德女博士與女兒疑遭外籍丈夫殺害 死者弟弟:事發(fā)前無(wú)異常,姐姐曾計(jì)劃與丈夫回國(guó)定居

紅星新聞
2025-12-09 23:16:11
租別墅造假存單雇演員扮父母,湖北小伙被騙婚案一審宣判:被告人犯詐騙罪獲刑四年半

租別墅造假存單雇演員扮父母,湖北小伙被騙婚案一審宣判:被告人犯詐騙罪獲刑四年半

瀟湘晨報(bào)
2025-12-10 12:26:22
震驚了!中山佳能有20年員工曬出630800元補(bǔ)償金,感動(dòng)到淚流滿面

震驚了!中山佳能有20年員工曬出630800元補(bǔ)償金,感動(dòng)到淚流滿面

火山詩(shī)話
2025-12-10 10:56:09
損失1000萬(wàn)!知名電競(jìng)主播被綁架后報(bào)警,遭綁匪報(bào)復(fù):裸照被曝光

損失1000萬(wàn)!知名電競(jìng)主播被綁架后報(bào)警,遭綁匪報(bào)復(fù):裸照被曝光

念洲
2025-12-10 08:03:45
不止今年,以后的錢會(huì)越來(lái)越難掙

不止今年,以后的錢會(huì)越來(lái)越難掙

經(jīng)濟(jì)學(xué)教授V
2025-12-09 18:37:02
為何中國(guó)急需實(shí)施“休養(yǎng)生息”戰(zhàn)略?

為何中國(guó)急需實(shí)施“休養(yǎng)生息”戰(zhàn)略?

西虹市閑話
2025-12-09 14:22:19
“新冠疫苗之父”落馬,榮譽(yù)清零!打過(guò)三針的網(wǎng)友慌了

“新冠疫苗之父”落馬,榮譽(yù)清零!打過(guò)三針的網(wǎng)友慌了

胡嚴(yán)亂語(yǔ)
2025-12-07 15:51:07
2025-12-10 14:51:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11886文章數(shù) 142509關(guān)注度
往期回顧 全部

科技要聞

8周生死時(shí)速,全員保日活!

頭條要聞

日軍偷襲珍珠港84年后 日美在紀(jì)念儀式大談"同盟關(guān)系"

頭條要聞

日軍偷襲珍珠港84年后 日美在紀(jì)念儀式大談"同盟關(guān)系"

體育要聞

試訓(xùn)20支球隊(duì),落選,成為NBA新秀助攻王

娛樂(lè)要聞

孫儷扛住死亡鏡頭 網(wǎng)友:嬛嬛回來(lái)了

財(cái)經(jīng)要聞

白銀史上首次站上60美元

汽車要聞

零百2.5s 純電保時(shí)捷Cayenne Turbo新車圖解

態(tài)度原創(chuàng)

手機(jī)
家居
教育
親子
公開(kāi)課

手機(jī)要聞

小米澎湃OS 3正式版覆蓋更多機(jī)型,即日起開(kāi)始灰度并陸續(xù)推送

家居要聞

高端私宅 理想隱居圣地

教育要聞

綿陽(yáng)深化中考改革:科目與總分雙調(diào)整 2027年總分降至700分

親子要聞

胚胎質(zhì)量差是因?yàn)槭裁矗?/h3>

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 不卡色老大久久综合网| 亚洲性视频网站| 中文字幕第77页| 91人人妻人人操人人爽人人精品| 精品国产毛片久久久| 国产伦一伦二伦三伦| 亚洲国产精彩中文乱码AV色欲| 久久久久人妻精品一区| 成人美女视频一区二区三区| 国产一区二区三区不卡在线观看 | 一本一道VS无码中文字幕| 馬与人黃色毛片一部| 成人极品无码| 五月婷婷六月丁香动漫| 精品无码国产AV一区| 美女,操逼黄色大片| 最新国产aⅴ精品无码| avav无码| 国产成人一区二区视频免费| 99国产精品久久久| 亚洲中文字幕乱码一区| 欧美人与动xxxxz0oz小说| 人妻丝袜av中文系列先锋影音| 国产精品观看视频免费完整版| 玩丰满少妇ⅩXX性人妖| 粉嫩av 在线| 国产三级片视频| AⅤ永久天堂一区二区三区| 亚洲中文无码成人片| 国产真实乱子伦精品视频,| 亚洲女同精品一区二区| 特黄三级又爽又粗又大| 在线观看老湿视频福利| 亚洲精品视频免费观看| 久久www免费人成一看片| 人禽交配视频| 无套内谢孕妇毛片免费看| 色爱区综合五月激情| chineSe老熟女和老女人VinedS| 体态丰腴的微胖熟女的特征| 被拉到野外强要好爽黑人|