夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

LLaVA-OneVision-1.5開(kāi)源,8B模型預(yù)訓(xùn)練只需4天、1.6萬(wàn)美元

0
分享至



LLaVA 于 2023 年提出,通過(guò)低成本對(duì)齊高效連接開(kāi)源視覺(jué)編碼器與大語(yǔ)言模型,使「看圖 — 理解 — 對(duì)話」的多模態(tài)能力在開(kāi)放生態(tài)中得以普及,明顯縮小了與頂級(jí)閉源模型的差距,標(biāo)志著開(kāi)源多模態(tài)范式的重要里程碑。



LLaVA 用低成本對(duì)齊打通「視覺(jué)編碼器 + 大語(yǔ)言模型」起步,LLaVA?1.5 以更大更干凈的數(shù)據(jù)與高分辨率輸入強(qiáng)化理解,LLaVA?NeXT 拓展 OCR / 數(shù)理與多場(chǎng)景任務(wù);隨后分支為 LLaVA?NeXT?Video 處理時(shí)序視頻、多幀推理,及 LLaVA-NeXT-Interleave 支持交替多圖文與跨圖聯(lián)推;最終在 LLaVA?OneVision 匯聚為統(tǒng)一接口,覆蓋圖像 / 文檔 / 圖表 / 多圖 / 視頻,兼顧效果與效率。

盡管多模態(tài)對(duì)齊的接口與架構(gòu)趨于收斂,真正「可復(fù)現(xiàn)」的開(kāi)源路徑仍與「僅開(kāi)放權(quán)重」存在間距。Qwen2.5?VL、InternVL3.5 在 OCR、文檔理解、數(shù)理與跨圖推理上樹(shù)立高基線,但完整的數(shù)據(jù)清單、清洗與混合比例,以及對(duì)齊 / 采樣與訓(xùn)練日程多為部分披露,難以端到端重現(xiàn)。Molmo 以更干凈的數(shù)據(jù)流水線與精細(xì)化設(shè)計(jì),在多項(xiàng)評(píng)測(cè)與偏好中逼近閉源強(qiáng)基線;Open?Qwen2VL 則表明在更高效范式下,即便原始多模態(tài) token 占比較低亦能取得強(qiáng)對(duì)比性能。當(dāng)前主要鴻溝在于 「配方與工程細(xì)節(jié)的可復(fù)現(xiàn)性」,而非單一的模型架構(gòu)選擇。



靈感實(shí)驗(yàn)室團(tuán)隊(duì)聯(lián)合 LMMs-Lab 圍繞「高性能 — 低成本 — 強(qiáng)復(fù)現(xiàn)」三大目標(biāo),在 LLaVA-OneVision 體系上推出完整開(kāi)放的概念均衡 85M 預(yù)訓(xùn)練數(shù)據(jù)集(LLaVA-OV-1.5-Mid-Training-85M)與精篩 22M 指令數(shù)據(jù)集(LLaVA-OV-1.5-Instruct-22M),并沿用緊湊的三階段流程(語(yǔ)言–圖像對(duì)齊 Stage?1、概念均衡與高質(zhì)量知識(shí)注入 Stage?1.5、指令微調(diào) Stage?2),結(jié)合離線并行數(shù)據(jù)打包(最高約 11× padding 壓縮)與 Megatron?LM + 分布式優(yōu)化器,將 8B 規(guī)模 VL 模型的 Stage?1.5 預(yù)訓(xùn)練在 128 張 A800 上控制在約 4 天內(nèi)完成,預(yù)算控制在 1.6 萬(wàn)美元。

在此基礎(chǔ)上,我們提出LLaVA?OneVision?1.5,繼承并擴(kuò)展 LLaVA 系列:引入 RICE?ViT 支持原生分辨率與區(qū)域級(jí)細(xì)粒度語(yǔ)義建模、強(qiáng)化圖表 / 文檔 / 結(jié)構(gòu)化場(chǎng)景理解,延續(xù)緊湊三階段范式以避免冗長(zhǎng) curriculum,構(gòu)建并強(qiáng)調(diào)「質(zhì)量 — 覆蓋 — 均衡」的 85M 預(yù)訓(xùn)練與 22M 指令集合,并真正意義上實(shí)現(xiàn)全鏈條透明開(kāi)放(數(shù)據(jù)、訓(xùn)練與打包工具鏈、配置腳本、日志與可復(fù)現(xiàn)評(píng)測(cè)命令及其構(gòu)建與執(zhí)行細(xì)節(jié)),以確保社區(qū)低成本復(fù)現(xiàn)與可驗(yàn)證拓展。

實(shí)驗(yàn)結(jié)果顯示,LLaVA?OneVision 在多項(xiàng)公開(kāi)多模態(tài)基準(zhǔn)上較 Qwen2.5?VL 展現(xiàn)出競(jìng)爭(zhēng)性乃至更優(yōu)性能(詳見(jiàn)技術(shù)報(bào)告)。



  • 論文標(biāo)題:LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training
  • 代碼地址:
  • https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
  • 技術(shù)報(bào)告地址:
  • https://arxiv.org/abs/2509.23661
  • 數(shù)據(jù) / 模型地址:
  • https://huggingface.co/collections/lmms-lab/llava-onevision-15-68d385fe73b50bd22de23713
  • Demo:
  • https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

數(shù)據(jù)構(gòu)建要點(diǎn)



用于通用視覺(jué)語(yǔ)言的預(yù)訓(xùn)練集(85M)與指令微調(diào)數(shù)據(jù)集(22M)。其中 85M 預(yù)訓(xùn)練數(shù)據(jù)融合 COYO-700M、Obelics、DataComp-1B、LAION-CN、ImageNet-21K、SAM-1B、MINT、Zero250M 等 8 大異構(gòu)來(lái)源,形成約 2,000 萬(wàn)中文與 6,500 萬(wàn)英文圖文對(duì)。

為破解長(zhǎng)尾概念稀疏與原始 caption 噪聲 / 缺失問(wèn)題,我們不再依賴原始文本詞頻,而是采用特征驅(qū)動(dòng)的「概念均衡」策略:利用 MetaCLIP 編碼器將全部圖像與 50 萬(wàn)規(guī)模概念詞嵌入共享向量空間,對(duì)每張圖像檢索 Top-K 最相似概念,統(tǒng)計(jì)概念頻次后按逆頻加權(quán)重采樣,抑制高頻背景類并提升罕見(jiàn)細(xì)粒度實(shí)體、屬性與場(chǎng)景占比,顯著平坦化長(zhǎng)尾分布;隨后使用高質(zhì)量 Captioner 生成對(duì)齊的中英文增強(qiáng)描述。系統(tǒng)實(shí)驗(yàn)表明,在相同或更低 token 預(yù)算下,擴(kuò)大高質(zhì)量數(shù)據(jù)規(guī)模并結(jié)合概念均衡采樣,可在多模態(tài)理解、長(zhǎng)尾識(shí)別與指令泛化等核心指標(biāo)上獲得顯著且可復(fù)現(xiàn)的性能提升。



指令數(shù)據(jù) 22M 覆蓋八大類別:Caption、Chart & Table、Code & Math、Domain-specific、General VQA、Grounding & Counting、OCR、Science。通過(guò)多源聚合、格式統(tǒng)一、指令重寫(xiě)、雙語(yǔ)互轉(zhuǎn)、模板去同質(zhì)化與安全篩除,保持類別與難度分布均衡。并且我們的指令數(shù)據(jù)疊加 FineVision 數(shù)據(jù)集之后,結(jié)果會(huì)繼續(xù)增加。



訓(xùn)練策略

1. 視覺(jué)編碼器預(yù)訓(xùn)練

為了讓模型在 OCR、表格 / 文檔、區(qū)域理解與后續(xù)指令推理上具有更高的下限,我們?cè)?LLaVA-OneVision-1.5 中采用自研的 MVT v1.5(RICE-ViT) 作為視覺(jué)主干。

相較僅做全局對(duì)齊的 CLIP / SigLIP 類對(duì)比模型,RICE-ViT 針對(duì)「實(shí)例只用單一全局向量」這一結(jié)構(gòu)性瓶頸,引入統(tǒng)一的 Region Cluster Discrimination 機(jī)制:在 4.5 億圖像與 24 億候選區(qū)域上訓(xùn)練,利用區(qū)域聚類判別 + 區(qū)域感知注意力顯式建模局部實(shí)體 / 文本塊與上下文關(guān)系,并結(jié)合 2D 旋轉(zhuǎn)位置編碼(2D RoPE)實(shí)現(xiàn)多分辨率原生支持。

與 SigLIP2 依賴多套專用損失(SILC、TIPS、LocCa 等)不同,我們用單一聚類判別范式同時(shí)強(qiáng)化通用語(yǔ)義、OCR 識(shí)別與定位能力,訓(xùn)練與推理鏈路更簡(jiǎn)潔、可維護(hù)性更高。在多模態(tài)融合階段,通過(guò)輕量投影與后續(xù)全參數(shù)聯(lián)合訓(xùn)練,將這一細(xì)粒度語(yǔ)義底座無(wú)縫接入語(yǔ)言模型,減少冗余適配模塊并提升跨任務(wù)遷移效率。



2. 三階段學(xué)習(xí)流程

  • Stage-1:語(yǔ)言–圖像對(duì)齊

使用 LLaVA-1.5 558K 數(shù)據(jù)集訓(xùn)練視覺(jué)投影層,將視覺(jué)編碼輸出映射到語(yǔ)言模型詞嵌入空間。此階段控制參數(shù)更新范圍以快速穩(wěn)定收斂。

  • Stage-1.5:高質(zhì)量知識(shí)中期預(yù)訓(xùn)練

在概念均衡的 85M 預(yù)訓(xùn)練數(shù)據(jù)上進(jìn)行全參數(shù)訓(xùn)練,注入廣域視覺(jué)語(yǔ)義與世界知識(shí),強(qiáng)調(diào)數(shù)據(jù)質(zhì)量與覆蓋而非盲目擴(kuò)張 token 規(guī)模。

  • Stage-2:視覺(jué)指令對(duì)齊

基于 22M 指令數(shù)據(jù)與 FineVision 等多源視覺(jué)指令語(yǔ)料繼續(xù)全參數(shù)訓(xùn)練,提升任務(wù)泛化、推理組織與響應(yīng)格式控制能力。

3. 離線并行數(shù)據(jù)打包

為降低多模態(tài)樣本長(zhǎng)度差異帶來(lái)的 padding 浪費(fèi)、提升有效 token 利用率,我們采用離線并行數(shù)據(jù)打包:先按樣本長(zhǎng)度或長(zhǎng)度區(qū)間進(jìn)行哈希桶聚類,減少全局排序與掃描成本;再在數(shù)據(jù)準(zhǔn)備階段以多線程將多條短樣本拼接為接近目標(biāo)長(zhǎng)度的定長(zhǎng)序列。該流程一次性處理全量語(yǔ)料,具備確定性與可復(fù)現(xiàn)性,避免在線動(dòng)態(tài)打包引入的運(yùn)行時(shí)不穩(wěn)定與額外 CPU 開(kāi)銷。

在 85M 規(guī)模的預(yù)訓(xùn)練樣本上,相比原始方案可實(shí)現(xiàn)最高約 11× 的 padding 有效壓縮(定義:原始方案總 padding token / 打包后總 padding token)。

4. 混合并行與長(zhǎng)上下文高效訓(xùn)練,訓(xùn)練端采用混合并行與長(zhǎng)上下文優(yōu)化

張量并行(TP)+ 流水并行(PP)+ 序列 / 上下文并行(Sequence/Context Parallel)與分布式優(yōu)化器協(xié)同,以在大規(guī)模集群中同時(shí)提升算力利用與顯存效率;同時(shí)采用原生分辨率策略,保留圖表、文檔與密集文本區(qū)域的結(jié)構(gòu)細(xì)節(jié),避免統(tǒng)一縮放帶來(lái)的信息損失。

在 128×A800 集群上,8B 規(guī)模模型的 Stage?1.5(85M 樣本、原生分辨率)約 3.7 天完成,兼顧吞吐與成本。

結(jié)論

LLaVA-OneVision-1.5 證明:依托概念均衡的 85M 預(yù)訓(xùn)練數(shù)據(jù)與高質(zhì)量指令數(shù)據(jù),結(jié)合 RICE?ViT 細(xì)粒度視覺(jué)底座和緊湊的三階段策略(對(duì)齊–高質(zhì)量知識(shí)注入–指令泛化),再配合離線并行打包(最高約 11× padding 減少)與混合并行 / 原生分辨率等工程優(yōu)化,8B 規(guī)模即可在更低 token 與算力成本下,對(duì)標(biāo)乃至部分超越主流開(kāi)源與部分閉源多模態(tài)模型,體現(xiàn)「高質(zhì)量結(jié)構(gòu)化數(shù)據(jù) + 系統(tǒng)效率協(xié)同」相較單純堆量的優(yōu)勢(shì)。

這是一次非常簡(jiǎn)單的復(fù)現(xiàn)工作:我們完整開(kāi)放數(shù)據(jù)、工具鏈、腳本、配置、日志與評(píng)測(cè)配方,復(fù)現(xiàn)路徑清晰、依賴明確,無(wú)需復(fù)雜調(diào)參即可跑通。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
他們要來(lái)10000只死蚊子,把它們的嘴做成了3D打印噴頭

他們要來(lái)10000只死蚊子,把它們的嘴做成了3D打印噴頭

果殼
2025-12-10 16:09:31
中方軍機(jī)對(duì)日亮劍后,高市早苗終于打破沉默:中方必須立保證

中方軍機(jī)對(duì)日亮劍后,高市早苗終于打破沉默:中方必須立保證

兵說(shuō)
2025-12-11 16:43:00
四川2名干部任市(區(qū))委副書(shū)記

四川2名干部任市(區(qū))委副書(shū)記

金臺(tái)資訊
2025-12-12 16:02:27
美的、海爾、小米等聯(lián)手:推動(dòng)“鋁代銅”標(biāo)準(zhǔn)落地、禁止互相惡意攻擊

美的、海爾、小米等聯(lián)手:推動(dòng)“鋁代銅”標(biāo)準(zhǔn)落地、禁止互相惡意攻擊

第一財(cái)經(jīng)資訊
2025-12-11 15:32:10
江蘇下雪了!這波太兇, 江陰人挺??!

江蘇下雪了!這波太兇, 江陰人挺??!

最江陰
2025-12-12 15:08:38
中興通訊港股午后直線拉升漲超5%

中興通訊港股午后直線拉升漲超5%

每日經(jīng)濟(jì)新聞
2025-12-12 13:18:07
家中若是出現(xiàn)這幾種異象,證明亡親已經(jīng)成功投胎,無(wú)需再去專程祭拜

家中若是出現(xiàn)這幾種異象,證明亡親已經(jīng)成功投胎,無(wú)需再去專程祭拜

古怪奇談錄
2025-12-11 11:48:28
中央定調(diào)!關(guān)于房地產(chǎn),“止跌”沒(méi)再提了

中央定調(diào)!關(guān)于房地產(chǎn),“止跌”沒(méi)再提了

城市財(cái)經(jīng)
2025-12-12 11:53:25
毛澤東去世后房間被封,江青哭鬧:主席尸骨未寒,就要趕我走嗎?

毛澤東去世后房間被封,江青哭鬧:主席尸骨未寒,就要趕我走嗎?

大運(yùn)河時(shí)空
2025-12-11 14:10:03
14 億泡沫炸裂:金條、法拉利被拍賣后,王麗坤“豪門生活”曝光

14 億泡沫炸裂:金條、法拉利被拍賣后,王麗坤“豪門生活”曝光

未曾青梅
2025-12-09 22:31:16
就放盜版,全國(guó)上映,你找誰(shuí)說(shuō)理去?

就放盜版,全國(guó)上映,你找誰(shuí)說(shuō)理去?

關(guān)爾東
2025-12-10 17:17:46
11億巨貪白天輝臨終注射細(xì)節(jié)曝光,妻子問(wèn)骨灰處理他答隨便

11億巨貪白天輝臨終注射細(xì)節(jié)曝光,妻子問(wèn)骨灰處理他答隨便

古來(lái)者說(shuō)
2025-12-11 08:43:14
突發(fā)!臺(tái)島西南發(fā)生激烈對(duì)峙!美軍艦、戰(zhàn)機(jī)來(lái)犯,被貼臉開(kāi)大!

突發(fā)!臺(tái)島西南發(fā)生激烈對(duì)峙!美軍艦、戰(zhàn)機(jī)來(lái)犯,被貼臉開(kāi)大!

起喜電影
2025-12-12 09:14:46
中國(guó)工商銀行甘肅分行副行長(zhǎng)呂紅曉接受審查調(diào)查

中國(guó)工商銀行甘肅分行副行長(zhǎng)呂紅曉接受審查調(diào)查

界面新聞
2025-12-12 17:05:02
此前歸還給中國(guó)的土地,普京又起念頭了,外媒:中國(guó)再度雪中送暖

此前歸還給中國(guó)的土地,普京又起念頭了,外媒:中國(guó)再度雪中送暖

混沌錄
2025-12-04 23:47:05
24架中國(guó)蘇35成香餑餑!俄伊都搶,8500萬(wàn)美刀一架不降價(jià)

24架中國(guó)蘇35成香餑餑!俄伊都搶,8500萬(wàn)美刀一架不降價(jià)

起喜電影
2025-12-12 07:56:05
外媒:梅西在印度的雕像由45人耗費(fèi)27天建成,高21.3米

外媒:梅西在印度的雕像由45人耗費(fèi)27天建成,高21.3米

懂球帝
2025-12-12 10:53:42
一輛都沒(méi)有賣出,銷售量直接下降了超過(guò)了80%,官媒有最新發(fā)聲!

一輛都沒(méi)有賣出,銷售量直接下降了超過(guò)了80%,官媒有最新發(fā)聲!

生活魔術(shù)專家
2025-12-12 03:34:13
下月起全面停產(chǎn)!很多家庭都有它

下月起全面停產(chǎn)!很多家庭都有它

金融界
2025-12-09 19:54:20
敲詐中國(guó)后續(xù):004航母問(wèn)世,土耳其主動(dòng)上門,歸還10億過(guò)路費(fèi)

敲詐中國(guó)后續(xù):004航母問(wèn)世,土耳其主動(dòng)上門,歸還10億過(guò)路費(fèi)

胖福的小木屋
2025-12-10 17:20:32
2025-12-12 18:36:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11907文章數(shù) 142509關(guān)注度
往期回顧 全部

科技要聞

凌晨突發(fā)!GPT-5.2上線,首批實(shí)測(cè)感受來(lái)了

頭條要聞

沈逸:美國(guó)用最強(qiáng)硬的方式 吹響戰(zhàn)略撤退號(hào)角

頭條要聞

沈逸:美國(guó)用最強(qiáng)硬的方式 吹響戰(zhàn)略撤退號(hào)角

體育要聞

15輪2分,他們?cè)趺闯闪擞⒊顮€球隊(duì)?

娛樂(lè)要聞

上海這一夜,33歲陳麗君秒了32歲吉娜?

財(cái)經(jīng)要聞

鎂信健康闖關(guān)港交所:被指竊取商業(yè)秘密

汽車要聞

插混四驅(qū)法拉利?849 Testarossa國(guó)內(nèi)發(fā)布516.8萬(wàn)起

態(tài)度原創(chuàng)

教育
健康
旅游
公開(kāi)課
軍事航空

教育要聞

三維賦能育新苗 薪火相傳譜新篇——膠州一中多措并舉助力青年教師成長(zhǎng)

甲狀腺結(jié)節(jié)到這個(gè)程度,該穿刺了!

旅游要聞

【專訪】美高梅國(guó)際酒店集團(tuán)中國(guó)區(qū)酒店總裁周鋒:娛樂(lè)DNA構(gòu)建奢華旅行新體驗(yàn)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

澤連斯基:烏領(lǐng)土問(wèn)題應(yīng)由烏人民決定

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 综合亚洲伊人午夜网| 麻豆一区二区三区精品蜜桃| 亚洲AV涩涩涩成人网站在线播放| 97超级碰在线视频| 成人免费无码大片a毛片拍搐 | 波多野结衣33分钟69播放| 抽搐一进一出gif免费动态| 日本18禁网站| 无码日韩精品一区二区三区免费| 欧美成人性爱电影网址| 日韩精品无码电影| 色av永久无码影院av| 激情性爱小说视频色图| 国产成人av大片大片在线播放| 日产欧产美韩系列区别在哪免费| 亚洲AV永久精品一区二区| 亚洲精品无码一二区| 丁香婷婷二月| 激情性爱小说视频色图| 草裙社区精品视频播放| 国产精品视频一区二区噜噜| 黑人大粗又爽又黄大片视频| 国产高清在线精品一本大道| 色AV一区二区三区| 国产精品亚洲五月天高清| 乱伦作爱小说| 久久久国产成人一区二区| 亚洲最刺激最刺激最刺激网站| 99大香伊乱码一区二区 | 女人体免费一区二区| 久久久精品人妻一区二区三区妖精| 国产精品27页| 老熟女hdxx老小配| 欧美精品影院| www.天天干| 懂色中文一区二区在线播放| 被调教的少妇雅芳1一19| 国产精品露脸国语对白| 香蕉国产人午夜视频在线观看| 久久精品国产亚洲av水果派 | 人美人妻人人乐|