夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

LLaVA-OneVision-1.5開源,8B模型預訓練只需4天、1.6萬美元

0
分享至



LLaVA 于 2023 年提出,通過低成本對齊高效連接開源視覺編碼器與大語言模型,使「看圖 — 理解 — 對話」的多模態(tài)能力在開放生態(tài)中得以普及,明顯縮小了與頂級閉源模型的差距,標志著開源多模態(tài)范式的重要里程碑。



LLaVA 用低成本對齊打通「視覺編碼器 + 大語言模型」起步,LLaVA?1.5 以更大更干凈的數(shù)據(jù)與高分辨率輸入強化理解,LLaVA?NeXT 拓展 OCR / 數(shù)理與多場景任務;隨后分支為 LLaVA?NeXT?Video 處理時序視頻、多幀推理,及 LLaVA-NeXT-Interleave 支持交替多圖文與跨圖聯(lián)推;最終在 LLaVA?OneVision 匯聚為統(tǒng)一接口,覆蓋圖像 / 文檔 / 圖表 / 多圖 / 視頻,兼顧效果與效率。

盡管多模態(tài)對齊的接口與架構(gòu)趨于收斂,真正「可復現(xiàn)」的開源路徑仍與「僅開放權重」存在間距。Qwen2.5?VL、InternVL3.5 在 OCR、文檔理解、數(shù)理與跨圖推理上樹立高基線,但完整的數(shù)據(jù)清單、清洗與混合比例,以及對齊 / 采樣與訓練日程多為部分披露,難以端到端重現(xiàn)。Molmo 以更干凈的數(shù)據(jù)流水線與精細化設計,在多項評測與偏好中逼近閉源強基線;Open?Qwen2VL 則表明在更高效范式下,即便原始多模態(tài) token 占比較低亦能取得強對比性能。當前主要鴻溝在于 「配方與工程細節(jié)的可復現(xiàn)性」,而非單一的模型架構(gòu)選擇。



靈感實驗室團隊聯(lián)合 LMMs-Lab 圍繞「高性能 — 低成本 — 強復現(xiàn)」三大目標,在 LLaVA-OneVision 體系上推出完整開放的概念均衡 85M 預訓練數(shù)據(jù)集(LLaVA-OV-1.5-Mid-Training-85M)與精篩 22M 指令數(shù)據(jù)集(LLaVA-OV-1.5-Instruct-22M),并沿用緊湊的三階段流程(語言–圖像對齊 Stage?1、概念均衡與高質(zhì)量知識注入 Stage?1.5、指令微調(diào) Stage?2),結(jié)合離線并行數(shù)據(jù)打包(最高約 11× padding 壓縮)與 Megatron?LM + 分布式優(yōu)化器,將 8B 規(guī)模 VL 模型的 Stage?1.5 預訓練在 128 張 A800 上控制在約 4 天內(nèi)完成,預算控制在 1.6 萬美元。

在此基礎上,我們提出LLaVA?OneVision?1.5,繼承并擴展 LLaVA 系列:引入 RICE?ViT 支持原生分辨率與區(qū)域級細粒度語義建模、強化圖表 / 文檔 / 結(jié)構(gòu)化場景理解,延續(xù)緊湊三階段范式以避免冗長 curriculum,構(gòu)建并強調(diào)「質(zhì)量 — 覆蓋 — 均衡」的 85M 預訓練與 22M 指令集合,并真正意義上實現(xiàn)全鏈條透明開放(數(shù)據(jù)、訓練與打包工具鏈、配置腳本、日志與可復現(xiàn)評測命令及其構(gòu)建與執(zhí)行細節(jié)),以確保社區(qū)低成本復現(xiàn)與可驗證拓展。

實驗結(jié)果顯示,LLaVA?OneVision 在多項公開多模態(tài)基準上較 Qwen2.5?VL 展現(xiàn)出競爭性乃至更優(yōu)性能(詳見技術報告)。



  • 論文標題:LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training
  • 代碼地址:
  • https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5
  • 技術報告地址:
  • https://arxiv.org/abs/2509.23661
  • 數(shù)據(jù) / 模型地址:
  • https://huggingface.co/collections/lmms-lab/llava-onevision-15-68d385fe73b50bd22de23713
  • Demo:
  • https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

數(shù)據(jù)構(gòu)建要點



用于通用視覺語言的預訓練集(85M)與指令微調(diào)數(shù)據(jù)集(22M)。其中 85M 預訓練數(shù)據(jù)融合 COYO-700M、Obelics、DataComp-1B、LAION-CN、ImageNet-21K、SAM-1B、MINT、Zero250M 等 8 大異構(gòu)來源,形成約 2,000 萬中文與 6,500 萬英文圖文對。

為破解長尾概念稀疏與原始 caption 噪聲 / 缺失問題,我們不再依賴原始文本詞頻,而是采用特征驅(qū)動的「概念均衡」策略:利用 MetaCLIP 編碼器將全部圖像與 50 萬規(guī)模概念詞嵌入共享向量空間,對每張圖像檢索 Top-K 最相似概念,統(tǒng)計概念頻次后按逆頻加權重采樣,抑制高頻背景類并提升罕見細粒度實體、屬性與場景占比,顯著平坦化長尾分布;隨后使用高質(zhì)量 Captioner 生成對齊的中英文增強描述。系統(tǒng)實驗表明,在相同或更低 token 預算下,擴大高質(zhì)量數(shù)據(jù)規(guī)模并結(jié)合概念均衡采樣,可在多模態(tài)理解、長尾識別與指令泛化等核心指標上獲得顯著且可復現(xiàn)的性能提升。



指令數(shù)據(jù) 22M 覆蓋八大類別:Caption、Chart & Table、Code & Math、Domain-specific、General VQA、Grounding & Counting、OCR、Science。通過多源聚合、格式統(tǒng)一、指令重寫、雙語互轉(zhuǎn)、模板去同質(zhì)化與安全篩除,保持類別與難度分布均衡。并且我們的指令數(shù)據(jù)疊加 FineVision 數(shù)據(jù)集之后,結(jié)果會繼續(xù)增加。



訓練策略

1. 視覺編碼器預訓練

為了讓模型在 OCR、表格 / 文檔、區(qū)域理解與后續(xù)指令推理上具有更高的下限,我們在 LLaVA-OneVision-1.5 中采用自研的 MVT v1.5(RICE-ViT) 作為視覺主干。

相較僅做全局對齊的 CLIP / SigLIP 類對比模型,RICE-ViT 針對「實例只用單一全局向量」這一結(jié)構(gòu)性瓶頸,引入統(tǒng)一的 Region Cluster Discrimination 機制:在 4.5 億圖像與 24 億候選區(qū)域上訓練,利用區(qū)域聚類判別 + 區(qū)域感知注意力顯式建模局部實體 / 文本塊與上下文關系,并結(jié)合 2D 旋轉(zhuǎn)位置編碼(2D RoPE)實現(xiàn)多分辨率原生支持。

與 SigLIP2 依賴多套專用損失(SILC、TIPS、LocCa 等)不同,我們用單一聚類判別范式同時強化通用語義、OCR 識別與定位能力,訓練與推理鏈路更簡潔、可維護性更高。在多模態(tài)融合階段,通過輕量投影與后續(xù)全參數(shù)聯(lián)合訓練,將這一細粒度語義底座無縫接入語言模型,減少冗余適配模塊并提升跨任務遷移效率。



2. 三階段學習流程

  • Stage-1:語言–圖像對齊

使用 LLaVA-1.5 558K 數(shù)據(jù)集訓練視覺投影層,將視覺編碼輸出映射到語言模型詞嵌入空間。此階段控制參數(shù)更新范圍以快速穩(wěn)定收斂。

  • Stage-1.5:高質(zhì)量知識中期預訓練

在概念均衡的 85M 預訓練數(shù)據(jù)上進行全參數(shù)訓練,注入廣域視覺語義與世界知識,強調(diào)數(shù)據(jù)質(zhì)量與覆蓋而非盲目擴張 token 規(guī)模。

  • Stage-2:視覺指令對齊

基于 22M 指令數(shù)據(jù)與 FineVision 等多源視覺指令語料繼續(xù)全參數(shù)訓練,提升任務泛化、推理組織與響應格式控制能力。

3. 離線并行數(shù)據(jù)打包

為降低多模態(tài)樣本長度差異帶來的 padding 浪費、提升有效 token 利用率,我們采用離線并行數(shù)據(jù)打包:先按樣本長度或長度區(qū)間進行哈希桶聚類,減少全局排序與掃描成本;再在數(shù)據(jù)準備階段以多線程將多條短樣本拼接為接近目標長度的定長序列。該流程一次性處理全量語料,具備確定性與可復現(xiàn)性,避免在線動態(tài)打包引入的運行時不穩(wěn)定與額外 CPU 開銷。

在 85M 規(guī)模的預訓練樣本上,相比原始方案可實現(xiàn)最高約 11× 的 padding 有效壓縮(定義:原始方案總 padding token / 打包后總 padding token)。

4. 混合并行與長上下文高效訓練,訓練端采用混合并行與長上下文優(yōu)化

張量并行(TP)+ 流水并行(PP)+ 序列 / 上下文并行(Sequence/Context Parallel)與分布式優(yōu)化器協(xié)同,以在大規(guī)模集群中同時提升算力利用與顯存效率;同時采用原生分辨率策略,保留圖表、文檔與密集文本區(qū)域的結(jié)構(gòu)細節(jié),避免統(tǒng)一縮放帶來的信息損失。

在 128×A800 集群上,8B 規(guī)模模型的 Stage?1.5(85M 樣本、原生分辨率)約 3.7 天完成,兼顧吞吐與成本。

結(jié)論

LLaVA-OneVision-1.5 證明:依托概念均衡的 85M 預訓練數(shù)據(jù)與高質(zhì)量指令數(shù)據(jù),結(jié)合 RICE?ViT 細粒度視覺底座和緊湊的三階段策略(對齊–高質(zhì)量知識注入–指令泛化),再配合離線并行打包(最高約 11× padding 減少)與混合并行 / 原生分辨率等工程優(yōu)化,8B 規(guī)模即可在更低 token 與算力成本下,對標乃至部分超越主流開源與部分閉源多模態(tài)模型,體現(xiàn)「高質(zhì)量結(jié)構(gòu)化數(shù)據(jù) + 系統(tǒng)效率協(xié)同」相較單純堆量的優(yōu)勢。

這是一次非常簡單的復現(xiàn)工作:我們完整開放數(shù)據(jù)、工具鏈、腳本、配置、日志與評測配方,復現(xiàn)路徑清晰、依賴明確,無需復雜調(diào)參即可跑通。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
馬斯克預測某車企:必死!

馬斯克預測某車企:必死!

電動知家
2025-12-17 16:25:04
商務部就法國總統(tǒng)有關中歐經(jīng)貿(mào)關系言論進行回應

商務部就法國總統(tǒng)有關中歐經(jīng)貿(mào)關系言論進行回應

環(huán)球網(wǎng)資訊
2025-12-18 16:07:41
柬埔寨街頭為什么拆除中文招牌?

柬埔寨街頭為什么拆除中文招牌?

懷疑探索者
2025-12-17 20:34:23
曝小米SU7新款將漲價2萬,網(wǎng)友炸鍋:熟悉的套路

曝小米SU7新款將漲價2萬,網(wǎng)友炸鍋:熟悉的套路

胡嚴亂語
2025-12-18 14:21:36
奧尼爾再次轉(zhuǎn)發(fā)托馬斯的歷史前十:詹姆斯第一、喬丹第八!

奧尼爾再次轉(zhuǎn)發(fā)托馬斯的歷史前十:詹姆斯第一、喬丹第八!

氧氣是個地鐵
2025-12-18 14:12:17
早有預兆!業(yè)內(nèi)曝陳曉陳妍希離婚原因,一方脾氣極差還很倔

早有預兆!業(yè)內(nèi)曝陳曉陳妍希離婚原因,一方脾氣極差還很倔

一娛三分地
2025-12-18 18:11:51
劉翔帶老婆游清江畫廊,爬山大喘氣體力下降,42歲穿得像18大學生

劉翔帶老婆游清江畫廊,爬山大喘氣體力下降,42歲穿得像18大學生

小咪侃娛圈
2025-12-18 09:30:53
剛宣布,不降息!不降息

剛宣布,不降息!不降息

中國基金報
2025-12-18 19:56:26
連爆大冷1-4!吳宜澤與世界第2都出局了,8強出4席中國2席附賽程

連爆大冷1-4!吳宜澤與世界第2都出局了,8強出4席中國2席附賽程

小火箭愛體育
2025-12-19 01:07:33
樊振東效應太猛!德甲收視碾壓WTT,國際乒聯(lián)主席急了

樊振東效應太猛!德甲收視碾壓WTT,國際乒聯(lián)主席急了

最愛乒乓球
2025-12-19 00:07:39
孫殿英風評變好,這意味著什么?

孫殿英風評變好,這意味著什么?

十柱
2025-12-18 15:14:26
瓜帥點石成金!兩大新人坐穩(wěn)曼城主力 6連勝期間場場首發(fā)

瓜帥點石成金!兩大新人坐穩(wěn)曼城主力 6連勝期間場場首發(fā)

球事百科吖
2025-12-19 06:06:55
吳越與陳建斌分手20年后,53歲單身生活成福報典范

吳越與陳建斌分手20年后,53歲單身生活成福報典范

楓塵余往逝
2025-12-18 05:00:02
索尼將退出中國,補償方案也是值得學習

索尼將退出中國,補償方案也是值得學習

比爾蓋凱
2025-12-18 22:32:52
山東:堅決擁護黨中央決定

山東:堅決擁護黨中央決定

新京報政事兒
2025-12-18 18:03:04
19點30分!中國男足vs澳大利亞,盼1-0爆冷,沖U23亞洲杯首個八強

19點30分!中國男足vs澳大利亞,盼1-0爆冷,沖U23亞洲杯首個八強

侃球熊弟
2025-12-19 00:05:03
徐正源兒子:父親經(jīng)歷艱難的決定,成都永遠是我們的第二故鄉(xiāng)

徐正源兒子:父親經(jīng)歷艱難的決定,成都永遠是我們的第二故鄉(xiāng)

懂球帝
2025-12-18 23:14:30
香煙為何要分軟包和硬包,這二者有什么區(qū)別?經(jīng)常吸煙不妨了解下

香煙為何要分軟包和硬包,這二者有什么區(qū)別?經(jīng)常吸煙不妨了解下

三農(nóng)老歷
2025-12-13 15:01:06
特朗普向全國發(fā)表電視講話,指責拜登,自我表揚,支持率顯示民眾并不買賬

特朗普向全國發(fā)表電視講話,指責拜登,自我表揚,支持率顯示民眾并不買賬

極目新聞
2025-12-18 15:14:48
越扒瓜越大!女教師跳樓再添猛料,原來不止被父母逼婚這么簡單

越扒瓜越大!女教師跳樓再添猛料,原來不止被父母逼婚這么簡單

奇思妙想草葉君
2025-12-18 16:14:11
2025-12-19 06:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11950文章數(shù) 142513關注度
往期回顧 全部

科技要聞

2025新一代人工智能創(chuàng)業(yè)大賽總決賽收官

頭條要聞

特朗普命令2028年登月 在月球部署核反應堆

頭條要聞

特朗普命令2028年登月 在月球部署核反應堆

體育要聞

紐約尼克斯,板正的球隊

娛樂要聞

絲芭放大招了!實名舉報鞠婧祎經(jīng)濟犯罪

財經(jīng)要聞

尹艷林:呼吁加快2.5億新市民落戶進程

汽車要聞

在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩(wěn)"的證明

態(tài)度原創(chuàng)

家居
旅游
游戲
本地
公開課

家居要聞

高端私宅 理想隱居圣地

旅游要聞

北緯 36° 奇跡!北方最北茶園憑 1 片葉子,讓貧瘠嶺變富民園

《巫火》仍堅持是單人游戲 沒有升級到虛幻5計劃

本地新聞

云游安徽|決戰(zhàn)烽火照古今,千秋一脈看宿州

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 亚洲午夜久久久久中文字幕| 激情综合网激情五月激情| 天天澡天天狠天天天做| 广州一区二区成人毛片| 激情小说激情图片| 办公室撕开奶罩 0 9吮奶在线观看| 亚洲国产超清无码专区| freesex亚洲| 新香蕉少妇视频网站| 免费黄色国产视频| 色欲.com| 国产在线乱子伦一区二区 | 日本不卡高字幕在线2019| 国产极品bbw| 久久精品观看| 亚洲AV无码精品色欲av | 亚洲无码免费一区| 日本精品一区二区不卡| 世界性猛交ⅩXXX乱大交AV| 亚洲成人AV在线高清| 伊人久久无码大香线蕉综合| 亚洲AV中文无码乱人伦在线咪| 国产精品美女久久久| 国产欧美日韩另类精彩视频| 成人精品无码一区二区在线观看| 黑人巨大精品欧美一区二区奶水 | 久久久久精品国产四虎1| 婷婷六月天一区| 亚洲精品乱码久久久久久中文字幕| 激情av小说| 性感美女黄色视频| 久久青青草原精品国产app| 寡妇亲子伦一区二区三区四区| AV无码专区亚洲AV波多野结衣| 在线精品自拍亚洲第一区| 无码免费在线影院| 久久天堂综合亚洲伊人HD| 亚洲无码手机在线不卡| 男女爱爱好爽视频免费看| 精品热线九九精品视频| 久久妇女高潮喷水多长时间|