夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

VinciCoder:多模態(tài)統(tǒng)一代碼生成框架和視覺(jué)反饋強(qiáng)化學(xué)習(xí)

0
分享至



長(zhǎng)期以來(lái),多模態(tài)代碼生成(Multimodal Code Generation)的訓(xùn)練嚴(yán)重依賴于特定任務(wù)的監(jiān)督微調(diào)(SFT)。盡管這種范式在 Chart-to-code 等單一任務(wù)上取得了顯著成功 ,但其 “狹隘的訓(xùn)練范圍” 從根本上限制了模型的泛化能力,阻礙了通用視覺(jué)代碼智能(Generalized VIsioN Code Intelligence)的發(fā)展 。同時(shí),「SFT-only」的范式在確保代碼可執(zhí)行性和高視覺(jué)保真度方面存在顯著瓶頸 。

在此背景下,中科院 & 美團(tuán)研究團(tuán)隊(duì)推出了 VinciCoder,一個(gè)旨在打破 SFT 瓶頸的統(tǒng)一多模態(tài)代碼生成模型。VinciCoder首次將強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)機(jī)制從文本域轉(zhuǎn)向視覺(jué)域,提出視覺(jué)強(qiáng)化學(xué)習(xí)(ViRL),專(zhuān)攻 SFT 無(wú)法解決的視覺(jué)保真度難題。

本文提出的系統(tǒng)性框架VinciCoder,通過(guò) “大規(guī)模 SFT + 粗細(xì)粒度 ViRL” 的兩階段策略,有效統(tǒng)一了從圖表、網(wǎng)頁(yè)、SVG 到科學(xué)繪圖(LaTeX、化學(xué)分子)等多樣化代碼生成任務(wù) 。



  • 論文標(biāo)題:VinciCoder: Unifying Multimodal Code Generation via Coarse-to-fine Visual Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2511.00391
  • Github 鏈接:https://github.com/DocTron-hub/VinciCoder

數(shù)據(jù)代碼模型權(quán)重已開(kāi)源。

核心創(chuàng)新與技術(shù)突破

該論文同樣對(duì)傳統(tǒng) SFT 范式的局限性進(jìn)行了深入分析,發(fā)現(xiàn)其關(guān)鍵問(wèn)題在于訓(xùn)練目標(biāo)與最終任務(wù)之間存在 “視覺(jué)鴻溝”:

  • 目標(biāo)是局部的:SFT 采用自回歸的 “下一詞元預(yù)測(cè)” 目標(biāo) ,這本質(zhì)上是局部的,無(wú)法為代碼 “可執(zhí)行性” 等全局屬性提供監(jiān)督信號(hào) 。
  • 缺乏視覺(jué)反饋:模型在訓(xùn)練時(shí)完全看不到代碼的渲染結(jié)果 。這是一個(gè)致命缺陷,因?yàn)樵诖a中 “微小的修改就可能導(dǎo)致渲染圖像發(fā)生巨大變化” 。

這種 “視覺(jué) - 代碼” 監(jiān)督的缺失,直接導(dǎo)致了兩個(gè)關(guān)鍵問(wèn)題:

  • 保真度低且不可靠:模型僅在詞元層面(token-level)進(jìn)行優(yōu)化 ,無(wú)法保證渲染出的圖像在視覺(jué)上與輸入對(duì)齊,也無(wú)法保證代碼可以成功執(zhí)行 。
  • 泛化能力差:依賴特定任務(wù)的數(shù)據(jù)集進(jìn)行 SFT,難以形成一個(gè)統(tǒng)一的多模態(tài)代碼生成框架 。

考慮到 SFT 的根本局限性,研究者認(rèn)為必須引入一個(gè)能夠提供全局視覺(jué)反饋的機(jī)制。然而,傳統(tǒng)的 RL 方法依賴難以泛化的 “基于規(guī)則的文本獎(jiǎng)勵(lì)” 。VinciCoder 的破局點(diǎn)在于 ——將獎(jiǎng)勵(lì)機(jī)制從文本域徹底轉(zhuǎn)向視覺(jué)域

VinciCoder 的核心思路是:用大規(guī)模、多樣化的 SFT 構(gòu)建強(qiáng)大的代碼基礎(chǔ)能力 ,再通過(guò)創(chuàng)新的 ViRL 策略專(zhuān)門(mén)優(yōu)化 SFT 無(wú)法觸及的視覺(jué)保真度和可執(zhí)行性 。訓(xùn)練框架由「1.6M 大規(guī)模 SFT 階段」和「42k 粗細(xì)粒度 ViRL 階段」兩部分組成 ,核心是通過(guò)兩階段協(xié)作,同時(shí)實(shí)現(xiàn)強(qiáng)大的代碼理解與高保真的視覺(jué)對(duì)齊。

1. 大規(guī)模 SFT 語(yǔ)料庫(kù)與代碼優(yōu)化任務(wù)



研究團(tuán)隊(duì)首先構(gòu)建了一個(gè)包含1.6M 圖像 - 代碼對(duì)的大規(guī)模監(jiān)督微調(diào)(SFT)語(yǔ)料庫(kù) 。該語(yǔ)料庫(kù)不僅覆蓋了直接代碼生成任務(wù),還引入 “視覺(jué)代碼優(yōu)化” 的新任務(wù) 。在這項(xiàng)任務(wù)中,模型會(huì)接收到一個(gè)目標(biāo)圖像和一個(gè) “有缺陷” 的代碼片段(包含邏輯錯(cuò)誤或只能部分渲染)。模型的目標(biāo)是修正這段代碼,使其視覺(jué)輸出與目標(biāo)圖像精確對(duì)齊 。這一設(shè)計(jì)極大地提升了模型在代碼層面的糾錯(cuò)和優(yōu)化能力,為后續(xù)的強(qiáng)化學(xué)習(xí)階段奠定了堅(jiān)實(shí)基礎(chǔ) 。

2. 從 “文本獎(jiǎng)勵(lì)” 到 “視覺(jué)獎(jiǎng)勵(lì)”:粗細(xì)粒度 ViRL 框架



傳統(tǒng) SFT 訓(xùn)練在多模態(tài)代碼生成上存在根本缺陷:它缺乏 “視覺(jué) - 代碼” 的閉環(huán)反饋 ,且無(wú)法保證代碼的全局可執(zhí)行性 。

為解決此問(wèn)題,VinciCoder 引入了視覺(jué)強(qiáng)化學(xué)習(xí) (ViRL) 框架。該框架摒棄了傳統(tǒng)強(qiáng)化學(xué)習(xí)中脆弱的、基于規(guī)則的 “文本獎(jiǎng)勵(lì)” ,轉(zhuǎn)而從視覺(jué)直接獲取獎(jiǎng)勵(lì)信號(hào) 。

其核心突破在于一套粗 - 細(xì)粒度(Coarse-to-fine)視覺(jué)獎(jiǎng)勵(lì)機(jī)制:

  • 渲染與編碼:模型生成的代碼被實(shí)時(shí)渲染成圖像 。
  • 粗粒度(全局):通過(guò)下采樣生成縮略圖,評(píng)估整體結(jié)構(gòu)的相似性 。
  • 細(xì)粒度(局部):將高分辨率圖像分割為多個(gè)局部圖塊(patches),精確計(jì)算局部細(xì)節(jié)的保真度 。
  • ViT 獎(jiǎng)勵(lì)模型:使用 DINOv2-L 計(jì)算渲染圖像與目標(biāo)圖像在兩個(gè)粒度上的視覺(jué)相似度,作為獎(jiǎng)勵(lì)信號(hào)。
  • 對(duì)齊獎(jiǎng)勵(lì):引入一個(gè)輔助的語(yǔ)言對(duì)齊獎(jiǎng)勵(lì),用于懲罰生成了錯(cuò)誤代碼語(yǔ)言(如要求 Python 卻生成了 LaTeX 的行為)
  • 策略優(yōu)化:采用群組相對(duì)策略優(yōu)化 (GRPO) 算法 對(duì)模型進(jìn)行微調(diào),顯著提升視覺(jué)對(duì)齊度和代碼可執(zhí)行性。

據(jù)我們所知,VinciCoder 是第一個(gè)應(yīng)用強(qiáng)化學(xué)習(xí)(RL)來(lái)實(shí)現(xiàn)統(tǒng)一視覺(jué)代碼生成領(lǐng)域中 “跨領(lǐng)域視覺(jué)保真度” 提升的視覺(jué)語(yǔ)言模型

實(shí)驗(yàn)結(jié)果與性能表現(xiàn)

論文在五大多模態(tài)代碼生成基準(zhǔn)上進(jìn)行了全面實(shí)驗(yàn),對(duì)比了包括 Qwen、InternVL 等開(kāi)源模型以及 Gemini-2.5-Pro、Claude-4.5、GPT-5 等閉源模型 ,核心結(jié)果如下:



實(shí)驗(yàn)結(jié)果令人矚目:VinciCoder 在多個(gè)主流多模態(tài)代碼生成基準(zhǔn)上均取得了卓越表現(xiàn)。

  • SOTA 性能:VinciCoder 在開(kāi)源模型對(duì)比中樹(shù)立了新的 SOTA 標(biāo)準(zhǔn) ,其性能顯著優(yōu)于所有同等規(guī)模的競(jìng)爭(zhēng)對(duì)手 。
  • 媲美閉源模型:在如 Image-to-SVG 和化學(xué)分子式生等高難度任務(wù)上,VinciCoder 展現(xiàn)出超越頂尖閉源模型的卓越性能 。
  • 策略有效性:消融實(shí)驗(yàn)證明,僅 SFT 階段的 VinciCoder-SFT 就已建立起強(qiáng)大的基線 ;而 ViRL 階段的引入,則成功將模型性能提升至 SOTA 水平 ,充分驗(yàn)證了 SFT-ViRL 兩階段策略的壓倒性優(yōu)勢(shì)。



研究意義與應(yīng)用前景

VinciCoder 的研究不僅在技術(shù)上取得了重大突破,也為多模態(tài)代碼生成領(lǐng)域提供了全新的研究范式:

  • 驗(yàn)證 RL 新路徑:證明了 “視覺(jué)強(qiáng)化學(xué)習(xí)” 是突破 SFT 瓶頸、提升代碼視覺(jué)保真度的有效途徑,將獎(jiǎng)勵(lì)機(jī)制從文本域成功擴(kuò)展到視覺(jué)域 。
  • 統(tǒng)一框架的實(shí)現(xiàn):打破了過(guò)去模型 “各自為戰(zhàn)” 的狹隘范式 ,提供了一個(gè)強(qiáng)大的統(tǒng)一框架,能夠處理包括 Python、HTML、SVG、LaTeX 乃至化學(xué) SMILES 在內(nèi)的多樣化代碼生成任務(wù) 。
  • 高保真度獎(jiǎng)勵(lì)機(jī)制:“粗 - 細(xì)粒度” 獎(jiǎng)勵(lì)設(shè)計(jì)為處理高分辨率、高復(fù)雜度視覺(jué)輸入的 RL 任務(wù)提供了健壯且可擴(kuò)展的解決方案 。

結(jié)論

VinciCoder 的核心價(jià)值并非單純地堆砌 SFT 數(shù)據(jù),而是通過(guò) “SFT + 粗細(xì)粒度 ViRL” 的組合,證明了 “以視覺(jué)反饋指導(dǎo)代碼生成” 的可行性與優(yōu)越性。這一思路不僅解決了傳統(tǒng) SFT 范式在可執(zhí)行性與視覺(jué)保真度上的痛點(diǎn),也為后續(xù)通用多模態(tài)智能體的研發(fā)提供了新的思路。

在總體思路上,該論文的思路與 R1-Style 方法高度相關(guān),都驗(yàn)證了強(qiáng)化學(xué)習(xí)在提升基礎(chǔ)模型高級(jí)能力上的巨大潛力。VinciCoder 的成功探索表明,RL 不僅可以用于優(yōu)化數(shù)學(xué)推理等文本任務(wù),更可以作為連接 “視覺(jué)” 與 “代碼” 兩大模態(tài)的橋梁,解決 SFT 無(wú)法企及的跨模態(tài)對(duì)齊難題。

更多細(xì)節(jié)請(qǐng)參閱原論文。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
天冷風(fēng)猛!氣溫明天“跳漲”

天冷風(fēng)猛!氣溫明天“跳漲”

遼寧衛(wèi)視
2025-11-18 06:34:10
32歲女子離婚高興曬證,1月后就歇菜,網(wǎng)友:旺鋪轉(zhuǎn)讓失???

32歲女子離婚高興曬證,1月后就歇菜,網(wǎng)友:旺鋪轉(zhuǎn)讓失敗?

農(nóng)村情感故事
2025-10-03 07:37:33
男子哈工大畢業(yè)被裁后續(xù):賠償?shù)劫~25萬(wàn),再找不到工作只能送外賣(mài)

男子哈工大畢業(yè)被裁后續(xù):賠償?shù)劫~25萬(wàn),再找不到工作只能送外賣(mài)

削桐作琴
2025-11-14 20:04:14
美國(guó)富豪的VIP世界!各種VIP通道+會(huì)員,簡(jiǎn)直能一輩子不跟普通人打交道了...

美國(guó)富豪的VIP世界!各種VIP通道+會(huì)員,簡(jiǎn)直能一輩子不跟普通人打交道了...

英國(guó)那些事兒
2025-11-17 23:25:12
蘇丹爆發(fā)大屠殺!伏尸百萬(wàn)堆積如山,血洗法希爾為何無(wú)人敢攔

蘇丹爆發(fā)大屠殺!伏尸百萬(wàn)堆積如山,血洗法希爾為何無(wú)人敢攔

史紀(jì)文譚
2025-11-12 11:32:23
禍不及家人!姆巴佩被巴黎氣炸:拿他弟弟撒氣 后者整日以淚洗面

禍不及家人!姆巴佩被巴黎氣炸:拿他弟弟撒氣 后者整日以淚洗面

風(fēng)過(guò)鄉(xiāng)
2025-11-18 07:45:34
時(shí)隔近兩年半,巴薩本周末重回諾坎普

時(shí)隔近兩年半,巴薩本周末重回諾坎普

體壇周報(bào)
2025-11-17 22:54:16
全運(yùn)會(huì)金牌榜更新:浙江一日奪10金,廣東無(wú)亮點(diǎn),山東強(qiáng)勢(shì)領(lǐng)跑

全運(yùn)會(huì)金牌榜更新:浙江一日奪10金,廣東無(wú)亮點(diǎn),山東強(qiáng)勢(shì)領(lǐng)跑

吳锎旅行ing
2025-11-18 06:14:08
非法吸收公眾存款484億,造成集資參與人損失128億元!王偉等34人獲刑

非法吸收公眾存款484億,造成集資參與人損失128億元!王偉等34人獲刑

紅星新聞
2025-11-17 17:08:13
地球上曾出現(xiàn)過(guò)上千億人,這是否意味著,泥土就是由腐尸構(gòu)成的呢

地球上曾出現(xiàn)過(guò)上千億人,這是否意味著,泥土就是由腐尸構(gòu)成的呢

三農(nóng)老歷
2025-11-18 04:45:20
琉球之后,輪到蘇祿國(guó)復(fù)國(guó)了,否則,何以告慰為反殖民犧牲的先輩

琉球之后,輪到蘇祿國(guó)復(fù)國(guó)了,否則,何以告慰為反殖民犧牲的先輩

阿七說(shuō)史
2025-11-17 08:56:12
H3N2毒株嚴(yán)重可致呼吸衰竭!專(zhuān)家提醒:流感需在48小時(shí)內(nèi)吃?shī)W司他韋

H3N2毒株嚴(yán)重可致呼吸衰竭!專(zhuān)家提醒:流感需在48小時(shí)內(nèi)吃?shī)W司他韋

說(shuō)說(shuō)你的看法
2025-11-17 13:04:59
這些電器“再降價(jià)也不要買(mǎi)”,已逐漸淡出中國(guó)家庭,建議及時(shí)止損

這些電器“再降價(jià)也不要買(mǎi)”,已逐漸淡出中國(guó)家庭,建議及時(shí)止損

裝修秀
2025-10-18 11:30:03
2026款漢蘭達(dá)大變樣,五座+373馬力!

2026款漢蘭達(dá)大變樣,五座+373馬力!

唯不爭(zhēng)媒介
2025-11-17 22:36:49
凍了30年才發(fā)現(xiàn),這些離譜但超好用的“過(guò)冬神器”,以前白挨凍了

凍了30年才發(fā)現(xiàn),這些離譜但超好用的“過(guò)冬神器”,以前白挨凍了

室內(nèi)設(shè)計(jì)師有料兒
2025-11-17 13:10:54
泰王夫婦在北京參觀靈光寺!蘇提達(dá)王后穿古韻連衣裙,踩高跟跪拜

泰王夫婦在北京參觀靈光寺!蘇提達(dá)王后穿古韻連衣裙,踩高跟跪拜

小鬼頭體育
2025-11-17 11:21:00
歐洲區(qū)小組賽出局隊(duì)全部確定:塞爾維亞、匈牙利、以色列在列

歐洲區(qū)小組賽出局隊(duì)全部確定:塞爾維亞、匈牙利、以色列在列

懂球帝
2025-11-17 10:42:30
棄山東投孫穎莎!她拒絕和勒布倫緋聞,帶傷病加盟河北,原因曝光

棄山東投孫穎莎!她拒絕和勒布倫緋聞,帶傷病加盟河北,原因曝光

余鴡搞笑段子
2025-11-15 11:45:53
阿里公測(cè)千問(wèn)對(duì)標(biāo)ChatGPT,但9.9和9.11誰(shuí)大還是“翻車(chē)”了

阿里公測(cè)千問(wèn)對(duì)標(biāo)ChatGPT,但9.9和9.11誰(shuí)大還是“翻車(chē)”了

第一財(cái)經(jīng)資訊
2025-11-17 16:29:24
德波爾祝福范戴克打破自己的紀(jì)錄:祝賀你,你是真正的領(lǐng)袖

德波爾祝福范戴克打破自己的紀(jì)錄:祝賀你,你是真正的領(lǐng)袖

懂球帝
2025-11-18 07:53:10
2025-11-18 08:31:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專(zhuān)業(yè)的人工智能媒體
11737文章數(shù) 142506關(guān)注度
往期回顧 全部

科技要聞

京東外賣(mài)要“獨(dú)立” 劉強(qiáng)東還宣戰(zhàn)“點(diǎn)評(píng)”

頭條要聞

女子手機(jī)落在新疆亂石堆 3年后被人跨越5000公里送還

頭條要聞

女子手機(jī)落在新疆亂石堆 3年后被人跨越5000公里送還

體育要聞

當(dāng)家球星受傷后,球迷樂(lè)翻了天?

娛樂(lè)要聞

金雞獎(jiǎng)是“照妖鏡”,揭露人情冷暖?

財(cái)經(jīng)要聞

高市早苗的算計(jì),將讓日本割肉5000億

汽車(chē)要聞

新增CDC后變化大嗎? 試駕特斯拉model Y L

態(tài)度原創(chuàng)

藝術(shù)
本地
旅游
家居
教育

藝術(shù)要聞

Colin Fraser:蛋彩畫(huà)的蘇格蘭大師

本地新聞

這檔古早綜藝,怎么就成了年輕人的哆啦A夢(mèng)?

旅游要聞

長(zhǎng)江岸畔菊海刷屏!417 品種 9 萬(wàn)盆綻放,紅色堤壩藏振興密碼

家居要聞

回廊通道 強(qiáng)化空間秩序

教育要聞

在家躺平擺爛,在外當(dāng)舔狗:14歲兒子雙面人格,揭開(kāi)家庭最痛的傷

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 亚洲精品黑人巨大| 91高清免费国产自产拍| 人人妻人人操人人妻| 中国内谢少妇| 无码人妻一区二区三区免费手机 | 久久精品亚洲国产综合色| 忍着娇喘人妻被中出中文字幕| www.zz17.cn| 99久久免费精品国产色| 内射视频←www夜| 美女诱惑aaa国产| 人人操人人宝| 国产日产欧产精品精品蜜芽| 丰满少妇大力进入| 久久综合久久鬼色| 欧美性爱肏屄图| www.久久成人电影.com| 亚洲精品乱码久久久久久皂宅| 蜜桃臀AV高潮无码| 看国产一级东北骚美女操逼视频| 成年女人免费v片| 精产国品一二三产区M553| 日韩中文字幕一区二区| 亚洲色图激情文学| 人人操人人骑| 日韩精品无码成人专区真希| 亚洲AV熟女| 国产综合色在线精品| 女高潮大叫喷水抽搐 | 国产 白浆 后入| 无遮挡色视频真人免费| 国产二汲大乱仑| 午夜性刺激免费看视频| www.qiqisea| 很很日在线视频| 亚洲毛片无码专区亚洲乱| 欧美成人h亚洲综合在线观看 | 一区二区三区av波多野结衣| 亚洲AV日韩AV综合在线观看| 在线播放尤物美女AV| 中文字幕在线免费看线人|