夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

NeurIPS 25開(kāi)新坑:145萬(wàn)個(gè)圖文對(duì),覆蓋八種主流水下理解任務(wù)

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】華中科技大學(xué)團(tuán)隊(duì)推出首個(gè)水下多模態(tài)大模型NAUTILUS,支持8種水下場(chǎng)景理解任務(wù),并開(kāi)源145萬(wàn)圖文對(duì)的NautData數(shù)據(jù)集。模型通過(guò)視覺(jué)特征增強(qiáng)模塊解決水下圖像模糊和顏色失真問(wèn)題,性能超越現(xiàn)有模型,惡劣環(huán)境下表現(xiàn)更佳。

深邃的海洋覆蓋地球表面的70%以上,其在資源勘探、環(huán)境保護(hù)和國(guó)家安全等領(lǐng)域的重要性,使自動(dòng)化水下探索技術(shù)備受關(guān)注。

然而,想要像《海底兩萬(wàn)里》中的「鸚鵡螺號(hào)(NAUTILUS)」那樣自由地認(rèn)知和探索水下世界,我們?nèi)悦媾R嚴(yán)峻的技術(shù)挑戰(zhàn)。光線在水中的嚴(yán)重散射和吸收導(dǎo)致圖像質(zhì)量顯著下降,這極大地削弱了通用大模型的性能,阻礙了水下場(chǎng)景理解的研究進(jìn)展。


現(xiàn)有的水下視覺(jué)方法又大多為單一任務(wù)設(shè)計(jì),缺乏多粒度的綜合感知能力。大規(guī)模、多任務(wù)指令微調(diào)數(shù)據(jù)集的長(zhǎng)期缺失,進(jìn)一步制約了該領(lǐng)域的研究進(jìn)展。


針對(duì)以上挑戰(zhàn),華中科技大學(xué)白翔教授團(tuán)隊(duì)提出了首個(gè)能夠支持八項(xiàng)水下場(chǎng)景理解任務(wù)的水下多模態(tài)大模型NAUTILUS,旨在通過(guò)統(tǒng)一的框架實(shí)現(xiàn)對(duì)水下場(chǎng)景從圖像、區(qū)域到物體的多粒度、多任務(wù)的全面理解。


論文地址:https://arxiv.org/abs/2510.27481

項(xiàng)目地址:https://h-embodvis.github.io/NAUTILUS

代碼地址:https://github.com/H-EmbodVis/NAUTILUS

數(shù)據(jù)集地址:https://github.com/H-EmbodVis/NAUTILUS/tree/dataset

同時(shí),團(tuán)隊(duì)還構(gòu)建并開(kāi)源了首個(gè)大規(guī)模水下多任務(wù)指令微調(diào)數(shù)據(jù)集NautData。

該工作的主要貢獻(xiàn)如下:

  • 水下多任務(wù)指令跟隨數(shù)據(jù)集構(gòu)建了包含145萬(wàn)個(gè)圖文對(duì)的NautData數(shù)據(jù)集,覆蓋八種主流水下理解任務(wù),為水下大模型的發(fā)展和評(píng)測(cè)奠定了堅(jiān)實(shí)基礎(chǔ);

  • 多任務(wù)統(tǒng)一理解:NAUTILUS是首個(gè)能夠同時(shí)處理粗粒度與細(xì)粒度目標(biāo)分類、計(jì)數(shù)、視覺(jué)問(wèn)答(VQA)、檢測(cè)、指代定位、區(qū)域描述和圖像描述八項(xiàng)任務(wù)的水下大模型,實(shí)現(xiàn)了對(duì)場(chǎng)景信息的層級(jí)化、綜合性理解;

  • 性能優(yōu)異且魯棒:通過(guò)創(chuàng)新的「視覺(jué)特征增強(qiáng)」(VFE)模塊,NAUTILUS能夠有效克服水下圖像降質(zhì)問(wèn)題,在多個(gè)基準(zhǔn)測(cè)試中穩(wěn)定超越包括LLaVA-1.5和Qwen2.5-VL在內(nèi)的先進(jìn)模型,尤其在低光、渾濁等惡劣條件下表現(xiàn)出色。


水下多任務(wù)指令跟隨數(shù)據(jù)集NautData


該工作圍繞八項(xiàng)任務(wù)進(jìn)行數(shù)據(jù)構(gòu)建,并為每項(xiàng)任務(wù)設(shè)計(jì)了定制化的數(shù)據(jù)生成流程。

整個(gè)流程通過(guò)三種模式構(gòu)建數(shù)據(jù),分別為基于規(guī)則的生成 (Rule-based generation),組合生成(Integration generation)與自由格式生成 (Free-form generation)。

其中,基于規(guī)則的生成利用預(yù)定義模板構(gòu)造問(wèn)答對(duì),組合生成結(jié)合模板與大型語(yǔ)言模型(LMM)的輸出以豐富數(shù)據(jù),而自由格式生成則允許大型語(yǔ)言模型根據(jù)自主關(guān)注的內(nèi)容靈活創(chuàng)建問(wèn)題與答案。


數(shù)據(jù)集統(tǒng)計(jì)信息。外環(huán)顯示了數(shù)據(jù)在八項(xiàng)任務(wù)上的分布,內(nèi)環(huán)則顯示了三種生成模式的構(gòu)成比例。

NAUTILUS是如何實(shí)現(xiàn)的?


NAUTILUS 的框架主要由圖像編碼器、深度編碼器、視覺(jué)特征增強(qiáng)(VFE)模塊和大型語(yǔ)言模型組成。之前的研究通常將圖像增強(qiáng)作為預(yù)處理步驟,這可能導(dǎo)致信息丟失。

此外,圖像增強(qiáng)與模型訓(xùn)練的解耦會(huì)放大誤差累積的風(fēng)險(xiǎn),這一效應(yīng)在處理采集自多變環(huán)境的大規(guī)模水下數(shù)據(jù)集時(shí)愈發(fā)明顯。特征空間增強(qiáng)方法則通過(guò)實(shí)現(xiàn)端到端的優(yōu)化,利用下游任務(wù)提供面向任務(wù)的監(jiān)督,更適用于多任務(wù)模型設(shè)計(jì)。

因此,NAUTILUS通過(guò)在特征空間中進(jìn)行增強(qiáng),保留原始圖像的完整信息,優(yōu)化多任務(wù)場(chǎng)景理解表現(xiàn)。其核心在于即插即用的VFE模塊,該模塊的設(shè)計(jì)受到了水下成像物理模型的啟發(fā),旨在解決水下圖像退化問(wèn)題。


VFE模塊的工作流程如下:

  1. 去除背景散射影響借鑒暗像素先驗(yàn),模型通過(guò)定位圖像中的「暗像素」區(qū)域來(lái)估計(jì)水體中的背景散射光強(qiáng)度,并在特征層面將其從視覺(jué)特征中剝離,消除環(huán)境光造成的模糊和「霧霾感」。

  2. 恢復(fù)光線吸收影響由于光在水中的傳播會(huì)發(fā)生衰減,導(dǎo)致顏色失真,模型引入深度信息(由深度編碼器提?。﹣?lái)估計(jì)光線的吸收程度,并據(jù)此對(duì)視覺(jué)特征進(jìn)行補(bǔ)償,恢復(fù)物體原始的色彩和細(xì)節(jié)。

通過(guò)這兩個(gè)步驟,VFE模塊輸出增強(qiáng)后的視覺(jué)特征,與原始特征一同送入大型語(yǔ)言模型,使其既能感知真實(shí)的水下環(huán)境,又能基于恢復(fù)后的清晰信息進(jìn)行可靠的分析和理解。

NAUTILUS的效果如何?

為驗(yàn)證模型性能,研究團(tuán)隊(duì)在 NautData 測(cè)試集上進(jìn)行了全面的量化評(píng)估。

如下表所示,無(wú)論是基于LLaVA-1.5還是Qwen2.5-VL,NAUTILUS在分類、描述、定位、檢測(cè)及視覺(jué)問(wèn)答等多數(shù)核心任務(wù)上,其性能均顯著優(yōu)于現(xiàn)有的通用大模型及其他水下模型,展現(xiàn)了其卓越的綜合理解能力。


物體計(jì)數(shù)任務(wù)為評(píng)估模型的群體感知能力提供了有效途徑。

為此,研究團(tuán)隊(duì)在 IOCfish5k 數(shù)據(jù)集上對(duì) NAUTILUS的水下群體計(jì)數(shù)表現(xiàn)進(jìn)行了評(píng)測(cè)。

實(shí)驗(yàn)結(jié)果表明,該模型在平均絕對(duì)誤差(MAE)和均方根誤差(RMSE)上均優(yōu)于其他大型多模態(tài)模型,且相較于 LLaVA-1.5 基線分別取得了8.0和15.9的顯著提升,展現(xiàn)了卓越的群體感知性能。


為評(píng)估模型在真實(shí)水下環(huán)境中的魯棒性,研究團(tuán)隊(duì)考察了其在光照、色偏及渾濁等降質(zhì)條件下的定位(grounding)性能。

基于NautData測(cè)試子集的實(shí)驗(yàn)表明,相較于 LLaVA-1.5 基線,NAUTILUS在低光、偏綠和渾濁場(chǎng)景下的 PR@0.5 指標(biāo)分別取得了7.5、8.3和8.1的大幅提升,展現(xiàn)出其在多變視覺(jué)條件下的強(qiáng)大適應(yīng)能力與性能穩(wěn)定性。


下圖的可視化結(jié)果進(jìn)一步直觀地展示了NAUTILUS強(qiáng)大的多任務(wù)處理能力。


從對(duì)整個(gè)場(chǎng)景的宏觀描述,到對(duì)特定魚(yú)群的精確計(jì)數(shù)與定位,再到對(duì)單一對(duì)象的細(xì)粒度屬性問(wèn)答,NAUTILUS在圖像、區(qū)域、物體三個(gè)層級(jí)上均展現(xiàn)出精準(zhǔn)、連貫的理解能力,生動(dòng)體現(xiàn)了其作為水下場(chǎng)景理解基礎(chǔ)模型的巨大潛力。

總結(jié)

NAUTILUS作為首個(gè)支持八項(xiàng)水下場(chǎng)景理解任務(wù)的多模態(tài)大模型,為水下環(huán)境的綜合感知提供了一個(gè)統(tǒng)一的解決方案。

以往的通用模型因水下圖像降質(zhì)而性能不佳,而現(xiàn)有的水下專用方法又大多為單一任務(wù)設(shè)計(jì),限制了對(duì)場(chǎng)景的全面理解。

相比之下,NAUTILUS通過(guò)創(chuàng)新的視覺(jué)特征增強(qiáng)(VFE)模塊在特征層面克服圖像降質(zhì),并利用其多任務(wù)統(tǒng)一架構(gòu)的優(yōu)勢(shì),從而在多個(gè)基準(zhǔn)測(cè)試中,尤其是在惡劣條件下,取得了超越先進(jìn)模型的優(yōu)異表現(xiàn)。

參考資料:

https://arxiv.org/abs/2510.27481

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
全運(yùn)會(huì)|李家超晤巴赫,稱全力支持明年在港舉辦國(guó)家和地區(qū)奧委會(huì)協(xié)會(huì)大會(huì)

全運(yùn)會(huì)|李家超晤巴赫,稱全力支持明年在港舉辦國(guó)家和地區(qū)奧委會(huì)協(xié)會(huì)大會(huì)

星島記事
2025-11-13 10:43:58
一年狂飆21萬(wàn)公里,電池僅衰減5%,小米SU7車主刷新了科學(xué)

一年狂飆21萬(wàn)公里,電池僅衰減5%,小米SU7車主刷新了科學(xué)

木蹊說(shuō)
2025-11-11 16:06:19
這兩個(gè)新聞放一起看,諷刺得讓人無(wú)話可說(shuō)

這兩個(gè)新聞放一起看,諷刺得讓人無(wú)話可說(shuō)

清書(shū)先生
2025-11-12 15:55:46
中央農(nóng)辦、農(nóng)業(yè)農(nóng)村部:不允許城鎮(zhèn)居民到農(nóng)村購(gòu)買(mǎi)農(nóng)房、宅基地,不允許退休干部到農(nóng)村占地建房

中央農(nóng)辦、農(nóng)業(yè)農(nóng)村部:不允許城鎮(zhèn)居民到農(nóng)村購(gòu)買(mǎi)農(nóng)房、宅基地,不允許退休干部到農(nóng)村占地建房

政知新媒體
2025-11-12 10:13:49
高市早苗拒不認(rèn)錯(cuò),日本通知中國(guó),不解決問(wèn)題,就驅(qū)逐中方外交官

高市早苗拒不認(rèn)錯(cuò),日本通知中國(guó),不解決問(wèn)題,就驅(qū)逐中方外交官

大白話瞰世界
2025-11-13 13:21:29
29分鐘砍16分4斷+4三分!專家力挺火箭新人:轟30分只是時(shí)間問(wèn)題

29分鐘砍16分4斷+4三分!專家力挺火箭新人:轟30分只是時(shí)間問(wèn)題

熊哥愛(ài)籃球
2025-11-13 13:22:29
紅軍城方向進(jìn)攻失敗的俄軍尸體密密麻,陣亡率高達(dá)80%~90%

紅軍城方向進(jìn)攻失敗的俄軍尸體密密麻,陣亡率高達(dá)80%~90%

環(huán)球熱點(diǎn)快評(píng)
2025-11-11 21:52:28
浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

浙經(jīng)貿(mào)的三分鐘戰(zhàn)士大二弟弟火了

杭城村叔
2025-09-11 12:54:47
庫(kù)里44+4創(chuàng)紀(jì)錄!文班砍31+15+10帶不動(dòng)福克斯,穆迪激活勇士首發(fā)

庫(kù)里44+4創(chuàng)紀(jì)錄!文班砍31+15+10帶不動(dòng)??怂?,穆迪激活勇士首發(fā)

你的籃球頻道
2025-11-13 11:40:20
全民加薪,全國(guó)漲工資真來(lái)了!

全民加薪,全國(guó)漲工資真來(lái)了!

米宅
2025-11-12 07:22:05
王思聰榨干21歲女友!攜懶懶喂鹿!不忘買(mǎi)成人用品,表情心事重重

王思聰榨干21歲女友!攜懶懶喂鹿!不忘買(mǎi)成人用品,表情心事重重

八星人
2025-11-12 13:58:57
科爾:對(duì)庫(kù)里來(lái)說(shuō)如此表現(xiàn)是家常便飯,我們讓文班打得很艱難

科爾:對(duì)庫(kù)里來(lái)說(shuō)如此表現(xiàn)是家常便飯,我們讓文班打得很艱難

懂球帝
2025-11-13 14:01:41
32歲女教師跳樓身亡!倆娃沒(méi)了媽,最大8歲,丈夫提2訴求卻遭網(wǎng)暴

32歲女教師跳樓身亡!倆娃沒(méi)了媽,最大8歲,丈夫提2訴求卻遭網(wǎng)暴

攬星河的筆記
2025-11-12 15:29:49
讀懂《莊子》才明白:你焦慮了一生,其實(shí)沒(méi)啥意義

讀懂《莊子》才明白:你焦慮了一生,其實(shí)沒(méi)啥意義

洞見(jiàn)
2025-11-08 22:23:06
張頌文等人在韶關(guān)街頭救人續(xù):當(dāng)?shù)胤Q正開(kāi)展見(jiàn)義勇為評(píng)定調(diào)查

張頌文等人在韶關(guān)街頭救人續(xù):當(dāng)?shù)胤Q正開(kāi)展見(jiàn)義勇為評(píng)定調(diào)查

南方都市報(bào)
2025-11-12 15:54:51
安世風(fēng)波結(jié)束!荷蘭緊急撤掉部長(zhǎng)令,中國(guó)芯片“反殺”才剛剛開(kāi)始

安世風(fēng)波結(jié)束!荷蘭緊急撤掉部長(zhǎng)令,中國(guó)芯片“反殺”才剛剛開(kāi)始

Thurman在昆明
2025-11-13 00:51:02
對(duì)華強(qiáng)硬的80后女政客,正式就任聯(lián)合國(guó)大會(huì)主席:聯(lián)合國(guó)完蛋了

對(duì)華強(qiáng)硬的80后女政客,正式就任聯(lián)合國(guó)大會(huì)主席:聯(lián)合國(guó)完蛋了

南宮一二
2025-11-13 09:50:58
“律師取現(xiàn)4萬(wàn)遭盤(pán)問(wèn)”引熱議!實(shí)探銀行取現(xiàn):2萬(wàn)以上查流水,5萬(wàn)以上要民警核實(shí)

“律師取現(xiàn)4萬(wàn)遭盤(pán)問(wèn)”引熱議!實(shí)探銀行取現(xiàn):2萬(wàn)以上查流水,5萬(wàn)以上要民警核實(shí)

紅星新聞
2025-11-12 20:06:30
唐山大地震前,有人目睹勾魂…

唐山大地震前,有人目睹勾魂…

田先生研究室
2025-11-12 16:44:11
荒野手藝人張老六請(qǐng)假參賽,公司領(lǐng)導(dǎo):請(qǐng)假期間工資照發(fā),進(jìn)決賽還有獎(jiǎng)勵(lì)

荒野手藝人張老六請(qǐng)假參賽,公司領(lǐng)導(dǎo):請(qǐng)假期間工資照發(fā),進(jìn)決賽還有獎(jiǎng)勵(lì)

極目新聞
2025-11-12 13:59:17
2025-11-13 14:48:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
13855文章數(shù) 66246關(guān)注度
往期回顧 全部

科技要聞

深夜重磅!GPT-5.1發(fā)布,奧特曼大談情商

頭條要聞

特朗普采訪中肯定中國(guó)留學(xué)生重要性 遭MAGA炮轟"背叛"

頭條要聞

特朗普采訪中肯定中國(guó)留學(xué)生重要性 遭MAGA炮轟"背叛"

體育要聞

保羅,看看你對(duì)馬刺干的好事!

娛樂(lè)要聞

一場(chǎng)演唱會(huì),戳穿岳云鵬圈中地位

財(cái)經(jīng)要聞

源峰25億賭局!漢堡王中國(guó)"賣身"求生

汽車要聞

具備高階輔助駕駛功能 歐拉5預(yù)售價(jià)10.98萬(wàn)起

態(tài)度原創(chuàng)

游戲
藝術(shù)
時(shí)尚
房產(chǎn)
公開(kāi)課

《劍星》體模尹雪花入駐B站 將于杭州舉辦粉絲見(jiàn)面會(huì)

藝術(shù)要聞

黃君璧:仿古山水冊(cè)

降溫應(yīng)該穿什么衣服?看看這些穿搭就有靈感,簡(jiǎn)潔自然又舒適

房產(chǎn)要聞

海墾城建·鹿城壹號(hào)品牌發(fā)布會(huì)暨美學(xué)示范區(qū)璀璨啟幕

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 91后入中出| 天堂久久综合资源站| 无码人妻品一区二区三区精99| 国产精品无码无卡在线观看久 | 国产亚洲精品成人av在线| 成年人黄国产手机看| 人妻少妇精品系列| 欧美姓爱三级电影网站| 国产亚洲经典| 久久大香香蕉国产免费网动漫| 免费特黄夫妻生活片| 综合AV色色一区| 搡老女人老91妇女老The熟女| 野花香视频在线观看免费高清版| 国产精品久久久久毛片| 777奇米影院| 亚洲看片一区| 无码熟妇人妻aⅤ又粗又大| 亚洲深夜福利| 97少妇视频| 国产精品中文第一字幕| 欧美亚洲国产精品久久蜜芽直播 | 亚洲欧美闷骚少妇影院| 69sex久久精品国产麻豆| 成人无码视频| 国产一进一出| 国产内射AAA无吗大片| 人妻无码二三区| 无码好色一二区| 婷婷 五月 开心| 人人操人人摸人人揉| 亚洲一区在线观看青青蜜臀| 国产熟女无套白浆中出视频| 亚洲三级片网站视频| 欧美大胆少妇bbw| 免费无码一区无码东京热| 亚洲中文字幕精品久久久久久直播| 日韩精品一区二区三区免费 | WWW.欧美激情| 奇米在线888| 人人妻人人澡人人爽视频毒蜜臀 |