夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

開(kāi)源即爆火!英偉達(dá)重磅推出OmniVinci全模態(tài)大模型

0
分享至



全模態(tài)智能,英偉達(dá)的下一步

你是否想過(guò),未來(lái)的 AI 將會(huì)是什么樣子?

是只會(huì)打字的 Chat Bot,只會(huì)看圖的 VLM,還是只能分辨聲音的 ALM?

都不是! 真正的智能,應(yīng)該像我們?nèi)祟愐粯樱軌蛲瑫r(shí)看、聽(tīng)、說(shuō)、寫,既能看懂世界的五彩斑斕,也能聽(tīng)懂萬(wàn)物的聲音。



在不久前結(jié)束的英偉達(dá)華盛頓 GTC 大會(huì)上,老黃再三強(qiáng)調(diào) “研究人員需要開(kāi)源。開(kāi)發(fā)者依賴開(kāi)源。全球的公司,包括我們都離不開(kāi)開(kāi)源模型。開(kāi)源非常,非常,重要?!?在老黃的號(hào)召下,全模態(tài)理解模型迎來(lái)重量級(jí)新玩家 —— 英偉達(dá)(NVIDIA)開(kāi)源了 OmniVinci, 一款能理解多模態(tài)世界的全模態(tài)大語(yǔ)言模型(Omni-Modal LLM)。該模型實(shí)現(xiàn)了視覺(jué)、音頻、語(yǔ)言在同一潛空間(latent space)中的統(tǒng)一理解, 讓 AI 不僅能識(shí)別圖像、聽(tīng)懂語(yǔ)音,還能推理、對(duì)話、生成內(nèi)容。這個(gè) 9B 的視覺(jué) - 語(yǔ)音理解全模態(tài)模型剛上線就爆火,一周時(shí)間 Huggingface 模型權(quán)重目前已經(jīng)有超過(guò)10000次下載量!



  • 論文標(biāo)題:OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
  • 項(xiàng)目地址:https://github.com/NVlabs/OmniVinci
  • 論文地址:https://arxiv.org/abs/2510.15870
  • 開(kāi)源模型:https://huggingface.co/nvidia/omnivinci

秀翻全場(chǎng)!多模態(tài)理解性能全面超越



和相近尺寸的全模態(tài)模型競(jìng)品相比,OmniVinci 在多項(xiàng)常用多模態(tài)基準(zhǔn)測(cè)試榜單中取得了顯著優(yōu)勢(shì),包括視頻 - 音頻跨模態(tài)理解任務(wù)(DailyOmni +19.05),音頻理解 (MMAR + 1.7),和視頻理解 (Video-MME +3.9),展現(xiàn)出卓越的全模態(tài)理解能力。更重要的是,OmniVinci 少用了近 6 倍的數(shù)據(jù)量實(shí)現(xiàn)了超越,展現(xiàn)了其架構(gòu)和數(shù)據(jù)引擎的卓越效率。

三大架構(gòu)創(chuàng)新:讓視覺(jué)與聽(tīng)覺(jué)在同一空間共鳴





OmniVinci 不僅具備炸裂的榜單性能,其論文中通過(guò)大量科學(xué)實(shí)驗(yàn)探索最優(yōu)全模態(tài)模型架構(gòu)的方法,而不是粗暴堆疊訓(xùn)練數(shù)據(jù),這種做法顯然更值得借鑒。想象一下,AI 看視頻時(shí),畫面(視覺(jué))和聲音(音頻)是兩條獨(dú)立的信息流。如果模型架構(gòu)對(duì)此處理不好,AI 就會(huì) “精神分裂”。而 OmniVinci 的目標(biāo)就是讓它們完美同步,通過(guò)三項(xiàng)核心創(chuàng)新設(shè)計(jì)來(lái)實(shí)現(xiàn):

OmniAlignNet:跨模態(tài)語(yǔ)義對(duì)齊網(wǎng)絡(luò)

這就像一個(gè) “超級(jí)翻譯器”,讓模型在同一空間中 “看得見(jiàn)聲音,聽(tīng)得懂畫面”。它創(chuàng)建了一個(gè)共享空間,通過(guò)對(duì)比學(xué)習(xí) ,讓視覺(jué)信號(hào)和音頻信號(hào)能在這里用同一種 “語(yǔ)言” 無(wú)障礙交流,實(shí)現(xiàn)跨模態(tài)深度對(duì)齊。



Temporal Embedding Grouping (TEG):時(shí)間嵌入分組機(jī)制

將視覺(jué)幀與音頻信號(hào)按時(shí)間戳重組,使模型能跨模態(tài)感知事件的相對(duì)先后關(guān)系。AI 終于能搞清楚,是 “先開(kāi)槍再有槍聲”,還是 “先有閃電再有雷聲”。它通過(guò)按時(shí)間戳分組,讓 AI 理解事件的先后順序 。



Constrained Rotary Time Embedding (CRTE):受約束旋轉(zhuǎn)時(shí)間嵌入

通過(guò)時(shí)間旋轉(zhuǎn)編碼,模型獲得絕對(duì)時(shí)間感知能力。AI 不僅知道 “先” 和 “后”,還知道這件事發(fā)生在視頻的第 5 秒,還是第 50 秒。



有了這三板斧,OmniVinci 才真正擁有了準(zhǔn)確感知視覺(jué),音頻和時(shí)間流逝的能力。

數(shù)據(jù)引擎:24M 多模態(tài)對(duì)話的背后





模型強(qiáng)度離不開(kāi)數(shù)據(jù)支撐。OmniVinci 團(tuán)隊(duì)構(gòu)建了一個(gè)龐大的全模態(tài)數(shù)據(jù)引擎(Omni-Modal Data Engine),共涵蓋2400 萬(wàn)條多模態(tài)對(duì)話樣本,覆蓋圖像、視頻、音頻、語(yǔ)音四大領(lǐng)域。數(shù)據(jù)分布中,圖像占 36%、音頻與語(yǔ)音共占 38%、視頻 11%、全模態(tài)數(shù)據(jù) 15%。其中包括兩種創(chuàng)新的全模態(tài)學(xué)習(xí)方式:

  • 隱式全模態(tài)學(xué)習(xí)(Implicit Learning)

直接利用現(xiàn)有視頻自帶音頻的問(wèn)答數(shù)據(jù),讓模型在 “看視頻” 的同時(shí) “聽(tīng)聲音”。

  • 顯式全模態(tài)學(xué)習(xí)(Explicit Learning)

通過(guò) AI 單獨(dú)生成視覺(jué)和音頻模態(tài)專屬的描述,再由 LLM 進(jìn)行交叉修正與融合,解決了單模態(tài)模型常見(jiàn)的 “幻覺(jué)”(如只看畫面誤判語(yǔ)義)。

實(shí)驗(yàn):打造全模態(tài)模型的關(guān)鍵洞察


[關(guān)鍵洞察 1] 單一模態(tài)打標(biāo) = 不靠譜!告別 “模態(tài)幻覺(jué)”

團(tuán)隊(duì)發(fā)現(xiàn),很多 AI 模型都有 “模態(tài)幻覺(jué)”: 只看圖(視覺(jué)):AI 看到一個(gè)深海機(jī)器人,可能會(huì) “腦補(bǔ)” 說(shuō)這是人類高科技的勝利 。只聽(tīng)聲(音頻):AI 聽(tīng)到旁白說(shuō) “地球最深處”,可能會(huì) “瞎猜” 說(shuō)這是關(guān)于地心的紀(jì)錄片 。因此一個(gè)集成了兩種模態(tài)的聯(lián)合字幕方法對(duì)于全面理解至關(guān)重要。



[關(guān)鍵洞察 2] 1 + 1 > 2!當(dāng)聽(tīng)覺(jué) “點(diǎn)亮” 視覺(jué)

加上音頻,模型真的變強(qiáng)了嗎?答案是肯定的! 團(tuán)隊(duì)發(fā)現(xiàn),聲音為視覺(jué)提供了全新的信息維度,音視頻聯(lián)合學(xué)習(xí)能顯著提高視頻的理解能力 。只用視覺(jué) (Visual Alone) 視覺(jué) + 音頻 (隱式學(xué)習(xí) IL) 視覺(jué) + 音頻 + 全模態(tài)數(shù)據(jù)引擎 (顯式學(xué)習(xí) EL) 結(jié)果顯示 (見(jiàn)下表),每增加一步,性能都在飆升!特別是加入了數(shù)據(jù)引擎的 “顯式學(xué)習(xí)” 后,模型性能在多個(gè)基準(zhǔn)上都實(shí)現(xiàn)了巨大飛躍。



[關(guān)鍵洞察 3] 王牌對(duì)王牌:當(dāng) OmniVinci 遇上 “強(qiáng)化學(xué)習(xí)”

基礎(chǔ)模型已經(jīng)這么強(qiáng)了,還能再進(jìn)化嗎? 能!通過(guò)強(qiáng)化學(xué)習(xí) (RL)!

音頻,讓強(qiáng)化學(xué)習(xí) “如虎添翼”! 團(tuán)隊(duì)在使用 GRPO 強(qiáng)化學(xué)習(xí)框架時(shí)發(fā)現(xiàn)了一個(gè) “隱藏 Buff”: 只給 AI 看視頻(視覺(jué))去訓(xùn)練,遠(yuǎn)不如 “邊看邊聽(tīng)”(視聽(tīng)結(jié)合)的效果好! 如圖所示,加入音頻后,模型的收斂速度更快。



強(qiáng)強(qiáng)對(duì)決,OmniVinci 更勝一籌! 在這個(gè)多模態(tài) RL 框架下,OmniVinci 和 Qwen2.5-Omni 都能獲益 。但是,OmniVinci 憑借更強(qiáng)的基礎(chǔ)性能和指令跟隨能力,在 15 步內(nèi)就超越了 Qwen2.5-Omni 的準(zhǔn)確率,并且格式獎(jiǎng)勵(lì)收斂速度快了 2.7 倍 ! 最終,經(jīng)過(guò) RL 訓(xùn)練的 OmniVinci+RL,在所有全模態(tài)基準(zhǔn)上再次實(shí)現(xiàn)全面提升!





不止是 SOTA,是全能 Agent

跑分只是基礎(chǔ),真正的全模態(tài) AI,必須能在真實(shí)世界 “大顯身手”。

OmniVinci 做到了。研究團(tuán)隊(duì)用它測(cè)試了 N 個(gè)真實(shí)場(chǎng)景,效果非常好 :

場(chǎng)景一:聯(lián)合視聽(tīng)感知

你給它一段播客視頻,它不僅能看懂主持人和嘉賓的外形,更能 “聽(tīng)懂” 他們討論的復(fù)雜話題。



場(chǎng)景二:語(yǔ)音轉(zhuǎn)錄 + 翻譯

你對(duì)它說(shuō)話,它能瞬間轉(zhuǎn)錄成文字。



場(chǎng)景三:全語(yǔ)音交互

你用語(yǔ)音問(wèn):“這個(gè)演講者的公司使命是啥?”

它立刻用語(yǔ)音答:“他的公司使命是在火星上建立一個(gè)自我維持的文明?!?/p>



場(chǎng)景四:指揮機(jī)器人,直接 “張嘴說(shuō)”!

OmniVinci 能直接聽(tīng)懂你的語(yǔ)音指令(比如 “進(jìn)入臥室,在床腳站住” ),然后規(guī)劃下一步行動(dòng)。這才是真正實(shí)用的人機(jī)交互!



場(chǎng)景五:AI 看懂 “專家會(huì)診”!

醫(yī)生一邊滾動(dòng)查看 CT 影像,一邊用嘴說(shuō)出診斷(“這里我們看到一些肺大皰和相關(guān)的纖維化改變...” ) 。OmniVinci 能同時(shí) “看” CT 影像的動(dòng)態(tài)變化 ,并 “聽(tīng)” 懂醫(yī)生的專業(yè)解說(shuō) ,準(zhǔn)確回答 “肺部紋理隨時(shí)間如何變化?” 這類高難度問(wèn)題,在醫(yī)療 AI 上大展身手 !



場(chǎng)景六:AI “全能解說(shuō)” 體育比賽!

看網(wǎng)球比賽,AI 不再是 “睜眼瞎”。OmniVinci 能同步理解激烈的視覺(jué)動(dòng)作(誰(shuí)在發(fā)球、誰(shuí)贏了這一分)和解說(shuō)員的評(píng)論。在預(yù)測(cè)得分結(jié)果和回合長(zhǎng)度上,它完勝 Qwen2.5-Omni。更重要的是,量化后在消費(fèi)級(jí)顯卡 GeForce RTX 4090 上它延遲極低,完全可以用于電視直播!





這不就是賈維斯嗎?

OmniVinci 的出現(xiàn),可能不僅僅是一個(gè)新 SOTA 9B 全模態(tài)模型的誕生,它更代表了一種全新的 AI 范式。

未來(lái),AI 不再是割裂的 “視覺(jué)模型” 或 “音頻模型”,而是統(tǒng)一的 “全模態(tài)感知系統(tǒng)”。

更低的訓(xùn)練成本,意味著更快的迭代和更廣泛的應(yīng)用。從能聽(tīng)懂指令的機(jī)器人,到能理解醫(yī)生口述和 CT 影像的醫(yī)療 AI,再到監(jiān)控異常聲音和畫面的智能工廠,一個(gè)更智能的未來(lái),正在加速到來(lái)。

英偉達(dá)這次,又交出了一份驚艷的答卷。

對(duì)于 OmniVinci,你怎么看?你最期待它被用在什么地方?歡迎在評(píng)論區(qū)留下你的 “神預(yù)言”!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特大暴雪同期罕見(jiàn)!將影響超20省區(qū)市!山東大部地區(qū)降雨,濟(jì)南降雨+降溫

特大暴雪同期罕見(jiàn)!將影響超20省區(qū)市!山東大部地區(qū)降雨,濟(jì)南降雨+降溫

齊魯壹點(diǎn)
2025-11-07 18:18:30
英國(guó)教授疑惑:我實(shí)在想不通,中國(guó)憑什么維持?jǐn)?shù)千年的文明統(tǒng)一?

英國(guó)教授疑惑:我實(shí)在想不通,中國(guó)憑什么維持?jǐn)?shù)千年的文明統(tǒng)一?

知鑒明史
2025-11-06 21:02:00
美國(guó)的選舉結(jié)果利好烏克蘭,可能使特朗普不得不立即轉(zhuǎn)向……

美國(guó)的選舉結(jié)果利好烏克蘭,可能使特朗普不得不立即轉(zhuǎn)向……

翻開(kāi)歷史和現(xiàn)實(shí)
2025-11-07 10:22:57
雷軍都惹不起的女人!小米法務(wù)部徹底沒(méi)轍了!

雷軍都惹不起的女人!小米法務(wù)部徹底沒(méi)轍了!

廣告案例精選
2025-11-06 16:54:01
ESPN:39歲胡爾克重新迎來(lái)職業(yè)生涯黃金階段,他已不考慮離隊(duì)

ESPN:39歲胡爾克重新迎來(lái)職業(yè)生涯黃金階段,他已不考慮離隊(duì)

懂球帝
2025-11-07 07:59:09
如果在家突發(fā)心梗,黃金5分鐘自救法,快了解,關(guān)鍵時(shí)刻可自救

如果在家突發(fā)心梗,黃金5分鐘自救法,快了解,關(guān)鍵時(shí)刻可自救

風(fēng)信子的花
2025-10-24 23:59:39
恒大怎么做到虧損八千億的?終于搞懂了,許家印不跑是有原因的

恒大怎么做到虧損八千億的?終于搞懂了,許家印不跑是有原因的

歷史偉人錄
2025-11-06 14:42:35
亞洲第一個(gè)倒下的國(guó)家即將出現(xiàn),曾比肩中國(guó),如今在走日本的老路

亞洲第一個(gè)倒下的國(guó)家即將出現(xiàn),曾比肩中國(guó),如今在走日本的老路

阿器談史
2025-11-05 20:57:46
初三學(xué)生被霸凌者打斷肋骨,母親不去派出所,隔天校園來(lái)六輛商務(wù)車

初三學(xué)生被霸凌者打斷肋骨,母親不去派出所,隔天校園來(lái)六輛商務(wù)車

懸案解密檔案
2025-10-21 09:24:49
這才是領(lǐng)袖:朱婷進(jìn)攻攔網(wǎng)秒殺國(guó)內(nèi)隊(duì)員!排協(xié)竟有眼無(wú)珠收回球衣

這才是領(lǐng)袖:朱婷進(jìn)攻攔網(wǎng)秒殺國(guó)內(nèi)隊(duì)員!排協(xié)竟有眼無(wú)珠收回球衣

金毛愛(ài)女排
2025-11-07 21:16:51
49歲趙薇近況再曝,胃癌傳聞?wù)嫦啻蟀?,善惡終有報(bào)

49歲趙薇近況再曝,胃癌傳聞?wù)嫦啻蟀?,善惡終有報(bào)

一娛三分地
2025-11-07 18:40:38
杭州網(wǎng)紅“大逃亡”,網(wǎng)紅之都跌落神壇!

杭州網(wǎng)紅“大逃亡”,網(wǎng)紅之都跌落神壇!

財(cái)經(jīng)三分鐘pro
2025-11-05 13:58:59
五角大樓沒(méi)想到,大陸對(duì)臺(tái)使出最絕的一招:邀請(qǐng)日本自衛(wèi)隊(duì)到北京

五角大樓沒(méi)想到,大陸對(duì)臺(tái)使出最絕的一招:邀請(qǐng)日本自衛(wèi)隊(duì)到北京

書中自有顏如玉
2025-11-07 10:15:08
“大魚”游走了,澤連斯基在巴甫洛夫格勒的地堡里,見(jiàn)證了紅軍城的陷落!

“大魚”游走了,澤連斯基在巴甫洛夫格勒的地堡里,見(jiàn)證了紅軍城的陷落!

勝研集
2025-11-06 10:42:31
一個(gè)血虧,一個(gè)賺翻:北京環(huán)球影城比上海迪士尼輸在哪?

一個(gè)血虧,一個(gè)賺翻:北京環(huán)球影城比上海迪士尼輸在哪?

城市研究室
2025-11-06 16:27:43
全運(yùn)乒乓球:16強(qiáng)今天出爐!劉詩(shī)雯林高遠(yuǎn)晉級(jí),7大世界冠軍出場(chǎng)

全運(yùn)乒乓球:16強(qiáng)今天出爐!劉詩(shī)雯林高遠(yuǎn)晉級(jí),7大世界冠軍出場(chǎng)

國(guó)乒二三事
2025-11-07 06:57:07
立冬后才發(fā)現(xiàn):“羽絨服”最受歡迎,配長(zhǎng)褲就行,保暖舒適又時(shí)尚

立冬后才發(fā)現(xiàn):“羽絨服”最受歡迎,配長(zhǎng)褲就行,保暖舒適又時(shí)尚

八分搭配
2025-11-08 00:26:06
俄羅斯為啥不擔(dān)心芯片制造光刻機(jī)問(wèn)題?除中國(guó),其他國(guó)家都不擔(dān)心

俄羅斯為啥不擔(dān)心芯片制造光刻機(jī)問(wèn)題?除中國(guó),其他國(guó)家都不擔(dān)心

百態(tài)人間
2025-10-31 05:35:02
何賽飛上綜藝,說(shuō)話太直接,劉嘉玲被無(wú)言以對(duì),寧?kù)o不敢吱聲

何賽飛上綜藝,說(shuō)話太直接,劉嘉玲被無(wú)言以對(duì),寧?kù)o不敢吱聲

瓜汁橘長(zhǎng)Dr
2025-11-07 16:45:19
神舟二十遭遇致命撞擊!幕后黑手竟然是它?航天員如何絕境求生?

神舟二十遭遇致命撞擊!幕后黑手竟然是它?航天員如何絕境求生?

來(lái)科點(diǎn)譜
2025-11-06 13:25:37
2025-11-08 01:47:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11672文章數(shù) 142500關(guān)注度
往期回顧 全部

科技要聞

75%贊成!特斯拉股東同意馬斯克天價(jià)薪酬

頭條要聞

家長(zhǎng)稱男嬰被兩個(gè)不滿12周歲女孩害死:拿她們沒(méi)辦法

頭條要聞

家長(zhǎng)稱男嬰被兩個(gè)不滿12周歲女孩害死:拿她們沒(méi)辦法

體育要聞

是天才更是強(qiáng)者,18歲的全紅嬋邁過(guò)三道坎

娛樂(lè)要聞

王家衛(wèi)的“看人下菜碟”?

財(cái)經(jīng)要聞

荷蘭政府:安世中國(guó)將很快恢復(fù)芯片供應(yīng)

汽車要聞

美式豪華就是舒適省心 林肯航海家場(chǎng)地試駕

態(tài)度原創(chuàng)

房產(chǎn)
健康
家居
數(shù)碼
公開(kāi)課

房產(chǎn)要聞

全國(guó)2025唯一“開(kāi)盤即百億”在廣州誕生

超聲探頭會(huì)加重受傷情況嗎?

家居要聞

現(xiàn)代自由 功能美學(xué)居所

數(shù)碼要聞

微軟首款硬件Z - 80 SoftCard:80年代的意外“吸金王”

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 99精产国品一二三产区NBA| 美女乱子伦高潮在线观看完整片| 九色91精品国产网站| 产免费AV片在线观看播放| AV天堂BT在线| 国内揄拍国内精品人妻| 亚洲精品第一国产综合精品| 丝袜 中出 制服 人妻 美腿| 国精产品无人区一码二码三蘑菇| 亚洲中文字幕一区| 扒开双腿猛烈进入高H乱视频| 黑人大荫蒂老太大| 人妻在厨房被色诱 中文字幕| 0国产精品综合色区在线观看不卡| 91福利国产在线观一区二区| 久久久无码精品人妻二区| 九九热在线免费精品视频| 日本超碰在线| 国产精品久久久久久不卡盗摄| 久久久久亚洲精品中文字幕| 亚洲乱码国产乱码精品精的特点| 西西人体44www高清大胆| 久久精品人妻中文视频| 国产 日韩 另类 视频一区| 美国少妇xxxx| 欧美激情人妻| 色色色一区二区三区| 中文字幕一区二区三区四区五区六区 | 丰满熟妇大内唇毛茸茸| 国产乱人无码伦av在线a| 欧美资源 亚洲a| 色欲影院WWW粉嫩一区二区| 国产一区二区三区色老头| 国产福利酱国产一区二区| 久久精品蜜臀无码| 久久综合亚洲色hezyo社区| 日韩精人妻无码一区二区三区| 无码不卡中文| 国产成人综合欧美精品久久| 四虎永久在线精品免费观看视频| 久久久2020中文字幕|