夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

干翻 GPT-4V 的面壁 8B「小鋼炮」,被Nature 收錄了

0
分享至



大模型已收斂,小模型還有廣闊天地。

作者丨陳為銳

編輯丨陳彩嫻

當(dāng)全球 AI 圈還在為千億參數(shù)模型的算力消耗焦頭爛額時(shí),一支由清華大學(xué)和面壁智能組成的團(tuán)隊(duì),悄悄在邊緣設(shè)備上完成了一場(chǎng)多模態(tài)大模型落地的變革。

日前,《Nature Communications》正式收錄了面壁智能此前發(fā)布的一項(xiàng)研究成果,該項(xiàng)研究推出了新模型 MiniCPM-V 系列,并重點(diǎn)介紹了首批 3 個(gè)模型,包括 MiniCPM-V 1.0、MiniCPM-V 2.0 和 MiniCPM-Llama3-V 2.5。

MiniCPM-V 1.0 使用預(yù)訓(xùn)練階段 1&2 和 SFT 進(jìn)行訓(xùn)練,未使用自適應(yīng)視覺編碼和 RLAIF-V;MiniCPM-V 2.0 包含了所有訓(xùn)練階段和自適應(yīng)視覺編碼策略,以進(jìn)一步提升性能;MiniCPM-Llama3-V 2.5 采用 Llama3-Instruct 8B 作為其基礎(chǔ) LLM,展現(xiàn)多模態(tài)理解能力。

研究結(jié)果表明,MiniCPM-V 僅用 80 億參數(shù)就實(shí)現(xiàn)了 GPT-4V 級(jí)別的多模態(tài)能力,不僅在 11 個(gè)權(quán)威基準(zhǔn)測(cè)試中全面超越 GPT-4V、Gemini Pro 和 Claude 3 等頭部模型,更顛覆了人們對(duì)邊緣計(jì)算的認(rèn)知,讓手機(jī)端也能運(yùn)行媲美云端的多模態(tài)大模型。


Nature Communications 地址:https://www.nature.com/articles/s41467-025-61040-5

01
80 億參數(shù)干翻 GPT-4V

MiniCPM-V 由三個(gè)關(guān)鍵模塊組成:視覺編碼器、壓縮層和 LLM。輸入圖像首先通過視覺編碼器進(jìn)行編碼,采用自適應(yīng)視覺編碼方法,然后,視覺標(biāo)記由壓縮層進(jìn)行壓縮,該層采用具有一層交叉注意力的感知器重采樣結(jié)構(gòu),最后,壓縮后的視覺標(biāo)記以及文本輸入被輸入到 LLM 中進(jìn)行條件文本生成。


圖源:Nature

作為面向邊緣設(shè)備的高效多模態(tài)大語言模型,MiniCPM-V 系列的技術(shù)創(chuàng)新主要體現(xiàn)在自適應(yīng)視覺編碼、漸進(jìn)式多模態(tài)學(xué)習(xí)、對(duì)齊優(yōu)化及邊緣部署優(yōu)化四大維度。

為解決高分辨率圖像編碼的效率與有效性難題,MiniCPM-V 采用了分層處理策略,將圖像分割為最多 10 個(gè)切片,每個(gè)切片調(diào)整至與視覺編碼器預(yù)訓(xùn)練設(shè)置匹配的分辨率和縱橫比,接著通過 ViT 編碼器將每個(gè)切片轉(zhuǎn)換為 1024 個(gè)視覺令牌,再經(jīng)壓縮層將 token 數(shù)量大幅縮減,最后引入空間 schema 標(biāo)記各切片在原圖中的位置關(guān)系,確保全局信息完整性,相比傳統(tǒng)方法顯著降低了計(jì)算量與內(nèi)存占用。

在模型訓(xùn)練階段,MiniCPM-V 通過大規(guī)模圖文對(duì)實(shí)現(xiàn)視覺模塊與語言模型的空間對(duì)齊,分三階段逐步擴(kuò)展輸入分辨率并引入 OCR 數(shù)據(jù)增強(qiáng)文本識(shí)別能力;監(jiān)督微調(diào)階段整合高質(zhì)量視覺問答數(shù)據(jù),而后再通過 RLAIF-V 方法,通過開源模型生成多版本響應(yīng)并拆分原子聲明進(jìn)行真實(shí)性評(píng)分,最終利用 DPO 算法優(yōu)化偏好學(xué)習(xí),能有效降低幻覺率。

而真正讓 MiniCPM-V 有希望 “顛覆行業(yè)” 的,是其在邊緣設(shè)備上的高效部署能力。

傳統(tǒng)多模態(tài)模型只能在云端運(yùn)行,而 MiniCPM-V 通過 4 位量化、內(nèi)存序貫加載、目標(biāo)設(shè)備編譯優(yōu)化、自動(dòng)參數(shù)搜索及 NPU 加速等技術(shù),實(shí)現(xiàn)了在智能手機(jī)、PC 等邊緣設(shè)備上的高效運(yùn)行,在內(nèi)存需求從 16-17G 降至 5G 的情況下,實(shí)現(xiàn)了編碼延遲從 50.5s 降至 17.0s,視覺編碼時(shí)間縮短 65%,減少了 45.2% 圖像處理時(shí)間。

在 11 項(xiàng)公開基準(zhǔn)測(cè)試中,80 億參數(shù)的 MiniCPM-Llama3-V2.5 展現(xiàn)出顯著優(yōu)勢(shì):在 OpenCompass 評(píng)分中超越 GPT-4V(2023.11.16 版本)、Gemini Pro 和 Claude 3 等專有模型,同時(shí)在 OCRBench、TextVQA 等文本識(shí)別任務(wù)上優(yōu)于 Qwen-VL-Max 等開源模型,表格轉(zhuǎn) Markdown 等實(shí)用功能表現(xiàn)突出。與強(qiáng)大的專有模型相比,MiniCPM-Llama3-V 2.5 在參數(shù)數(shù)量顯著更少的情況下實(shí)現(xiàn)了更好的性能,更適合廣泛應(yīng)用。


圖源:Nature

此外,MiniCPM-V 模型也展現(xiàn)出強(qiáng)大的 OCR 能力,包括場(chǎng)景文本、文檔和截圖理解。模型在 OCRBench、TextVQA 和 DocVQA 上優(yōu)于 1.7B–34B 的開源 MLLMs,20 億參數(shù)的 V2.0 版本性能超過同規(guī)模模型,甚至媲美 80 億參數(shù)模型;幻覺率在 Object HalBench 上低于 GPT-4V。


圖源:Nature

效率方面,MiniCPM-V 的推理計(jì)算量顯著更低。MiniCPM-Llama3-V 2.5 的視覺 token 數(shù)量范圍是(96,960),低于 LLaVA-NeXT-Llama-3-8B 的(1728,2880),使得其在推理速度、首 token 延遲、內(nèi)存使用和功耗方面更適配實(shí)際設(shè)備應(yīng)用。

不過,盡管性能表現(xiàn)良好,但研究人員也表示,當(dāng)前的 MiniCPM-V 模型仍存在一些局限性,在多模態(tài)理解能力和推理效率方面以及將能力擴(kuò)展到其他模態(tài)方面仍有很大的改進(jìn)空間。

02
為什么完成從 "云端依賴" 到 "端側(cè)自由" 的跨越很重要?

在我們看來,這篇論文的意義遠(yuǎn)不止于技術(shù)突破,其核心觀點(diǎn)在于,如果能實(shí)現(xiàn)多模態(tài)大模型從云端到端側(cè)的全面轉(zhuǎn)型,或許整個(gè)行業(yè)能迎來一個(gè)新的 “iPhone” 時(shí)刻,開啟端側(cè) AI 的黃金時(shí)代。

多模態(tài)大模型的快速發(fā)展為理解、推理和交互的多模態(tài)能力帶來了飛躍,不僅從根本上重塑了人工智能研究和產(chǎn)業(yè)格局,也為通往下一階段人工智能指明了路徑。

然而,當(dāng)前的多模態(tài)大模型仍遠(yuǎn)未達(dá)到實(shí)際應(yīng)用于現(xiàn)實(shí)世界的水平,最主要的原因在于多模態(tài)大模型龐大參數(shù)數(shù)量帶來的沉重計(jì)算負(fù)擔(dān),使得大多數(shù)模型只能部署在高性能云服務(wù)器上。這一局限性不僅導(dǎo)致了巨大的能源消耗,還限制了多模態(tài)大模型在移動(dòng)設(shè)備、能源敏感場(chǎng)景、無穩(wěn)定網(wǎng)絡(luò)連接等離線環(huán)境中的潛在應(yīng)用范圍。

此外,對(duì)于多模態(tài)大模型來說,智能手機(jī)和計(jì)算機(jī)等邊緣設(shè)備由于散熱、尺寸限制和功耗等因素,往往面臨資源限制。

在部署模型時(shí),最關(guān)鍵的兩大限制是內(nèi)存容量和 CPU/GPU 處理速度。高性能服務(wù)器通常擁有龐大的內(nèi)存容量,往往超過 100GB 甚至 1TB,相比之下,手機(jī)的內(nèi)存通常在 12GB 到 16GB 之間,這對(duì)于 MLLM 部署可能不足。

另一方面,智能手機(jī)中 CPU 的整體處理速度明顯較慢。對(duì)比來看,驍龍 8 Gen3 只有 8 個(gè) CPU 核心,Intel Xeon Platinum 8580 則達(dá)到了 60 個(gè) CPU 核心,功效方面,高通 Adreno 750 只有 6 TFLOPS,而 NVIDIA 4090 則可以達(dá)到 83 TFLOPS。

也正因此,在行業(yè)越來越關(guān)注輕量級(jí)多模態(tài)大語言模型的當(dāng)下,面壁智能提出了可在邊緣設(shè)備上部署的 MiniCPM-V 系列,場(chǎng)景涵蓋手機(jī)、個(gè)人電腦、車輛和機(jī)器人等更廣泛的設(shè)備范圍。

MiniCPM-V 的理念是在性能和效率之間取得良好平衡,有望成為多模態(tài)大模型小型化趨勢(shì)的一個(gè)代表案例。

根據(jù)研究人員的說法,在總結(jié)多模態(tài)大模型在性能、參數(shù)和發(fā)布時(shí)間方面的最新發(fā)展后,可以觀察到一條類似摩爾定律的趨勢(shì):達(dá)到 GPT-4V 級(jí)別性能的模型大小隨著時(shí)間的推移迅速減小,這種現(xiàn)象或許可以被稱為 MLLMs 的摩爾定律。

同時(shí),手機(jī)和個(gè)人電腦等邊緣設(shè)備的計(jì)算能力正在穩(wěn)步增加,這兩種趨勢(shì)的融合表明,可在邊緣設(shè)備上部署的可用(例如 GPT-4V 級(jí)別)多模態(tài)大模型很快就會(huì)落地。

這種離線智能的實(shí)現(xiàn),讓端側(cè)設(shè)備完成了從功能機(jī)到智能機(jī)的跨越,設(shè)備不再是云端顯示器,而是成為真正的智能主體。


在多臺(tái)邊緣設(shè)備上部署 MiniCPM-V。得益于部署優(yōu)化技術(shù),MiniCPM-Llama3-V 2.5 可以在手機(jī)和個(gè)人電腦上高效運(yùn)行,提供可接受的延遲和吞吐量(圖源:Nature)

在端側(cè)智能的需求下,MiniCPM-V 能夠登上《Nature Communications》,原因之一或許在于其揭開了這場(chǎng)智能革命的一角,推動(dòng)著 AI 從 "少數(shù)人的工具" 走向 "大眾的能力"的變化。當(dāng) 80 億參數(shù)的模型能在手機(jī)上流暢運(yùn)行,普通人也能在更安全、更多元的場(chǎng)景下享受多模態(tài)智能。

隨著邊緣計(jì)算能力的持續(xù)提升和模型效率的不斷優(yōu)化,AI 普及化的下一個(gè)爆發(fā)點(diǎn),將出現(xiàn)在每個(gè)人的指尖之下、設(shè)備之中。邊緣智能的時(shí)代,正在加速到來。


未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
別再扯外星人了,三星堆的真相是:一個(gè)主動(dòng)刪號(hào)跑路的頂級(jí)文明

別再扯外星人了,三星堆的真相是:一個(gè)主動(dòng)刪號(hào)跑路的頂級(jí)文明

史意生活
2025-10-18 20:41:09
故事:云南黑老大調(diào)戲一對(duì)蜜月夫妻,不料踢到鐵板,結(jié)局大快人心

故事:云南黑老大調(diào)戲一對(duì)蜜月夫妻,不料踢到鐵板,結(jié)局大快人心

二十一號(hào)故事鋪
2024-09-28 12:40:03
臺(tái)當(dāng)局不辦光復(fù)節(jié)活動(dòng),“人民無法接受”

臺(tái)當(dāng)局不辦光復(fù)節(jié)活動(dòng),“人民無法接受”

環(huán)球時(shí)報(bào)新聞
2025-10-27 10:47:45
天吶,這是黃曉明?不得不說,差點(diǎn)沒認(rèn)出來啊

天吶,這是黃曉明?不得不說,差點(diǎn)沒認(rèn)出來啊

鄉(xiāng)野小珥
2025-10-21 14:40:30
隨著申花2-2絕平英博,蓉城也2-2,海港1-3,中超冠軍基本出爐了

隨著申花2-2絕平英博,蓉城也2-2,海港1-3,中超冠軍基本出爐了

球場(chǎng)沒跑道
2025-10-26 21:44:25
林總死后,有人在他臥室找到本小冊(cè)子,里面內(nèi)容讓毛主席悲痛不已

林總死后,有人在他臥室找到本小冊(cè)子,里面內(nèi)容讓毛主席悲痛不已

文史達(dá)觀
2025-10-03 15:40:06
“血糖疫苗”正式啟用了,半年只需注射2次?哪些人適合打呢?

“血糖疫苗”正式啟用了,半年只需注射2次?哪些人適合打呢?

男女那點(diǎn)事兒兒
2025-10-27 13:35:22
《雪中悍刀行2》首發(fā)海報(bào)!主演陣容和武打戲,成為觀眾熱議話題

《雪中悍刀行2》首發(fā)海報(bào)!主演陣容和武打戲,成為觀眾熱議話題

露珠聊影視
2025-10-27 17:02:17
1949年國(guó)軍副師長(zhǎng)被俘,受審時(shí)突然開口:幫我給周恩來發(fā)一封電報(bào)

1949年國(guó)軍副師長(zhǎng)被俘,受審時(shí)突然開口:幫我給周恩來發(fā)一封電報(bào)

第四思維
2025-07-23 13:38:09
山東曲阜市市長(zhǎng)崔加清已任市委書記

山東曲阜市市長(zhǎng)崔加清已任市委書記

澎湃新聞
2025-10-26 22:04:27
場(chǎng)均轟40分,帶隊(duì)悄悄三連勝!你要這么打,新賽季懸念確實(shí)不大了

場(chǎng)均轟40分,帶隊(duì)悄悄三連勝!你要這么打,新賽季懸念確實(shí)不大了

老梁體育漫談
2025-10-27 00:16:52
歐盟率先對(duì)華出招,一口氣制裁12家中企,中方?jīng)]客氣:堅(jiān)決回?fù)?>
    </a>
        <h3>
      <a href=趣史微視頻
2025-10-27 16:34:05
這些“臺(tái)獨(dú)”分子到底是哪國(guó)人?

這些“臺(tái)獨(dú)”分子到底是哪國(guó)人?

聞識(shí)
2025-09-11 13:38:33
吉林東遼縣啟動(dòng)對(duì)夏中軍案全面評(píng)查,家屬提交百余份證據(jù)

吉林東遼縣啟動(dòng)對(duì)夏中軍案全面評(píng)查,家屬提交百余份證據(jù)

輿情看點(diǎn)
2025-10-27 12:29:37
方媛卷得令人害怕:產(chǎn)后幾天光速恢復(fù),穿戴50萬行頭為郭富城慶生

方媛卷得令人害怕:產(chǎn)后幾天光速恢復(fù),穿戴50萬行頭為郭富城慶生

洲洲影視娛評(píng)
2025-10-27 14:10:19
38歲教授離世,知情人:妻子是醫(yī)生、龍鳳胎孩子,死前一天還上課

38歲教授離世,知情人:妻子是醫(yī)生、龍鳳胎孩子,死前一天還上課

溫柔看世界
2025-10-27 12:15:23
曼聯(lián)確定不激活卡塞米羅續(xù)約條款!有沒他判若兩隊(duì),但拉爵很堅(jiān)決

曼聯(lián)確定不激活卡塞米羅續(xù)約條款!有沒他判若兩隊(duì),但拉爵很堅(jiān)決

羅米的曼聯(lián)博客
2025-10-27 09:29:11
山東省港口集團(tuán)欲退出青島這家企業(yè)

山東省港口集團(tuán)欲退出青島這家企業(yè)

山東財(cái)經(jīng)報(bào)道
2025-10-27 09:02:29
楊瀚森上場(chǎng)時(shí)間創(chuàng)新低,王仕鵬:如果場(chǎng)均5分鐘,遲早要廢!

楊瀚森上場(chǎng)時(shí)間創(chuàng)新低,王仕鵬:如果場(chǎng)均5分鐘,遲早要廢!

十點(diǎn)街球體育
2025-10-27 16:01:28
楊光宇赴八寶山送別父親楊振寧!父親走了,他仍會(huì)把翁帆當(dāng)親人

楊光宇赴八寶山送別父親楊振寧!父親走了,他仍會(huì)把翁帆當(dāng)親人

徐醇老表哥
2025-10-25 17:50:59
2025-10-27 20:04:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
6957文章數(shù) 20698關(guān)注度
往期回顧 全部

科技要聞

中國(guó)人造太陽預(yù)計(jì)2027年竣工

頭條要聞

美財(cái)長(zhǎng)稱中國(guó)將推遲1年實(shí)施稀土出口管制 外交部回應(yīng)

頭條要聞

美財(cái)長(zhǎng)稱中國(guó)將推遲1年實(shí)施稀土出口管制 外交部回應(yīng)

體育要聞

虎頭蛇尾的國(guó)家德比,在哨響后迎來高潮

娛樂要聞

“奪女”成功 章子怡成女兒唯一監(jiān)護(hù)人

財(cái)經(jīng)要聞

重磅!潘功勝、李云澤、吳清最新發(fā)聲

汽車要聞

對(duì)話蘇偉銘:絕地反擊,雷諾的一劑「中國(guó)良方」

態(tài)度原創(chuàng)

手機(jī)
藝術(shù)
數(shù)碼
親子
公開課

手機(jī)要聞

還不如前代 Plus:蘋果 iPhone Air 被曝首銷激活量遠(yuǎn)低于預(yù)期

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

內(nèi)存瘋漲怎么選,當(dāng)前裝機(jī)首先要保“甜點(diǎn)性能”

親子要聞

美贊臣科學(xué)實(shí)證新成果發(fā)布,“雙輪驅(qū)動(dòng)”全生命周期營(yíng)養(yǎng)創(chuàng)新

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 精品少妇人妻一区二区三区无码| 亚洲国产精品久久久久制服| 亚洲av无码成人精品区日韩| 亚洲成人激情av| 国产无遮挡18禁无码网站免费| 中文字幕av日韩精品一区二区 | 国产午夜亚洲精品不卡网站| 人人玩人人添人人澡东莞| 久久综合九色欧美综合狠狠| 国产精口品美女乱子伦高潮| 久热最新在线一区| 人妻一本久道久久综合鬼色| 亚洲AV福利无码无一区二区| 野花日本免费观看大全3| 毛片一区二区三区无码蜜臀| 欧美激情黑人| 日本一道区蜜桃| 91麻豆久久久| 怡红院av网站| 国产午夜人做人免费视频中文| 亚洲性视频网站| 日本25av在线| 丰满人妻无码视频| 国产日产欧产精品精品蜜芽| 18禁超污无遮挡无码网址| 黑人xxx无码| rihanav网址大全| 另类专区一区二区三区| 亚洲精品无码久久久久苍井空小说 | 日韩欧美在线网站| 亚洲成本人无码薄码区| 麻花传媒在线观看免费| 97av人妻| 麻豆精品一区二区综合av| 亚洲精品国产福利一区二区| 亚洲男人在线天堂| 精品白嫩少妇BBwBBWBBW| 国产亚洲精品久久久久久牛牛 | 成人无码a区在线观看视频| 狠狠躁夜夜躁人人躁婷婷91| 高清免费毛片|