機(jī)器之心報(bào)道
編輯:杜偉、+0
「一只手有幾根手指?」
這個(gè)看似簡(jiǎn)單的問(wèn)題,強(qiáng)如 GPT-5 卻并不能總是答對(duì)。
今天,CMU 博士生、英偉達(dá) GEAR(通用具身智能體研究)團(tuán)隊(duì)成員 Tairan He(何泰然)向 GPT-5 詢(xún)問(wèn)了這個(gè)問(wèn)題,結(jié)果模型回答錯(cuò)了。
他接著延伸出一個(gè)論點(diǎn):語(yǔ)言雖然是強(qiáng)大的工具,但卻很難完全滿(mǎn)足視覺(jué)與機(jī)器人領(lǐng)域的需求。
我們更需要以視覺(jué)為中心的視覺(jué)語(yǔ)言模型(VLM)以及以視覺(jué)-動(dòng)作為中心的 VLA 模型。
看起來(lái),這里 Tairan He 對(duì) Fingers 的定義應(yīng)該是「包括拇指在內(nèi)所有的手指」。
在英文語(yǔ)境中(包括柯林斯詞典、詞源詞典等的解釋?zhuān)?,F(xiàn)ingers 既可以指代除拇指以外的其余四指,也可以指代包括拇指在內(nèi)的全部五指。
圖源:柯林斯詞典
圖源:詞源詞典
不只是 GPT-5,推理版本 GPT-5-Thinking 也犯錯(cuò)了,「包括拇指在內(nèi) 5 根手指,不包括拇指則 4 根手指」。
此前,在 Grok 4 推出之后,同樣有人用數(shù)手指問(wèn)題來(lái)測(cè)試它,結(jié)果同樣翻車(chē)。
實(shí)測(cè):
時(shí)對(duì)時(shí)錯(cuò),Gemini 2.5 Pro 也未能幸免
有趣的是,在認(rèn)定手指(finger)包含拇指的前提下,編輯部也去測(cè)試了一下,結(jié)果發(fā)現(xiàn) GPT-5 居然答對(duì)了,而且多次測(cè)試均回答正確。
不過(guò),六指圖的中文語(yǔ)境中 GPT-5 卻總是回答錯(cuò)誤。
我們又在 Gemini 2.5 Pro 上繼續(xù)測(cè)試,它貼心的單獨(dú)統(tǒng)計(jì)了 finger 和 thumb,但最終答案是錯(cuò)的。
可以看到,在面對(duì)一些基礎(chǔ)常識(shí)性問(wèn)題尤其存在語(yǔ)言先驗(yàn)干擾(這里的 finger 本身就有歧義)時(shí),即便是頂尖大模型也頻頻「翻車(chē)」。
這說(shuō)明,模型雖然在語(yǔ)言推理方面很強(qiáng),但對(duì)圖像的基礎(chǔ)視覺(jué)理解,包括目標(biāo)檢測(cè)和語(yǔ)義分類(lèi)等,仍然不夠穩(wěn)健。模型中的視覺(jué)模塊可能并不是真正地「看」懂,而只是利用語(yǔ)言模式去猜。
為何回答不對(duì)?如何應(yīng)對(duì)?
Tairan He 在后續(xù)評(píng)論中提到了謝賽寧團(tuán)隊(duì)去年的一篇論文,這篇論文提出并實(shí)踐了一套系統(tǒng)、深入且以視覺(jué)為中心的研究與評(píng)估方法,展示了如何對(duì)多模態(tài)大語(yǔ)言模型(MLLM)的視覺(jué)基礎(chǔ)能力進(jìn)行科學(xué)、嚴(yán)謹(jǐn)?shù)脑u(píng)估。
Tairan He 認(rèn)為,應(yīng)該將這種嚴(yán)謹(jǐn)?shù)脑u(píng)估思想和方法論應(yīng)用到 VLA 模型研究中去。
- 論文標(biāo)題:Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
- 論文地址:
- https://arxiv.org/pdf/2406.16860
論文指出,當(dāng)前許多基準(zhǔn)測(cè)試并不足以真實(shí)評(píng)估模型核心的視覺(jué)能力,部分測(cè)試甚至在沒(méi)有視覺(jué)輸入的情況下也能被解答。
團(tuán)隊(duì)創(chuàng)建了一個(gè)名為CV-Bench的全新、更專(zhuān)注的基準(zhǔn)測(cè)試集,專(zhuān)門(mén)用于檢驗(yàn)?zāi)P驮谖矬w計(jì)數(shù)、空間關(guān)系判斷及深度感知等關(guān)鍵且基礎(chǔ)的 2D 和 3D 視覺(jué)理解能力,從而建立了一套更嚴(yán)格的評(píng)估標(biāo)準(zhǔn)。
論文系統(tǒng)性地評(píng)估了超過(guò) 20 種不同的視覺(jué)編碼器,并對(duì)訓(xùn)練策略和數(shù)據(jù)配比進(jìn)行了詳盡的研究,其成果如同一本可供參考的「公開(kāi)食譜」,為領(lǐng)域內(nèi)的后續(xù)工作提供了嚴(yán)謹(jǐn)?shù)膮⒄铡?/p>
謝賽寧也參與了討論,表示多模態(tài)大型語(yǔ)言模型中的虛假相關(guān)性是一個(gè)棘手的基準(zhǔn)測(cè)試問(wèn)題。他認(rèn)為,模型對(duì)語(yǔ)言先驗(yàn)的依賴(lài)既是優(yōu)勢(shì)也是陷阱,因?yàn)樗赡軐?dǎo)致模型忽視其他模態(tài),成為一種「捷徑」。
從經(jīng)濟(jì)角度看,這讓公司能在不進(jìn)行大量實(shí)際多模態(tài)研究的情況下,宣稱(chēng)在「多模態(tài)推理」上取得成功。然而,當(dāng)這些系統(tǒng)被應(yīng)用于機(jī)器人等現(xiàn)實(shí)世界時(shí),這種捷徑的缺陷就會(huì)暴露,并付出巨大代價(jià)。
另一項(xiàng)研究也印證這種觀點(diǎn)。實(shí)驗(yàn)顯示,最先進(jìn)的 VLM 在識(shí)別常見(jiàn)物體圖像(例如,知道阿迪達(dá)斯標(biāo)志有 3 條條紋,狗有 4 條腿)的數(shù)量時(shí),準(zhǔn)確率能達(dá)到 100%;但在計(jì)算反事實(shí)圖像(例如,計(jì)算一個(gè)有 4 條條紋的類(lèi)阿迪達(dá)斯標(biāo)志中的條紋數(shù)量,或一只 5 條腿的狗的腿數(shù))時(shí),準(zhǔn)確率僅有約 17%。
- 項(xiàng)目主頁(yè):
- https://vlmsarebiased.github.io/
該研究指出,VLM 實(shí)際上并不能真的「看到」,它們依賴(lài)于記憶的知識(shí)而不是視覺(jué)分析。
針對(duì)這一問(wèn)題,密歇根大學(xué)的博士生 Martin Ziqiao Ma(馬子喬)也詳細(xì)闡述了自己的觀點(diǎn)。
他認(rèn)為關(guān)鍵問(wèn)題在于:用大語(yǔ)言模型來(lái)初始化視覺(jué)-語(yǔ)言(-動(dòng)作)模型(VLA),是一個(gè)誘人的陷阱,看似取得了進(jìn)展,但實(shí)際上并沒(méi)有真正實(shí)現(xiàn)突破。大多數(shù)基準(zhǔn)測(cè)試都過(guò)于集中在推理和數(shù)字領(lǐng)域,而沒(méi)有從根本上解決感知問(wèn)題,尤其是中、低層次的視覺(jué)能力。
人類(lèi)在直覺(jué)物理和心理理解上,顯然有著前語(yǔ)言階段的認(rèn)知根基,例如固體性、連續(xù)性、重力等基本原則。
2024 年,他及團(tuán)隊(duì)在構(gòu)建了 GroundHog 之后,花了一些時(shí)間反思 VLM 的核心問(wèn)題。他再也無(wú)法說(shuō)服自己,僅僅把 CLIP 和 DINO 疊加上幾層投影層就是「將視覺(jué)符號(hào)化」的終極方案。視覺(jué)-語(yǔ)言模型需要更強(qiáng)大的視覺(jué)基礎(chǔ),或許必須從以視覺(jué)為中心的視角重新開(kāi)始。
此后,他暫停 VLM 開(kāi)發(fā)一年并探索了其他方向。并且真正從零開(kāi)始,他開(kāi)始研究 3D 基礎(chǔ)模型和視頻擴(kuò)散模型,并暫時(shí)擱置了聯(lián)合視覺(jué)-語(yǔ)言擴(kuò)散模型的可能性。他開(kāi)發(fā)了 4D-LRM,目標(biāo)是在完全沒(méi)有語(yǔ)言先驗(yàn)的情況下,大規(guī)模學(xué)習(xí) 4D 先驗(yàn)。
這只是第一步。未來(lái)某個(gè)時(shí)候,他會(huì)回到 VLM 工程領(lǐng)域。但下一次,他希望自己能先從世界模型入手,再在其之上解鎖語(yǔ)言模塊。
大語(yǔ)言模型什么時(shí)候能夠真正理解圖像等視覺(jué)信息,而不僅僅把視覺(jué)當(dāng)作語(yǔ)言的附屬輸入?對(duì)此你怎么看呢?
參考內(nèi)容:
https://x.com/ziqiao_ma/status/1954665867238600881
https://x.com/TairanHe99/status/1954610939438977211
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.