新智元報道
編輯:定慧
【新智元導(dǎo)讀】谷歌的Gemini 3.0疑似上線LMArena!眾多實測提前曝光,但效果嘛,很難評。
Gemini 3.0傳了這么久,終于還是露出「馬腳」了。
依然還是LMAreana競技場,Gemini 3.0的兩個「馬甲」被扒了出來。
Gemini 3.0 Pro的馬甲:lithiumflow
Gemini 3.0 Flash的馬甲:orionmist
這已經(jīng)是「傳統(tǒng)藝能」了,每次新模型上線,都要去LMArena上去造勢一番。
不過看了競技場的實測結(jié)果,Gemini 3確實是真的有點東西,希望谷歌這次別再跟著OpenAI跑了,硬氣一把!
此前Gemini 3的一些前端案例就曾流出,網(wǎng)友爆料稱,谷歌下一代旗艦?zāi)P蛯⒃?strong>10月22日發(fā)布。
一些拿到內(nèi)測資格的開發(fā)者,放出了部分demo。
不過這次是直接上線在LMArena競技場里了。
「幸運」碰到Gemini 3馬甲的用戶分享了他們的例子,如果你也運氣好,可以分享一下Gemini 3的表現(xiàn)是否有大幅度的提升。
AI第一次看懂鐘表
實測「看表」一直是AI的大難題,這里面涉及多種因素,鐘表樣式、指針長短、指向、分鐘間隔的判斷等等。
不過Gemini 3 Pro(lithiumflow)的實測看出,這個模型已經(jīng)可以精確到小時(6)、分鐘(02)和秒(30)。
同樣的問題,GPT-5 Thinking就有點「發(fā)癲」,直接識別成了12:30,有點時針、分針不分了。
用Gemini 2.5 Pro實測也是同樣發(fā)癲,模型真的很難分辨時鐘時間。
作為對比,LMArena中其他非頂級模型,「發(fā)癲」程度要更甚。
另外,在LMArena中實測了N次,一直沒有碰到過Gemini 3的馬甲。
如果競技場里Gemini 3的馬甲能力是真的,那確實Gemini 3還是非常值得期待!
SVG實測傳統(tǒng)藝能,騎自行車的鵜鶘
新模型每次一出來,SVG測試是躲不開的。
Gemini 3 Pro的SVG測試效果,初看還是很不錯的。
畫面表現(xiàn)能力比之前測試的提升了不止一點,能看出甚至具有一點「抽象派」的風(fēng)格。
<< 滑動查看下一張圖片 >>
當(dāng)然,騎自行車的鵜鶘是永遠(yuǎn)躲不過的,起碼這次自行車畫的是真不錯。
不過需要吐槽的一點是,可能這個互聯(lián)網(wǎng)模因meme「騎自行車的鵜鶘」成為了一個測試新模型的梗。
所以,各家模型似乎都悄悄的針對這個提示詞,進行了微調(diào)。
比如下面這兩個競技場例子,不過沒有強調(diào)使用SVG。
即使強調(diào)了使用SVG,效果依然很「完美」,相比之下Gemini 3畫出來的反而不好看,效果一般。
第一個相當(dāng)體面的作曲模型
另外一個大更新就是Gemini 3 Pro可以作曲了。
能模仿音樂風(fēng)格,能長時間保持節(jié)奏,并帶來一些活力和變奏。
你覺得這個音樂效果如何?
目前大部分實測還是在LMArena碰運氣。
(順便吐槽一下,跑了快100個提示了,還是沒碰到Gemini 3)
那為什么判斷這兩個馬甲就是Gemini 3的實測代號呢?
有人說「Orion」本身可能和Gemini 3有關(guān),而且「orionmist」這種兩個單詞合成方法是谷歌會使用的。
此前,Gemini 3沒上LMArena時,就有各種內(nèi)測覺得這個很厲害。
甚至可以一個HTML符合整個MacOS、Windows系統(tǒng)的UI交互。
甚至只有1分鐘,Gemini 3 Pro就能用SVG做出一整個風(fēng)格動畫。
截取了部分動畫,這個效果看起來還是挺「唬人」的。
不過,也有部分人遇到的實測效果并不理想。
谷歌的Gemini 2.5發(fā)布也快一年,目前各個大科技廠都盯著OpenAI的動作。
在OpenAI打出GPT-5和新版Sora 2兩張牌以后,谷歌只跟了一張Veo 3.1。
這波上線LMArena的估計是發(fā)布前的試水了,Gemini 3應(yīng)該很快了!
總的來說,雖然模型確實強了不少,能看表、能畫SVG、還能作曲,但整個AI圈的「傳統(tǒng)藝能」也越來越固定了——
先傳風(fēng)聲、再上LMArena、然后一堆人去撞馬甲、測SVG、看誰更像真貨。
看多了也不免有點膩。
畢竟,無論是Gemini 3、GPT-5還是Claude新版本,最后都還是那一套「實測截圖+prompt對比+看圖說話」。
模型越來越聰明,但我們的評測方式似乎還停在老套路上。
希望下一次,不只是模型更強,而是真的能玩出點新花樣。
參考資料:
https://x.com/synthwavedd/status/1979969871921225881
https://x.com/ai_for_success/status/1979980654713696340
https://x.com/scaling01/status/1979996937743954101
https://x.com/scaling01/status/1979996937743954101
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.