夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

谷歌 Gemini 3 深夜炸場(chǎng):沒有懸念的最強(qiáng) AI

0
分享至


新王登基了。


作者|Li Yuan

來了。

預(yù)熱了快一個(gè)月的 Gemini 3 Pro,就在剛剛,正式在 Google AI Studio 上線 Preview 版,API 也同步開放。接下來將陸續(xù)上線Google的各項(xiàng)產(chǎn)品中。

沒有任何多余的廢話,打開 Model Card,滿眼寫著的只有兩個(gè)字:碾壓。

按照 Google 披露的測(cè)試數(shù)據(jù),Gemini 3 Pro 毫無懸念地成為了目前地球上數(shù)學(xué)最強(qiáng)的 AI。在數(shù)學(xué)競(jìng)賽的「地獄模式」MathArena 里,當(dāng)包括 GPT-5.1 在內(nèi)的其他大模型還在 1% 上下掙扎時(shí),Gemini 3 Pro 直接干到了23.4%。

編程能力方面,雖然在 SWE-Bench 上未拿 SOTA——但絕對(duì)屬于第一梯隊(duì)。Live Code Bench 的 Elo 得分超過 2400 分 ,在工具調(diào)用和終端操作基準(zhǔn)測(cè)試中更是名列第一。

真正炸裂的是它的「視覺智能」。對(duì)屏幕截圖的理解能力高達(dá)72.7%,是目前最先進(jìn)水平的兩倍。這意味著 Agent 不再是瞎子,它將徹底重塑 AI 操作計(jì)算機(jī)的模式。

但這還沒完,Google 今晚還順手扔出了一個(gè)小王炸:自家的 Agentic 編程平臺(tái)——Google Antigravity。

此前網(wǎng)傳 Gemini 3 能實(shí)現(xiàn)「端到端編程」,大家以為是模型成精了。但看起來,并不是模型成精,而是 Google 正在探索如何用更好的系統(tǒng)工程實(shí)現(xiàn)端到端編程。

如果說 Cursor 是目前最強(qiáng)的「外骨骼」,它通過 AI 補(bǔ)全讓你寫代碼更快;那 Antigravity 就是奔著「自動(dòng)駕駛」去的。它不再只是一個(gè)編輯器,而是一個(gè)智能體優(yōu)先(Agent-first)發(fā)環(huán)境。集成了 Gemini 3 和能操控瀏覽器的 Gemini 2.5 Computer Use 模型,它的 Agent 能自己寫代碼、自己開終端跑測(cè)試、甚至自己打開瀏覽器驗(yàn)證 UI,發(fā)現(xiàn)報(bào)錯(cuò)自己修。

不講故事,只拼肌肉。

Google 用這一波硬核發(fā)布宣告:新王已至。

有趣的是,這次連 Sam Altman 都獻(xiàn)上了自己的點(diǎn)贊。:)


01

霸榜的暴力美學(xué):不止是智商洗榜,更是 Agent 能力的變化

在 AI 圈子里,大家習(xí)慣了模型之間你追我趕的微弱優(yōu)勢(shì),但 Gemini 3 Pro 拋出的這份成績(jī)單,可以說十分耀眼。

根據(jù) Model Card 披露的數(shù)據(jù),Gemini 3 Pro 在推理、多模態(tài)、Agent 工具使用等關(guān)鍵基準(zhǔn)上,實(shí)現(xiàn)了全方位的霸榜。


讓我們先看一看代表人類智力「天花板」的測(cè)試——Humanity's Last Exam(人類最終大考)。這是一個(gè)衡量學(xué)術(shù)推理極限的標(biāo)尺,GPT-5.1 在此前的測(cè)試中得分為 26.5%,Claude Sonnet 4.5 僅為 13.7%。而 Gemini 3 Pro 它直接轟出了37.5%的高分。在高端推理層面,這 10 個(gè)百分點(diǎn)的差距,意味著模型在處理復(fù)雜學(xué)術(shù)問題時(shí),已經(jīng)具備了完全不同的理解深度。

但這還不是極限。Google 甚至還藏了一手Gemini 3 Deep Think(深度推理模式),在不使用任何工具的情況下,它在 HLE 上的得分進(jìn)一步飆升至41.0%??雌饋砣祟愖詈蟮谋疽膊⒉荒艹掷m(xù)很久了。


數(shù)理方面的每一個(gè)領(lǐng)域,都能看出它的統(tǒng)治力。

AIME 2025(美國(guó)數(shù)學(xué)邀請(qǐng)賽):配合代碼執(zhí)行(Code Execution),Gemini 3 Pro 的準(zhǔn)確率達(dá)到了驚人的100%。沒錯(cuò),是滿分。即便是「裸考」(無工具模式),它也有 95.0% 的準(zhǔn)確率(相比之下,GPT-5.1 為 94.0%,Claude Sonnet 4.5 為 87.0%)。

MathArena Apex(數(shù)學(xué)競(jìng)賽地獄模式):當(dāng)包括 GPT-5.1 在內(nèi)的其他大模型還在1%上下掙扎時(shí),Gemini 3 Pro 直接干到了23.4%。這意味著在很多以前 AI 根本「看不懂題」的領(lǐng)域,Gemini 3 已經(jīng)開始解題了。

而更關(guān)鍵的是 Agent 相關(guān)能力的提升。

Gemini 一向在多模態(tài)能力上領(lǐng)先,這一代更是專門優(yōu)化了屏幕理解(Screen Understanding)。這是下一代 Agent 能否真正接管人類電腦的關(guān)鍵。

ScreenSpot-Pro這一欄數(shù)據(jù):

  • GPT-5.1:3.5%(這基本意味著它是個(gè)「瞎子」)。

  • Gemini 3 Pro:72.7%

這是近乎20 倍的能力碾壓!這標(biāo)志著 Gemini 3 Pro 已經(jīng)不再是一個(gè)單純的對(duì)話框,它具備了真正意義上的「視覺智能」,能夠像人類一樣理解復(fù)雜的操作系統(tǒng)界面。

在一些傳統(tǒng)強(qiáng)項(xiàng)上,Gemini 3 Pro 仍然表現(xiàn)出色——比如支持1M Token的超大上下文窗口、對(duì)多模態(tài)數(shù)據(jù)的「原生支持」、長(zhǎng)視頻和多語言處理等等。



有一個(gè)很有趣的標(biāo)準(zhǔn)也被 Google 掛了上來:在 一個(gè)模擬開店賺錢的基準(zhǔn) Vending-Bench 2 上,Gemini 3 Pro 最終賺取了$5,478.16的凈資產(chǎn),而 GPT-5.1 僅賺了 $1,473.43。

不過關(guān)于之前網(wǎng)傳「徹底端到端終結(jié)程序員」的編程能力,Gemini 3 Pro 的狀態(tài)是在 AI 屆頂尖,但并沒有「顛覆編程」。

在衡量軟件工程能力的SWE-Bench Verified測(cè)試中,Gemini 3 Pro 得分為76.2%,雖然很強(qiáng),但并未超越 Claude Sonnet 4.5(77.2%)拿到 SOTA。這意味著在處理超長(zhǎng)程、極其復(fù)雜的后端邏輯時(shí),它依然有局限性。

這也很合理。每一個(gè)大模型目前都在全力卷編程的情況下,想要在這個(gè)領(lǐng)域一騎絕塵確實(shí)比較難。

目前 Gemini 的能力更偏向于,還不能幫你重構(gòu)整個(gè)后端架構(gòu),但如果你想寫一個(gè)極具現(xiàn)代設(shè)計(jì)美學(xué)的網(wǎng)站、一個(gè) 3D 飛船游戲,或者生成復(fù)雜的 SVG 交互動(dòng)畫,它能通過一次提示就給出極其驚艷的、可直接運(yùn)行的結(jié)果。

02

Antigravity,Agentic 編程的探索

有了最強(qiáng)的模型和算力,谷歌開始在應(yīng)用層「掀桌子」了。今晚,谷歌扔出了一個(gè)「小王炸」——Google Antigravity

前一陣新聞的風(fēng)向還是模型公司努力收購(gòu) AI 編程應(yīng)用公司呢,而 Google 這次則這么快的就發(fā)了自己的開發(fā)平臺(tái)。

這不僅僅是一個(gè)新的 IDE,它是谷歌定義的Agent-first(智能體優(yōu)先)開發(fā)平臺(tái)。在這里,開發(fā)者從「碼農(nóng)」升級(jí)為「架構(gòu)師」,而 Gemini 3 化身為擁有編輯器、終端和瀏覽器完整權(quán)限的「執(zhí)行合伙人」。

為了達(dá)成這種體驗(yàn),谷歌甚至在后臺(tái)配置了一個(gè)「模型軍團(tuán)」協(xié)同作戰(zhàn):

  • Gemini 3:作為大腦,負(fù)責(zé)高級(jí)推理和代碼編寫。

  • Gemini 2.5 Computer Use:作為手眼,專門控制瀏覽器進(jìn)行 UI 驗(yàn)證和測(cè)試。

  • Nano Banana:作為美工,負(fù)責(zé)生成圖像和 UI 素材。這種打通了底層模型到頂層交互的閉環(huán)體驗(yàn),對(duì)于 Cursor 等現(xiàn)有 AI 編輯器來說,無疑是一次降維打擊。


Antigravity 最有趣的能力在于并行。官方材料明確提到,開發(fā)者可以與多個(gè)智能 Agent 協(xié)作,而這些 Agent 能夠代表你同時(shí) 自主規(guī)劃并執(zhí)行復(fù)雜的端到端軟件任務(wù)。

想象一下這種工作流:你下達(dá)一個(gè)指令,Antigravity 瞬間分裂出多個(gè) Agent——Agent A 負(fù)責(zé)寫后端邏輯,Agent B 負(fù)責(zé)在終端跑測(cè)試用例,Agent C 直接打開瀏覽器去驗(yàn)證前端 UI 的交互效果。它們并行不悖,像是一個(gè)配合默契的敏捷開發(fā)小組,而你只需要驗(yàn)收它們提交的「工件」。

Antigravity 是是一個(gè)免費(fèi)平臺(tái),網(wǎng)絡(luò)上目前對(duì)于 Antigravity 的使用體驗(yàn)不多,但基本上都是好評(píng)。

要達(dá)到替代 Cursor 本身,肯定不太行——端到端的復(fù)雜編程體驗(yàn),肯定還需要模型更成熟。但是簡(jiǎn)單的項(xiàng)目進(jìn)行編程,或許會(huì)更簡(jiǎn)單了。

03

全家桶齊發(fā)力:TPU 與搜索

在大模型發(fā)展的后半程,比拼的不再是單一算法的靈光一閃,而是誰的算力更冗余、誰的數(shù)據(jù)更廣闊、誰的投入更持久。Gemini 3 Pro 的勝利,有一點(diǎn)是很特別的:Gemini 3 Pro 是使用 Google TPU 訓(xùn)練的。

當(dāng)全世界的 AI 公司都在苦苦等待英偉達(dá) GPU 的發(fā)貨周期時(shí),谷歌依然坐在自家龐大的 TPU 礦山上。TPU 專為 LLM 訓(xùn)練設(shè)計(jì),擁有極高的高帶寬內(nèi)存(HBM),這讓它能夠輕松處理海量的模型參數(shù)和超大的 Batch Size。正是 TPU 的算力冗余,給了 Gemini 3 Pro 肆意擴(kuò)張參數(shù)規(guī)模的底氣。

有了算力,還要有「燃料」。Gemini 3 Pro 的訓(xùn)練數(shù)據(jù)是全維度的覆蓋:它吞噬了公共網(wǎng)絡(luò)文檔、代碼庫(kù)、圖像、音頻和視頻。更關(guān)鍵的是,谷歌明確提到使用了User Data(用戶數(shù)據(jù))——當(dāng)然是在隱私協(xié)議框架下,來自谷歌龐大產(chǎn)品生態(tài)的用戶交互數(shù)據(jù)。

最后,這種溢出的智能被注入了 Google Search。Google 這次推出了一個(gè)全新的AI Mode in Search。當(dāng)你搜索一個(gè)復(fù)雜概念(比如 RNA 聚合酶的工作原理)時(shí),Gemini 3 不再是給你扔一堆冷冰冰的鏈接,而是利用其強(qiáng)大的推理能力,即時(shí)生成(Generated on the fly)一個(gè)沉浸式的互動(dòng)圖表或模擬工具。


從底層的 TPU 硅基霸權(quán),到中間層的模型智能,再到頂層的 Antigravity 開發(fā)生態(tài)與生成式搜索——谷歌這一夜展示的,不僅僅是一個(gè)滿分模型,而是一個(gè)只有巨頭才能構(gòu)建的、嚴(yán)絲合縫的未來。

04

實(shí)測(cè)體驗(yàn)

最后讓我們看看網(wǎng)上的一些實(shí)測(cè)體驗(yàn)吧。

出名的六邊形測(cè)試的升級(jí)款。


不少帖子提及了設(shè)計(jì)上的美感。


一些物理世界的建模。


前面提到的,Gemini 對(duì)于用戶界面數(shù)據(jù)這塊做了特別的優(yōu)化。


開發(fā)應(yīng)用。


在今天,大模型的性能已然超越了跑分的邊界。即便是最頂尖、最復(fù)雜的前沿基準(zhǔn)測(cè)試,其測(cè)量精度也開始失效。如何科學(xué)地量化模型之間的微妙差距,已經(jīng)成為了一門專門的「量化科學(xué)」,僅憑用戶簡(jiǎn)單的實(shí)測(cè)手感,很難窺見其中的全部玄機(jī)。

實(shí)測(cè)案例更多的也就是用來看看模型本身的審美和 one-shot 直出的狀態(tài)。

Gemini 3 顯然在這次的更新中,在直出的情況下,贏面很大。

當(dāng)模型直出能力越來越好,對(duì)于開發(fā)者來說,未來更多的是要看你的品味能不能跑過模型,你的點(diǎn)子是不是足夠與眾不同了。

*頭圖來源:視覺中國(guó)

本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信 geekparkGO

極客一問

你覺得人類的審美跑的過

AI 的直出審美嗎?

扎克伯格:傲慢就會(huì)失敗,創(chuàng)造應(yīng)該服務(wù)群眾

點(diǎn)贊關(guān)注 極客公園視頻號(hào) ,

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
過期不影響吃的6種食物,很多人認(rèn)為有害,直接丟掉,其實(shí)超健康

過期不影響吃的6種食物,很多人認(rèn)為有害,直接丟掉,其實(shí)超健康

洪洋美食日記
2025-11-19 08:55:03
A股:不出意外 牛市三連陰,明天很有可能會(huì)迎來更大級(jí)別的反彈?

A股:不出意外 牛市三連陰,明天很有可能會(huì)迎來更大級(jí)別的反彈?

風(fēng)風(fēng)順
2025-11-19 07:08:26
狗主人趙某暉名下有多家公司:一死三傷后,她正在失去更多東西

狗主人趙某暉名下有多家公司:一死三傷后,她正在失去更多東西

江山揮筆
2025-11-18 14:53:12
套現(xiàn)356億全身而退,潘石屹夫婦狠狠給美國(guó)房地產(chǎn)上了一課

套現(xiàn)356億全身而退,潘石屹夫婦狠狠給美國(guó)房地產(chǎn)上了一課

林子說事
2025-11-16 05:26:48
不少網(wǎng)友拿出態(tài)度,宣布退票取消赴日旅游

不少網(wǎng)友拿出態(tài)度,宣布退票取消赴日旅游

映射生活的身影
2025-11-16 14:56:58
99%的男人不知道,女人最渴望被觸碰的3個(gè)“敏感帶”

99%的男人不知道,女人最渴望被觸碰的3個(gè)“敏感帶”

精彩分享快樂
2025-11-17 00:05:03
林徽因這身衣服看著怪怪的,大藝術(shù)家的眼光,我們真是欣賞不來

林徽因這身衣服看著怪怪的,大藝術(shù)家的眼光,我們真是欣賞不來

大江
2025-11-07 14:11:55
俄軍完全控制紅軍城地表區(qū)域,烏軍殘兵饑腸轆轆退守下水管道!

俄軍完全控制紅軍城地表區(qū)域,烏軍殘兵饑腸轆轆退守下水管道!

阿龍聊軍事
2025-11-18 16:30:58
男子稱幫鄰家孩子維權(quán)過程中被控妨害作證,獲國(guó)家賠償后因同樣罪名入獄,多年申訴被受理

男子稱幫鄰家孩子維權(quán)過程中被控妨害作證,獲國(guó)家賠償后因同樣罪名入獄,多年申訴被受理

紅星新聞
2025-11-18 21:45:29
李春來同志突發(fā)疾病逝世

李春來同志突發(fā)疾病逝世

新京報(bào)
2025-11-16 19:20:24
大量蘋果顯示器流入閑魚!27寸原價(jià)近1萬,如今二手才599塊

大量蘋果顯示器流入閑魚!27寸原價(jià)近1萬,如今二手才599塊

閑搞機(jī)
2025-11-08 11:29:25
金雞獎(jiǎng)內(nèi)場(chǎng)明星高清圖:陳建斌發(fā)腮,寧?kù)o瘦的嚇人劉昊然抬頭紋重

金雞獎(jiǎng)內(nèi)場(chǎng)明星高清圖:陳建斌發(fā)腮,寧?kù)o瘦的嚇人劉昊然抬頭紋重

湘村大余
2025-11-18 17:15:38
哥哥弟弟都已結(jié)婚,霍家最帥的公子霍啟山,為何42歲仍未婚?

哥哥弟弟都已結(jié)婚,霍家最帥的公子霍啟山,為何42歲仍未婚?

小椰的奶奶
2025-11-19 08:56:04
杜潤(rùn)旺被交易?杜鋒官宣,名單出爐,杜潤(rùn)旺發(fā)聲,此前簽5年合同

杜潤(rùn)旺被交易?杜鋒官宣,名單出爐,杜潤(rùn)旺發(fā)聲,此前簽5年合同

樂聊球
2025-11-18 10:15:12
比媒:阿馬杜-奧納納買不到47碼球鞋,足協(xié)員工坐飛機(jī)帶給他

比媒:阿馬杜-奧納納買不到47碼球鞋,足協(xié)員工坐飛機(jī)帶給他

懂球帝
2025-11-18 23:40:08
Shams:因違規(guī)輪休米切爾和莫布利,騎士被聯(lián)盟罰款10萬美元

Shams:因違規(guī)輪休米切爾和莫布利,騎士被聯(lián)盟罰款10萬美元

懂球帝
2025-11-19 05:09:08
贏麻了!現(xiàn)在全網(wǎng)最想哭的人估計(jì)是冷美人,30多天拿到30000多元

贏麻了!現(xiàn)在全網(wǎng)最想哭的人估計(jì)是冷美人,30多天拿到30000多元

火山詩(shī)話
2025-11-18 18:36:08
Anna de Ville:以真實(shí)本色綻放的業(yè)界美女

Anna de Ville:以真實(shí)本色綻放的業(yè)界美女

吃瓜黨二號(hào)頭目
2025-11-19 08:13:44
向佑徹底沒救了!現(xiàn)身南昌酒吧,新交的女友又胖又頹,煙酒不離手

向佑徹底沒救了!現(xiàn)身南昌酒吧,新交的女友又胖又頹,煙酒不離手

喜歡歷史的阿繁
2025-11-12 01:28:08
換電僅需3分鐘?蔚來川西換電自由區(qū)建成,李斌打臉?biāo)匈|(zhì)疑者

換電僅需3分鐘?蔚來川西換電自由區(qū)建成,李斌打臉?biāo)匈|(zhì)疑者

雷科技
2025-11-18 18:31:40
2025-11-19 09:36:49
極客公園
極客公園
讓最棒的創(chuàng)新成為頭條
11637文章數(shù) 78724關(guān)注度
往期回顧 全部

科技要聞

一夜封神,Gemini 3讓谷歌找回“碾壓感”

頭條要聞

美女主播設(shè)"同城約會(huì)"騙局:刷禮物換"香艷"視頻

頭條要聞

美女主播設(shè)"同城約會(huì)"騙局:刷禮物換"香艷"視頻

體育要聞

結(jié)束最后一次對(duì)決,陳夢(mèng)和朱雨玲笑著相擁

娛樂要聞

宋佳奪影后動(dòng)了誰的奶酪

財(cái)經(jīng)要聞

大規(guī)模宕機(jī)!美國(guó)多個(gè)網(wǎng)站崩了

汽車要聞

硬核配置旗艦氣場(chǎng) 嵐圖泰山售37.99萬起

態(tài)度原創(chuàng)

家居
手機(jī)
親子
公開課
軍事航空

家居要聞

彰顯奢華 意式經(jīng)典風(fēng)格

手機(jī)要聞

蘋果iPhone 17 N1芯片令其在北美Wi-Fi性能上領(lǐng)先

親子要聞

冬季克服寒冷鍛煉孩子意志力

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

中方代表:日本毫無資格要求成為安理會(huì)常任理事國(guó)

無障礙瀏覽 進(jìn)入關(guān)懷版 色婷婷亚洲Av综合| 中国熟妇毛葺葺XXXXX| 无翼乌工口肉肉无遮挡无码18| 精品国模一区二区三区欧美| 久久精品欧美日韩精品| 最近中文字幕在线一区二区三区四区| 奇米影视第四精品亚洲国产| 1777米奇色狠俺去| 国产精品美女一区二区视频| а√天堂资源8在线官网在线 | 日本A级视频| 人妻 日韩 欧美 综合 制服| 国产精品无码无片在线观看3d| 人在人上操人人| 国产乱人伦真实精品视频| 日日日日干干干| 国产成人久久精品77777综合| 秋霞无码久久一区二区| 啪啪无码人妻丰满熟妇| 无码熟妇精品| 九九热免费在线观看视频| 在线看片无码永久免费aⅴ| 日韩电影无码| 国产一二三四区| 无套内射极品少妇chinese| 人妻成人性片| 在线激情国产| 久久久无码视频| 欧美日韩久久中文字幕| 2021精品亚洲中文字幕| 囯产精品久久久久久久久免费高清| 欧美日产国产精品日产| 欧美黑人粗大精品一二区| 国产呻呤在线播放| 少妇激情av一区二区三区| 全免费毛片视频在线播放| 奇米狠狠一区二区三区| 成人午夜高潮免费视频在线观看| 人妻日韩精品中文字幕| 丰满少妇高潮嗷嗷叫在线观看| av无码观看|