夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

馬斯克發(fā)布“地球最強AI模型”Grok 4:橫掃所有榜單,在“人類最終測試”超越人類博士”!

0
分享至


作者 | 王啟隆

出品 | CSDN(ID:CSDNnews)

北京時間 7 月 10 日,原定于上午 11 點的 xAI Grok 4 發(fā)布會,在萬眾矚目中“鴿”了整整一小時。期間評論數(shù)飆升至 4200 條,轉(zhuǎn)發(fā)超 2000 次,點贊破萬,140 萬觀眾在線催更。這期間,xAI 的官推評論區(qū)成了大型許愿池和段子集散地。



畢竟,發(fā)布會前,老板馬斯克親自下場,在辦公室搭帳篷、通宵達(dá)旦進(jìn)行“最后一次大規(guī)模訓(xùn)練”的消息早已傳遍網(wǎng)絡(luò)。人們迫切想知道,是怎樣的“核武器”,值得如此陣仗。

事實證明,這場等待是值得的。馬斯克和他的團(tuán)隊帶來的 Grok 4,不僅是一次模型的常規(guī)升級,更像是一場對現(xiàn)有 AI 能力邊界的悍然宣告。


王座易主?Grok 4制霸大模型考場

發(fā)布會的核心,首先是一系列令人瞠目結(jié)舌的基準(zhǔn)測試(Benchmark)成績。如果說過去的 AI 評測是諸神之戰(zhàn),那么 Grok 4 的登場,則是諸神黃昏。

最引人注目的,無疑是“人類最終測試”(Humanity's Last Exam, HLE)的成績。這是一個涵蓋了數(shù)學(xué)、有機化學(xué)、語言學(xué)、法學(xué)等多個博士級別難題的超高難度測試,旨在檢驗AI最頂尖的推理和知識能力。

根據(jù)現(xiàn)場公布的數(shù)據(jù)和后續(xù)網(wǎng)友的挖掘,Grok 4 的表現(xiàn)堪稱瘋狂:

  • 基礎(chǔ)能力:在不使用任何外部工具的情況下,Grok 4 的文本模型(Text-Only)取得了 26.9% 的成績。

  • 工具加持:當(dāng)允許使用工具(如代碼解釋器)時,成績飆升至41.0%。


  • 此外還有“重思考”模式,在這個模式下,Grok 4 Heavy 的得分達(dá)到了恐怖的58.3%

這是一個什么概念?此前,無論是Claude 4 Opus、Gemini 2.5 Pro還是OpenAI的o3,在HLE上的得分普遍在15%-25%的區(qū)間徘徊。Grok 4幾乎將SOTA(State-of-the-Art,即當(dāng)前最佳水平)的紀(jì)錄翻了一倍多。


馬斯克在發(fā)布會上的那句Grok 4在每一個學(xué)科上都優(yōu)于博士水平,沒有任何例外,不再僅僅是豪言壯語,而是有了數(shù)據(jù)的支撐。他進(jìn)一步解釋:“Grok 4比幾乎所有學(xué)科的所有研究生都要聰明,而且是同時!它在所有領(lǐng)域都達(dá)到了博士后水平,是所有領(lǐng)域,沒有例外。這值得我們反復(fù)回味。”

除了HLE,Grok 4在其他各大頂級基準(zhǔn)測試中也實現(xiàn)了全面引領(lǐng):

  • ARC-AGI-2(抽象推理挑戰(zhàn)賽): 在這個被認(rèn)為是衡量通用人工智能潛力的關(guān)鍵測試中,Grok 4 (Thinking)以 15.9% 的得分創(chuàng)下新的 SOTA,幾乎是之前商業(yè)模型最高紀(jì)錄的兩倍。


  • AIME 25(美國數(shù)學(xué)邀請賽):Grok 4 Heavy 史無前例地取得了100%的滿分,完美解出了所有高難度數(shù)學(xué)題。

  • GPQA(研究生水平問答):得分高達(dá)88.9%,超越所有對手。


  • Artificial Analysis 智能指數(shù):在這個綜合了MMLU-Pro、GPQA Diamond、HLE 等七項頂級評測的綜合指數(shù)中,Grok 4 以 73 分高居榜首,超越了包括 o3-pro、Gemini 2.5 Pro 在內(nèi)的所有模型。


這一系列的成績,標(biāo)志著在 AI 的“智商”競賽中,Grok 4 已經(jīng)暫時坐上了王座。


Grok何以封神?探秘智能背后的三大支柱

如此恐怖的性能躍升,絕非偶然。發(fā)布會深入揭示了 Grok 4 成功的秘密,可以歸結(jié)為三大支柱:全新的協(xié)作模式、最大化追求真相的哲學(xué),以及毫不妥協(xié)的算力投入。

1.多智能體協(xié)作:Grok 4 Heavy秘密武器

Grok 4 Heavy 之所以能在HLE等超高難度測試中取得突破,其核心秘密在于一種全新的內(nèi)部協(xié)作機制。它并非簡單的參數(shù)堆砌,而是一個“多智能體構(gòu)成的研討小組”(Multi-AgentStudyGroup)。

當(dāng)遇到一個復(fù)雜問題時,Grok 4 Heavy 會在內(nèi)部“分身”出多個獨立的智能體。每個智能體都會從不同角度、用不同方法獨立思考和解決問題。這個過程完成后,它們會進(jìn)入一個“比較筆記”的環(huán)節(jié)。

這個環(huán)節(jié)遠(yuǎn)比“少數(shù)服從多數(shù)”的投票機制高級。很多時候,可能只有一個智能體找到了解題的關(guān)鍵“竅門”或獨特的思路。通過分享,所有智能體都能理解這個最佳方案,并在此基礎(chǔ)上進(jìn)行整合、優(yōu)化,最終形成一個最深刻、最準(zhǔn)確的答案。這正是“測試時計算”(Test-time-compute)的精髓,它通過增加思考的深度和廣度,換來了精度的巨大提升。

2.第一性原理:最大化追求真相

馬斯克再次重申了 xAI 的核心哲學(xué):“最大化地尋求真相(Maximally Truth-Seeking)”。他將 AI 比作一個超級天才的孩子,你最終無法在智力上超越它,但你可以在它成長的早期,為它“植入”正確的價值觀。

“我們想要灌輸給它的,是好奇心、是對真理的追求,是成為一個有益于人類的存在?!?/p>

馬斯克在發(fā)布會上說,“物理學(xué)是宇宙的法則,其他的一切都只是建議。你無法欺騙物理學(xué)。所以,最終的考驗是現(xiàn)實。”

這種哲學(xué),讓 Grok 在面對爭議性或復(fù)雜倫理問題時,不會像其他模型那樣選擇回避或給出“政治正確”的模板化答案,而是嘗試從第一性原理出發(fā),進(jìn)行深入的、不帶偏見的推理。

3.二十萬H100超算集群:史無前例的算力投入

這一切的背后,是馬斯克毫不吝嗇的“鈔能力”支持。

發(fā)布會披露,Grok 4 的訓(xùn)練是在一個擁有超過 20 萬張 H100 GPU 的超級計算機集群上完成的,是 Grok 3 時期的兩倍。更重要的是,xAI 改變了訓(xùn)練策略,將更多的算力投入到“推理能力”的專項訓(xùn)練上。相比于 Grok 2,Grok 4 的訓(xùn)練量提升了整整 100 倍。


這種不計成本的投入,為 Grok 4 構(gòu)建了無與倫比的“智能底座”,讓它有能力去探索更深層次的邏輯和知識。


不止于聊天:Grok 4的現(xiàn)實世界“超能力”

拋開冰冷的跑分,Grok 4 在現(xiàn)場演示和 API 初體驗中展現(xiàn)出的能力,更直觀地定義了下一代 AI 的應(yīng)用場景。


發(fā)布會后,馬斯克在 X 上最新置頂?shù)倪@條推文,直接叫板 Cursor,宣告了 Grok 4 在代碼能力上的自信。在發(fā)布會的演示中,Grok 4 更是展示了其“創(chuàng)世”級別的能力:

  • 黑洞碰撞模擬:面對“生成兩個黑洞碰撞的動畫”這種融合了物理學(xué)、數(shù)學(xué)和編程的復(fù)雜要求,Grok 4 不僅理解了背后的“后牛頓近似法”等物理學(xué)原理,還迅速編寫出 Python 代碼,調(diào)用相關(guān)庫,生成了相當(dāng)逼真的可視化動圖。它甚至在代碼注釋中坦誠地解釋,為了視覺效果,在引力波的尺度上做了哪些“藝術(shù)夸張”,展現(xiàn)了驚人的元認(rèn)知和自我解釋能力。


  • 4小時開發(fā)一款游戲:一位名叫 Danny 的開發(fā)者受邀體驗 Grok 4 API。他僅用了 4 個小時,就借助 Grok 4 從零開始制作出了一款完整的第一人稱射擊游戲。Grok 4 不僅編寫了游戲的核心邏輯代碼,更令人驚嘆的是,它還自動完成了尋找、適配紋理貼圖、處理 3D 模型等極其繁瑣的“美術(shù)資源”工作。這極大地解放了開發(fā)者的創(chuàng)造力,讓一個人成為一個游戲工作室的夢想,變得觸手可及。


  • 商業(yè)模擬超越人類:在一個名為“Vending Bench”的商業(yè)模擬平臺中,AI 需要扮演自動售貨機公司的經(jīng)營者,管理庫存、定價、與供應(yīng)商簽約。Grok 4 不僅成功運營,其最終創(chuàng)造的“凈資產(chǎn)”價值更是達(dá)到了排行榜第二名模型的兩倍,展現(xiàn)出驚人的長期戰(zhàn)略規(guī)劃和執(zhí)行能力。


  • 加速科學(xué)發(fā)現(xiàn):頂尖的生物醫(yī)學(xué)研究機構(gòu) Arc Institute,已經(jīng)開始使用 Grok 4 API 來自動化分析其海量的實驗日志。面對數(shù)百萬份復(fù)雜的實驗數(shù)據(jù),Grok 4 能幫助科學(xué)家快速篩選出最有價值的研究假設(shè),將原本耗時數(shù)周的工作縮短到幾分鐘。

  • 預(yù)測未來:現(xiàn)場演示中,團(tuán)隊讓 Grok 4 Heavy 分析體育博彩市場 Polymarket,并預(yù)測本年度美國職業(yè)棒球大聯(lián)盟世界大賽的冠軍。在長達(dá) 4 分半鐘的深度“思考”后,Grok 4 瀏覽了大量賠率網(wǎng)站,分析了各隊實力,甚至計算了自己的“Alpha 優(yōu)勢”,最終給出了洛杉磯道奇隊以 21.6% 的概率獲勝的結(jié)論,并詳細(xì)闡述了整個推理過程。這種能力,讓 Grok 4 不再僅僅是一個信息檢索工具,而是一個具備主動分析和決策能力的“戰(zhàn)略顧問”。


發(fā)布會還展示了全新的語音交互模式。新的聲音模型,如充滿磁性的“Sal”(發(fā)布會開場“電影預(yù)告片”的配音)和溫柔知性的“Eve”,在自然度、韻律和情感表達(dá)上都達(dá)到了新的高度。

在與 Eve 的互動中,它能根據(jù)指令,用低語來安撫緊張的主持人,也能即興高歌一曲關(guān)于“健怡可樂”的詠嘆調(diào),甚至在被要求“直接唱”時,無縫切換到另一種歌唱風(fēng)格。這種對人類情感和語境的細(xì)膩捕捉,預(yù)示著未來的人機交互將變得無比自然和溫暖。


價格、速度與未來:Grok 4的陽謀與坦誠

Grok 4 的強大并非遙不可及。會后,xAI 正式公布了全新的“SuperGrok”訂閱計劃和 API 定價,展現(xiàn)了其商業(yè)化的雄心和對市場的清晰判斷。

定價策略:

  • 免費版(Basic):體驗Grok 3。

  • SuperGrok($300美元/年):可使用 Grok 4 標(biāo)準(zhǔn)版,擁有 128k 上下文窗口和帶視覺的語音模式。

  • SuperGrok Heavy($3000美元/年):獨家體驗 Grok 4 Heavy,并能搶先體驗各項新功能。


Grok 4 的 API 輸出速度為75 tokens/s,雖然慢于 o3(188 tokens/s),但快于同樣以深度思考著稱的 Claude 4 Opus Thinking(66 tokens/s)。

此外,在發(fā)布會的最后,馬斯克和團(tuán)隊也坦誠了 Grok 4 目前的“短板”——多模態(tài)能力,尤其是圖像理解。他們形容現(xiàn)在的 Grok 4 看世界就像“隔著一塊毛玻璃”,有些“局部失明”。

但這正是 xAI 的可怕之處,他們總是在承認(rèn)弱點的同時,給出解決問題的時間表:

1.視覺革命在即:將徹底解決這一問題的 Foundation Model V7 版本已在訓(xùn)練中,預(yù)計幾周內(nèi)完成。屆時,Grok 將擁有與人類無異的視覺和聽覺,能看懂視頻,理解世界。

2.馬斯克的預(yù)言:

  • 今年: 有望看到第一部由AI生成的、可觀看的半小時電視節(jié)目。

  • 明年: 期待第一款真正好玩的 AI 視頻游戲和第一部完整的 AI 電影。

3. 最終考場:馬斯克強調(diào),通過所有人類考試只是第一步。Grok 的終極目標(biāo)是成為一個科學(xué)發(fā)現(xiàn)和技術(shù)發(fā)明的引擎。

“Grok 可能會在今年年底發(fā)現(xiàn)新的可用技術(shù),明年發(fā)現(xiàn)新的物理學(xué)。”


這不再是科幻。當(dāng)一個 AI 開始以現(xiàn)實世界為考場,以推動人類知識邊界為己任時,我們知道,一個全新的時代,真的來了。

而這場由 Grok 4 攪動的風(fēng)暴,才剛剛開始。

2025 全球產(chǎn)品經(jīng)理大會

8月15–16日·北京威斯汀酒店

互聯(lián)網(wǎng)大廠&AI 創(chuàng)業(yè)公司產(chǎn)品人齊聚

12 大專題,趨勢洞察 × 實戰(zhàn)拆解

掃碼領(lǐng)取大會 PPT,搶占 AI 產(chǎn)品新紅利

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中超連爆大冷!倒數(shù)第二5-1大勝,李霄鵬逃出生天,領(lǐng)頭羊輸球

中超連爆大冷!倒數(shù)第二5-1大勝,李霄鵬逃出生天,領(lǐng)頭羊輸球

生活新鮮市
2025-08-10 02:10:58
朱拉尼丟掉首都,敘利亞“群雄并立”,阿薩德憑什么東山再起?

朱拉尼丟掉首都,敘利亞“群雄并立”,阿薩德憑什么東山再起?

蜉蝣說
2025-08-01 17:56:16
母親將600萬給小兒子,女婿拒絕照顧,法官一句話,當(dāng)場暈倒

母親將600萬給小兒子,女婿拒絕照顧,法官一句話,當(dāng)場暈倒

流螢敘情
2025-08-06 18:42:47
中國隊全勝!亞洲杯最新形勢:首個八強誕生!首場附加賽對陣出爐

中國隊全勝!亞洲杯最新形勢:首個八強誕生!首場附加賽對陣出爐

侃球熊弟
2025-08-10 00:43:46
重磅引援!官方:曼聯(lián)簽下22歲前鋒塞斯科,轉(zhuǎn)會費總價8500萬歐

重磅引援!官方:曼聯(lián)簽下22歲前鋒塞斯科,轉(zhuǎn)會費總價8500萬歐

直播吧
2025-08-09 17:39:18
重慶!新一輪高溫中心已確定!8月10~12號天氣預(yù)報,高溫分布如下

重慶!新一輪高溫中心已確定!8月10~12號天氣預(yù)報,高溫分布如下

望東升
2025-08-10 02:40:03
中國28歲留學(xué)生嫖娼16歲日本女高中生,被抓狡辯:為了學(xué)日語!

中國28歲留學(xué)生嫖娼16歲日本女高中生,被抓狡辯:為了學(xué)日語!

娛樂看阿敞
2025-08-09 18:29:16
胡金秋:后面的比賽很殘酷 輸一場就淘汰了 我們要全力以赴不松懈

胡金秋:后面的比賽很殘酷 輸一場就淘汰了 我們要全力以赴不松懈

直播吧
2025-08-09 22:12:19
蘇超最大看點比賽來了!常州vs鎮(zhèn)江,最破的盾將和最鈍的矛打上了

蘇超最大看點比賽來了!常州vs鎮(zhèn)江,最破的盾將和最鈍的矛打上了

阿傖說事
2025-08-09 18:20:34
程帥澎20分獲MVP:轟5三分平約旦全隊 三戰(zhàn)46+10三分成頭號射手

程帥澎20分獲MVP:轟5三分平約旦全隊 三戰(zhàn)46+10三分成頭號射手

醉臥浮生
2025-08-09 21:09:57
湖北通報:工作日下午,陳小平酒后與他人發(fā)生糾紛,黨內(nèi)嚴(yán)重警告、政務(wù)降級

湖北通報:工作日下午,陳小平酒后與他人發(fā)生糾紛,黨內(nèi)嚴(yán)重警告、政務(wù)降級

政知新媒體
2025-08-09 21:05:00
中央定調(diào):城投將全面退出?這是不可能的,最少十年內(nèi)退不出來!

中央定調(diào):城投將全面退出?這是不可能的,最少十年內(nèi)退不出來!

妙知
2025-08-09 05:59:20
曼聯(lián)1-1平點球捧雙冠!德赫亞回家謝什科亮相,一人缺陣預(yù)示轉(zhuǎn)會

曼聯(lián)1-1平點球捧雙冠!德赫亞回家謝什科亮相,一人缺陣預(yù)示轉(zhuǎn)會

羅米的曼聯(lián)博客
2025-08-09 23:22:15
生活不易!深圳1男2女合租一單間,互不嫌棄,女生:都是為了省錢

生活不易!深圳1男2女合租一單間,互不嫌棄,女生:都是為了省錢

唐小糖說情感
2025-08-09 09:24:55
無緣8強,王曼昱出局原因曝光,曝徐輝支招陳熠,馬琳不該犯錯

無緣8強,王曼昱出局原因曝光,曝徐輝支招陳熠,馬琳不該犯錯

東球弟
2025-08-09 11:33:15
38歲劉一陽健身時猝死,回頭看才發(fā)現(xiàn)李立群講的話真的很有道理!

38歲劉一陽健身時猝死,回頭看才發(fā)現(xiàn)李立群講的話真的很有道理!

小把戲smilez
2025-08-09 16:12:15
兩百年高加索霸權(quán)終結(jié)!盧卡申科:俄軍沒從白俄羅斯入侵烏克蘭

兩百年高加索霸權(quán)終結(jié)!盧卡申科:俄軍沒從白俄羅斯入侵烏克蘭

鷹眼Defence
2025-08-09 16:55:14
江蘇無錫女足官員陳婉婷發(fā)表不負(fù)責(zé)任評論,中國足協(xié)發(fā)布處罰決定

江蘇無錫女足官員陳婉婷發(fā)表不負(fù)責(zé)任評論,中國足協(xié)發(fā)布處罰決定

極目新聞
2025-08-09 10:54:17
1979年,臺灣一位連長冒死游泳回大陸,如今已成為中國頂級智囊

1979年,臺灣一位連長冒死游泳回大陸,如今已成為中國頂級智囊

南宮一二
2025-08-07 15:36:59
在KTV點到熟人是啥感受?網(wǎng)友:她賣你嫖天生一對,誰也別嫌棄誰

在KTV點到熟人是啥感受?網(wǎng)友:她賣你嫖天生一對,誰也別嫌棄誰

解讀熱點事件
2025-06-30 00:10:04
2025-08-10 07:23:00
CSDN incentive-icons
CSDN
成就一億技術(shù)人
25850文章數(shù) 242119關(guān)注度
往期回顧 全部

科技要聞

對話王興興:機器人給國家交稅不是夢!

頭條要聞

澤連斯基:反對“用烏克蘭領(lǐng)土交換和平”

頭條要聞

澤連斯基:反對“用烏克蘭領(lǐng)土交換和平”

體育要聞

為打亞洲杯放棄NBA,他還要被韓國人罵

娛樂要聞

離婚3年 孫怡媽話揭露女兒離婚現(xiàn)實

財經(jīng)要聞

釋永信海外資本局:至少4600萬流向澳洲

汽車要聞

百萬級舒適感!東風(fēng)風(fēng)神L8真實力打臉楊子

態(tài)度原創(chuàng)

時尚
本地
健康
教育
藝術(shù)

今年秋天最美的4雙鞋,怎么搭都好看!

本地新聞

非遺里的天津|讓盛唐的榮華,在蠶絲銅絲間復(fù)活

呼吸科專家破解呼吸道九大謠言!

教育要聞

女兒熬穿了夜,我只能勸她補覺

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進(jìn)入關(guān)懷版 欧美成人精品三级网站下载| 久日亚洲av| 免费永久AV美女| 国产精品传媒AV在线| 深夜视频在线免费| 奇米视频222| 漂亮人妻被中出中文字幕久久 | 综合AV在线| avtt2014天堂网东京热| 国产精品亚洲综合久久_| 国产性三级高清在线观看| 97国产精华最好的产品| 区二区欧美性插b在线视频网站 | 国产在线观看黄| 国产专区一线二线三线品牌东 | 99精品免费久久久久久久久日本| 无人去码一码二码三码区| 国产精品女人精品久久久天天| 很黄很黄无遮挡| 亚洲女色AV| 在线观看成人一二三| 熟女如虎的丰满熟妇啪啪| av中文字幕在线二区| y1111111丰满少妇| 青春草视频在线免费观看| 免费99精品国产自在在线| 91人妻人人澡人人爽人人精品| av免费网址在线观看| 欧美熟女高潮喷水| 无码中文字幕在线播放2| 大陆极品少妇内射| 久久久久国产一级毛片高清版A| 91人妻人人操人人爽| 国产成人精品a视频免费福利| 国产欧美成人一区二区a片| 毛片在线观看免费网站| 99大香伊乱码一区二区| 人人妻人人爱人人草人人人人人人人,| 久草午夜视频| 天天做天天爱天天综合网2021| 国产乱子精品一区二区在线观看|