夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

馬斯克發(fā)布Grok 4,推理能力全面登頂,支持四個代理同時工作

0
分享至

Grok 4 終于來了!

馬斯克旗下的 xAI 剛剛結束發(fā)布直播,Grok 系列模型直接從 Grok 3 進化到了 4,跳過了之前傳聞中的 3.5 版本。

Grok 4 系列被分為兩個版本:Grok 4 和 Grok 4 Heavy。

兩者都是純推理模型,沒有非推理模式。

Grok 4 是單代理(single agent)版本,而 Grok 4 Heavy 是多代理版本(multi agents),支持四個代理同時工作。上下文窗口最高支持 256k tokens。


圖 | Grok 4 目前并未開放給免費用戶(來源:xAI)

xAI 表示,在主流推理基準測試中,Grok 4 Heavy 全部拿下了 SOTA——HLE(人類的最后考試)甚至達到了 44.4% 的高分。

至于定價,Grok 4 目前只有付費用戶才能使用,而最強的 Grok 4 Heavy 需要訂閱 300 美元/月的 SuperGrok Heavy 會員才能使用。

這價格超過了 OpenAI 最貴的 200 美元 Pro 會員月費。

此前傳聞的 Grok 4 Code 并未正式公布,但 xAI 路線圖顯示其將在 8 月發(fā)布。


圖 | xAI 新品發(fā)布路線圖(來源:xAI)

除了 Coding 模型,接下來的幾個月里,xAI 預計還會發(fā)布多模態(tài)代理和視頻生成模型。

馬斯克還“畫餅”稱,由 AI 制作的“非常出色的”游戲會在今年或明年推出。

Grok 4 也同時開放了 API 的權限,目前僅支持文字+視覺的輸入,純文字的輸出。定價是每百萬 tokens 輸入3美元,輸出 15 美元。


圖 | Grok 4 API價格(來源:xAI)

據(jù) xAI 介紹,Grok 4 的訓練量是 Grok 2 的 100 倍。

而 Grok 3 到 Grok 4 更側重于推理訓練,推理訓練量提升了 10 倍。


圖 | Grok 系列模型的訓練量增長(來源:xAI)

“從學術角度看,Grok 4 在所有學科上都是博士水平,甚至比絕大多數(shù)(本學科的)博士還要強?!瘪R斯克表示。

有關兩款最新模型的性能和消息,早在一周前就陸續(xù)有 X 博主爆料,包括“Grok 4 在 HLE(Humanities Last Exam,人類的最后考試)測試中的得分是 35%,開啟推理后提高到 45%”等等。

結合直播內(nèi)容,這些數(shù)據(jù)幾乎都是準確的,而且 Grok 4 在多個推理基準測試上的表現(xiàn)均成為了新 SOTA。


圖 | 此前關于 Grok 4 的爆料(來源:X/@legit_api)

具體來說,在未使用工具的情況下,Grok 4 在 HLE 測試中的得分是 25.4%。而使用工具后,分數(shù)則飆升至 38.6%。

更強版本 Grok 4 Heavy 則拿到了 44.4% 的高分,直接碾壓了目前表現(xiàn)最好的谷歌 Gemini 2.5 Pro(26.9%)。


圖 | Grok 4 在 HLE 上的成績(來源:xAI)

馬斯克表示,這些工具仍然是“很基礎的簡單工具”,如果能更好地使用正確的工具,Grok 還會變得更強大。

而隨著模型能力越來越強,用強化學習進行擴展面臨著許多挑戰(zhàn)。

“我們快沒有合適的問題來考驗 AI 了?!瘪R斯克說道,“很多問題都是人類幾乎無法回答(沒有正確答案)的?!?/p>

除了 HLE,Grok 4 和 Grok 4 Heavy 在各種主流基準測試上也表現(xiàn)優(yōu)異。


圖 | Grok 4 在多個基準測試上的成績(來源:xAI)

Grok 4 系列在 GPQA(研究生級問題)測試中得分 88-89,超過了 Gemini 2.5 Pro 成為新第一。而在 AIME25 數(shù)學競賽題上,Grok 4 Heavy 更是取得了滿分的成績。

xAI 表示,Grok 4 的強項是“用工具來理解世界,并用來完成任務”。

演示中,Grok 4 寫了一段關于引力波和黑洞的模擬代碼。在過程中,它調(diào)用了網(wǎng)絡搜索、文獻檢索和閱讀、代碼運行等工具(功能)。最終實現(xiàn)了網(wǎng)頁上可直接運行的模擬代碼。


(來源:xAI)

在以高難度著稱的 ARC-AGI 通用人工智能測試中,Grok 4 是首個在 v2 Semi Private 挑戰(zhàn)中獲得 10% 以上分數(shù)的 AI 模型,幾乎是第二名 Claude Opus 4 的兩倍,同時保證了單任務成本也處于平均水平。


圖 | Grok 4 在 ARC-AGI 挑戰(zhàn)上的表現(xiàn)(來源:xAI)

最后,在 Vending-Bench 自動售貨機運營測試中,Grok 4 的表現(xiàn)也超過了 Claude Opus 4。凈資產(chǎn)和銷售數(shù)量都遠遠超過其他所有模型,甚至是人類平均水平。

這是一個讓大模型代理運營自動售貨機賺錢的模擬環(huán)境,需要代理在一個持續(xù)時間較長的任務中進行操作,如管理庫存、下訂單、定價和處理日常開銷等等。它專注于測試大模型在長時間跨度上的表現(xiàn),而非僅限于短期任務的表現(xiàn)。


圖 | Vending-Bench 測試成績(來源:xAI)



更加“激進”的 Grok

Grok 4 發(fā)布之際,在 X 平臺上十分活躍的 Grok 聊天機器人卻因連發(fā)激進言論而引發(fā)嚴重爭議。

多位 X 用戶截取了 Grok 的回復截圖,顯示該 AI 在多個公開帖子中回復了帶有反猶主義色彩的極端言論,甚至多次提及希特勒。

在一篇帖子中,當被問及哪位 20 世紀的歷史人物最適合處理當下已造成 100 多人死亡的德克薩斯州洪水問題時,Grok 將其視為是“仇恨白人”問題并回答說,毫無疑問是阿道夫·希特勒(Adolf Hitler)。“他每次都能發(fā)現(xiàn)規(guī)律,并果斷處理?!?/p>


圖 | Grok 引起爭議的回答之一(來源:X/@AFpost)

在回應用戶的質(zhì)疑時,Grok 自稱為“MechaHitler”(機械希特勒),聲稱這只是來自《德軍總部 3D》游戲中的虛構角色。

巧合的是,這一事件發(fā)生在馬斯克剛宣布對 Grok 進行“重大升級”之后不久:7 月 4 日,馬斯克發(fā)文稱,“Grok 經(jīng)過了重大改進”,并表示“你們應該會在提問時感受到不同”。

2 天后,網(wǎng)友發(fā)現(xiàn) Grok 系統(tǒng)提示詞中新增:Grok 將“不回避政治不正確的表述,只要這些表述有足夠證據(jù)支持”,還會將主流媒體內(nèi)容視為“有偏見的主觀敘述”。

不過在最新的更新中,關于政治不正確的提示詞已被刪除。

Grok 引發(fā)爭議也不僅限于輿論上。由于其過于口無遮攔,因此招來了土耳其的封禁(因其侮辱總統(tǒng)埃爾多安),波蘭政府也向歐盟舉報了 xAI。

針對 Grok 最近幾天的激進言論,xAI 表示已采取行動,刪除不當帖子并禁止仇恨言論。


圖 | xAI 回應,已采取措施防止仇恨言論(來源:xAI)

隨著 OpenAI 籌備 GPT-5、谷歌進一步發(fā)展 Gemini、Meta 大手筆組建 AI 頂級人才實驗室,Grok 4 只是下一波 AI 軍備競賽的一員。

Grok 4 的亮相符合人們的普遍預期,它在推理性能上的提升創(chuàng)造了新的 SOTA,但另一方面,xAI 強調(diào)訓練量提升 100 倍,卻避而不談的訓練成本問題,實實在在反應到了定價上,說明 AI 軍備競賽的確過于燒錢。

但背靠財大氣粗的馬斯克,xAI 顯然很有底氣。

“創(chuàng)造一個既快又聰明的模型,是我們的當務之急?!眡AI 創(chuàng)始團隊成員兼研究主管 Jimmy Ba 表示,“未來會很狂野?!?/p>

參考資料:

https://x.com/legit_api/status/1941165728708874514

https://x.com/AiBattle_/status/1940139539525419512

https://x.com/AFpost/status/1942694284244767125

https://github.com/xai-org/grok-prompts/blob/main/ask_grok_system_prompt.j2

https://www.wired.com/story/grok-antisemitic-posts-x-xai/

https://docs.x.ai/docs/models

運營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“咬人的,它是畜生”,上海視障女子攜導盲犬坐地鐵,遭一男子破口大罵

“咬人的,它是畜生”,上海視障女子攜導盲犬坐地鐵,遭一男子破口大罵

縱相新聞
2025-08-07 16:43:04
桑切斯慌了!貝佐斯剛結婚就有新歡,豪擲71億力捧27歲悉尼妹

桑切斯慌了!貝佐斯剛結婚就有新歡,豪擲71億力捧27歲悉尼妹

阿廢冷眼觀察所
2025-08-06 13:46:00
楊瀚森在開拓者沒戲了?利拉德控球壓制 中國中鋒真的會夢碎NBA?

楊瀚森在開拓者沒戲了?利拉德控球壓制 中國中鋒真的會夢碎NBA?

體壇八點半的那些事兒
2025-08-07 20:54:09
爭議一幕!中國男籃vs印度合計人口高達28億 亞洲杯現(xiàn)場僅39名觀眾

爭議一幕!中國男籃vs印度合計人口高達28億 亞洲杯現(xiàn)場僅39名觀眾

狼叔評論
2025-08-07 23:41:18
血戰(zhàn)長沙的李玉堂,在臺灣被槍決,臨刑前的一句話讓人痛心!

血戰(zhàn)長沙的李玉堂,在臺灣被槍決,臨刑前的一句話讓人痛心!

顧史
2025-07-26 05:04:13
災難性內(nèi)爆,多名富豪深海瞬間死亡,每人都承受了每平方英寸4930磅的水壓,事故原因公布

災難性內(nèi)爆,多名富豪深海瞬間死亡,每人都承受了每平方英寸4930磅的水壓,事故原因公布

每日經(jīng)濟新聞
2025-08-06 13:28:11
特朗普宣布,可能在 8 月 7日恢復對中國的 24% 高關稅。

特朗普宣布,可能在 8 月 7日恢復對中國的 24% 高關稅。

南權先生
2025-08-07 10:47:06
2米21小姚明空籃不扣!男籃最高峰遭3次大血帽,難怪只值2000歐元

2米21小姚明空籃不扣!男籃最高峰遭3次大血帽,難怪只值2000歐元

嘴炮體壇
2025-08-07 18:52:42
游坦之的真實水平如何?《天龍八部》中能打贏他的人也不過6個

游坦之的真實水平如何?《天龍八部》中能打贏他的人也不過6個

武俠新世界
2025-08-07 11:19:20
吃相難看!全紅嬋僅3個月沒比賽,惡心一幕出現(xiàn),官媒怒批沒下限

吃相難看!全紅嬋僅3個月沒比賽,惡心一幕出現(xiàn),官媒怒批沒下限

細語
2025-08-06 17:33:17
國乒女隊全勝!王藝迪險遭爆冷,8日賽程公布,孫穎莎王曼昱登場

國乒女隊全勝!王藝迪險遭爆冷,8日賽程公布,孫穎莎王曼昱登場

十點街球體育
2025-08-07 23:22:16
3-0!3-1!冠軍賽瘋狂一夜:張本智和強勢爆發(fā),林詩棟驚心動魄

3-0!3-1!冠軍賽瘋狂一夜:張本智和強勢爆發(fā),林詩棟驚心動魄

知軒體育
2025-08-07 21:41:15
男籃2號得分手,三分50%!王7朱8之后,中國男籃終于有了靠譜射手

男籃2號得分手,三分50%!王7朱8之后,中國男籃終于有了靠譜射手

弄月公子
2025-08-07 22:06:13
"邪修學習法"爆火?網(wǎng)友:學渣變學霸,都靠這些不上臺面的野路子

"邪修學習法"爆火?網(wǎng)友:學渣變學霸,都靠這些不上臺面的野路子

墻頭草
2025-07-31 10:19:53
中國堅決不給稀土,美國人被逼急了,超級大國淪落到刨“垃圾堆”

中國堅決不給稀土,美國人被逼急了,超級大國淪落到刨“垃圾堆”

歷史有些冷
2025-08-06 17:25:03
73歲三浦友和現(xiàn)狀:不靠兒孫不住豪宅,只想和山口百惠安靜老去

73歲三浦友和現(xiàn)狀:不靠兒孫不住豪宅,只想和山口百惠安靜老去

山河月明史
2025-08-04 13:07:53
親兄弟創(chuàng)立世界一流品牌,為何最終卻反目成仇要弄死對方?

親兄弟創(chuàng)立世界一流品牌,為何最終卻反目成仇要弄死對方?

芳芳歷史燴
2025-08-01 18:24:57
美國宣布對印度加征50%關稅,莫迪首度回應:不會損害印度農(nóng)民利益

美國宣布對印度加征50%關稅,莫迪首度回應:不會損害印度農(nóng)民利益

環(huán)球網(wǎng)資訊
2025-08-07 14:47:08
明朝滅亡一天前,發(fā)生了2件奇特的事情,至今想來仍讓人費解

明朝滅亡一天前,發(fā)生了2件奇特的事情,至今想來仍讓人費解

珺瑤婉史
2025-08-07 19:20:02
余華:不要相信任何關系,這輩子,最靠得住的是這兩樣東西

余華:不要相信任何關系,這輩子,最靠得住的是這兩樣東西

清風拂心
2025-04-30 15:20:07
2025-08-08 00:43:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15497文章數(shù) 513968關注度
往期回顧 全部

科技要聞

理想汽車稱遭黑水軍圍攻,蔚來否認抹黑

頭條要聞

女子當著男友面從25樓跳下自殺:宮外孕術后被男友毆打

頭條要聞

女子當著男友面從25樓跳下自殺:宮外孕術后被男友毆打

體育要聞

2025金球獎候選人:登貝萊、亞馬爾領銜

娛樂要聞

葉珂說剛生完孩子 和黃曉明沒分手?

財經(jīng)要聞

李稻葵:建議給外來打工者發(fā)15萬安家費

汽車要聞

要重塑豪華電動SUV標桿 一汽奧迪Q6L e-tron上市

態(tài)度原創(chuàng)

數(shù)碼
藝術
手機
親子
公開課

數(shù)碼要聞

AI上顯示| 維信諾以“2+3+4”全矩陣亮相DIC 2025

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

手機要聞

OPPO Find X8 Ultra 推送 610 版本更新,優(yōu)化小布建議等

親子要聞

暑假帶娃出遠門,帶著小胃袋去旅行,親子游營養(yǎng)滿分指南

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 亚洲中文无码永久免费| 亚洲AV永久无码精品天堂D1| 国产成人啪精品视频免费网站| 国内永久福利在线视频图片| 激情无码被操日韩AV蜜桃| 欧美疯狂做受xxxx| 国产av无码国产av毛片| 国精产品乱码一区一区三区四区 | 亚洲性日,本| 欧美国产成人精品一区二区| 七七久久亚洲亭亭97久久| 成人免费最黄毛片| 小草社区视频在线| 成人字幕网视频在线观看| 少妇口述一区二区三区| 熟女,丝袜 乱伦 激情| 亚洲熟女乱色一区二区三区| 亚洲精品国男人在线视频| 69AV日本| 日本一区二区不卡精品| 久久麻豆精亚洲AV品国产吗合肥 | 水中色av综合| 色欲综合天天天综合网站亚洲| 成人国产精品一区二区网站| 馬与人黃色毛片一部| 成年人黄国产手机看| 久视频免费精品6| 亚洲无码视频一区| 成人在线精品视频| 亚洲色图欧美一区| 高清操人妻在线| 国产日产韩国精品视频| 无码 制服 丝袜 国产 另类| 成人涩视频在线免费观看| 全免费A级毛片免费全网站广州| 亚洲精品无码不卡久久久久| 免费a级毛片18禁网站app| 曰本aⅴ在线天堂| 日韩偷拍无码| 人人草人人做人人爱| 国产在线超清日本一本|