夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛,馬斯克Grok 4.1低調發(fā)布!通用能力碾壓其他一切模型

0
分享至


機器之心報道

機器之心編輯部

幾乎毫無預兆,馬斯克人工智能公司 xAI 發(fā)布了最新模型 Grok 4.1。

就在剛剛,xAI 宣布,Grok 4.1 已經向所有用戶開放,可以在 Grok 官網(wǎng)、X 以及 iOS 和 Android 應用中使用。



Grok 4.1將立即在 Auto 模式中推送,并可在模型選擇器中手動選擇。



此次,Grok 4.1 將在真實世界可用性方面帶來顯著提升,尤其是在創(chuàng)造力、情感互動和協(xié)作交互方面表現(xiàn)出色。Grok 4.1 對細微意圖的感知能力更強,與用戶對話更加吸引人,整體人格也更連貫,同時完全保留了前代模型強大的智能與可靠性。



馬斯克在 x 上宣傳一波自家模型。

為實現(xiàn)這些提升,xAI 在支撐 Grok 4 的同一套大規(guī)模強化學習基礎設施上進一步優(yōu)化了模型的風格、個性、助人性和對齊性。并且,為了優(yōu)化這些不可直接驗證的獎勵信號,xAI 開發(fā)了全新的方法,能夠利用前沿的智能體式推理模型作為獎勵模型,從而可以大規(guī)模自主評估并迭代輸出結果。

與此前的線上生產模型相比,Grok 4.1 在對比評估中有 64.78% 的概率被用戶偏好選擇。



接下來看 Grok 4.1 的能力特征。

SOTA 通用能力

Grok 4.1 在盲測的人類偏好評估中樹立了全新的標桿。

在 LMArena 的 Text Arena 排行榜上,Grok 4.1 的推理模式(代號:quasarflux)以 1483 的 Elo 分數(shù)位居總榜首位,領先最高的非 xAI 模型整整 31 分

Grok 4.1 的非推理模式(代號:tensor)無需使用思維 token 便能即時響應,在排行榜上以 1465 Elo 分數(shù)位居第二。即便不啟用推理,Grok 4.1 也超越了其他所有模型在啟用完整推理配置下的表現(xiàn)。

與 Grok 4 相比,Grok 4.1 的整體表現(xiàn)實現(xiàn)了大幅超越 ,前者此前的總排名僅為第 33 名。



情感智能

為了評估模型在個性與人際互動能力方面的進展,xAI 在 EQ-Bench3 上對 Grok 4.1 進行了測試。

EQ-Bench 是一個由大語言模型評判的測試,用于評估主動情緒智能,包括情緒理解、洞察力、同理心以及人際交往技能。測試集包含 45 個具有挑戰(zhàn)性的角色扮演場景,其中大多數(shù)由預先編寫的三輪對話提示組成。該基準通過多項標準驗證模型的回答質量,以評估模型表現(xiàn)。此外,它還通過成對對比的方式,為排行榜中的每個模型計算歸一化的 Elo 分數(shù)。

xAI 使用官方基準倉庫運行測試,并報告評分細則(rubric score)與歸一化 Elo 分數(shù)。所有分數(shù)均在遵循基準要求的條件下計算:使用默認采樣參數(shù)、指定的評判模型(Claude Sonnet 3.7),并且不添加 system prompt。

結果顯示,Grok 4.1 的推理模式和非推理模式位居榜單前兩名



以下示例展示了 Grok 4.1 對情緒類提示的回應方式:



創(chuàng)意寫作

xAI 還在 Creative Writing v3 基準測試上評估了 4.1 系列模型的表現(xiàn)。

在該基準中,模型需要針對 32 個不同的寫作提示生成回答,并進行 3 輪迭代。與 EQ-Bench 類似,評分同時基于評分細則(rubrics)和模型對戰(zhàn)的歸一化 Elo 分數(shù)進行計算。

結果顯示,Grok 4.1 的推理模式和非推理模式位居基準測試第二和第三名,僅次于早期 GPT 5.1



以下示例展示了 Grok 4.1 在創(chuàng)意寫作提示下的回答方式:



減少幻覺

配備搜索工具的 Fast(非推理)模型能夠提供即時答案,但由于推理深度受限、工具調用次數(shù)有限,它們更容易出現(xiàn)事實性錯誤。

在 Grok 4.1 的后訓練過程中,xAI 著重降低了信息查詢類提示的事實幻覺。隨后,xAI 在抽樣的生產環(huán)境信息查詢提示中觀察到了幻覺率的顯著下降。

xAI 使用來自生產流量的真實信息查詢請求,按類別分層抽樣評估模型幻覺率。同時,也評測了 FActScore —— 一個包含 500 個關于不同人物的傳記類問題的公共基準測試。



更多 Grok 4.1 的技術細節(jié)請參閱模型卡:



模型卡地址:https://data.x.ai/2025-11-17-grok-4-1-model-card.pdf

官方博客:https://x.ai/news/grok-4-1#silent-rollout-november-114-2025

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
鐘麗緹168cm的大塊頭,一般男人征服不了她吧?

鐘麗緹168cm的大塊頭,一般男人征服不了她吧?

喜歡歷史的阿繁
2025-11-18 08:58:49
王大陸當庭認罪,鞠躬道歉

王大陸當庭認罪,鞠躬道歉

揚子晚報
2025-11-18 11:18:14
對勇士一戰(zhàn)出現(xiàn)傷情!文班亞馬已確診左小腿拉傷:至少將缺戰(zhàn)兩周

對勇士一戰(zhàn)出現(xiàn)傷情!文班亞馬已確診左小腿拉傷:至少將缺戰(zhàn)兩周

羅說NBA
2025-11-18 06:43:57
社評:德國副總理訪華的正常與不尋常

社評:德國副總理訪華的正常與不尋常

環(huán)球網(wǎng)資訊
2025-11-18 00:06:14
兩家中國公司投產2nm芯片!

兩家中國公司投產2nm芯片!

新浪財經
2025-11-17 14:33:37
網(wǎng)友們發(fā)現(xiàn)了一個科研界騙子,他叫郭偉

網(wǎng)友們發(fā)現(xiàn)了一個科研界騙子,他叫郭偉

清暉有墨
2025-11-17 19:03:52
山姆會員店回應選品像普通超市

山姆會員店回應選品像普通超市

界面新聞
2025-11-18 00:05:03
小天才手表,背刺中國家長

小天才手表,背刺中國家長

金角財經
2025-11-17 16:19:49
重磅!朝鮮將在臺海爆發(fā)戰(zhàn)爭時保衛(wèi)中國,以防美國及其盟友參戰(zhàn)

重磅!朝鮮將在臺海爆發(fā)戰(zhàn)爭時保衛(wèi)中國,以防美國及其盟友參戰(zhàn)

環(huán)球熱點快評
2025-11-17 16:31:34
今夜歐洲世預賽收官:11隊爭5個世界杯名額!西班牙若輸0-6也出線

今夜歐洲世預賽收官:11隊爭5個世界杯名額!西班牙若輸0-6也出線

球場沒跑道
2025-11-18 08:50:46
中日交涉開始,最大輸家提前浮現(xiàn),不是高市早苗,日本民調一邊倒

中日交涉開始,最大輸家提前浮現(xiàn),不是高市早苗,日本民調一邊倒

時時有聊
2025-11-17 20:11:23
為啥第三次世界大戰(zhàn),遲遲沒爆發(fā)?溫鐵軍給出背脊發(fā)涼的解釋!

為啥第三次世界大戰(zhàn),遲遲沒爆發(fā)?溫鐵軍給出背脊發(fā)涼的解釋!

沈言論
2025-11-17 16:30:03
25歲投奔蔣介石,47歲在淮海戰(zhàn)役中自盡,毛主席叮囑粟裕:厚葬他

25歲投奔蔣介石,47歲在淮海戰(zhàn)役中自盡,毛主席叮囑粟裕:厚葬他

簡史檔案館
2025-11-17 11:05:03
中國準備打一場反侵略戰(zhàn)爭,解放軍發(fā)文,不會保證日本本土的安全

中國準備打一場反侵略戰(zhàn)爭,解放軍發(fā)文,不會保證日本本土的安全

影孖看世界
2025-11-16 20:05:08
中日關系緊張之下,大量中國游客依然選擇赴日!這又是為什么呢?

中日關系緊張之下,大量中國游客依然選擇赴日!這又是為什么呢?

翻開歷史和現(xiàn)實
2025-11-18 10:14:27
泰王訪華實屬無奈?開口就是三大需求,中國不會輕易松口

泰王訪華實屬無奈?開口就是三大需求,中國不會輕易松口

古事尋蹤記
2025-11-17 07:28:16
從雙 11 增長數(shù)字復盤淘天這一年

從雙 11 增長數(shù)字復盤淘天這一年

晚點LatePost
2025-11-14 22:51:48
300個娃,“中國首父”的瓜徹底藏不住了!

300個娃,“中國首父”的瓜徹底藏不住了!

深藍財經
2025-11-17 19:18:30
震驚!一“博導”僅高中學歷,包裝成外國院士、大獎獲得者被抓了

震驚!一“博導”僅高中學歷,包裝成外國院士、大獎獲得者被抓了

火山詩話
2025-11-18 07:20:30
中日關系緊張:大量中國游客依然赴日!網(wǎng)友:富士山下都是中國人

中日關系緊張:大量中國游客依然赴日!網(wǎng)友:富士山下都是中國人

影像溫度
2025-11-17 16:12:46
2025-11-18 12:20:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
11740文章數(shù) 142506關注度
往期回顧 全部

科技要聞

馬斯克破防了!貝索斯62億美金入局"實體AI"

頭條要聞

"中方沒有G20見高市早苗計劃" 外交部回答斬釘截鐵

頭條要聞

"中方沒有G20見高市早苗計劃" 外交部回答斬釘截鐵

體育要聞

直到退役那天,“海灣梅西”也沒去歐洲踢球

娛樂要聞

曝喻恩泰離婚2年前轉移走300箱茅臺?

財經要聞

青云租陷兌付危機 集資與放貸的雙面生意

汽車要聞

更加豪華 更加全地形 極石ADAMAS

態(tài)度原創(chuàng)

教育
游戲
時尚
藝術
公開課

教育要聞

從西工大輔導員招錄看學歷膨脹現(xiàn)象:清一色名校博士

魔獸世界時光服:團本前五大必入飾品,你最想要拿到哪一款?

聽說冷帽是“美女檢驗神器”?

藝術要聞

優(yōu)雅浪漫的繪畫,美到讓人想直接住進去!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 蜜臀在线播放一区在线播放| 欧美乱伦性爱网XXX| 精品乱人伦一区二区三区| 极品少妇脚交XXXXⅩHD| v与子敌伦刺激对白播放| 成人高潮毛片不卡毛片一二三四区| 亚洲视频经典| 国产精品视频熟女韵味| 一区一区三区四区18| 5月6月婷婷丁香| 亚洲成A人V欧美综合| 国产精品亚洲二区在线看| 国产极品美女高潮无套0410| 98色婷婷在线| 兰州熟女高潮嗷嗷叫| 黑人无码av| 九九热com| 免費日B视頻| 亚洲国产精品无码一区绿茶Av| 一边摸一边叫床一边爽| 国产伦精品一区二区三区在线观看网址 | 人人爽人人澡人人人人妻那u还没| 美国农夫导航激情| 色噜噜噜亚洲男人的天堂| 国产在线精品欧美日韩电影| CHINA国语对白刺激VIDEOS| 夜色阁亚洲一区二区三区| 日韩视频一区| 麻豆AV毛片在线观看| 国产av最新地址| 99精品高跟| 亚洲国产成人av国产自| 国产精品一区二区奇米777| 最新精品国偷自产在线老年人| 国产精品久久久久久久久久直播| 少妇激情无码av| 精品中文字幕一区| 中日韩中文字幕一区二区| 精品少妇肉体| 欧美做受高潮lu8久久| 精品国产AV无码一道|