夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

太卷了!專屬Coding的新一代Arena榜單來(lái)了,有國(guó)產(chǎn)模型登上榜首

0
分享至




機(jī)器之心報(bào)道

編輯:冷貓、+0

大模型編程最近太猛了。

自從編碼成了大模型的核心能力后,各大模型廠商都卷得要命,從卷模型參數(shù)和性能,到卷開發(fā)工具鏈,編碼能力的提升,簡(jiǎn)直是一場(chǎng)軍備競(jìng)賽。

近幾個(gè)月以來(lái),以 Claude 4.5、GLM-4.6、kimi-k2 等為代表的編碼模型,都具備了執(zhí)行復(fù)雜項(xiàng)目開發(fā),構(gòu)建真實(shí)應(yīng)用程序的能力。

卷模型能力只是個(gè)開始,各大廠商也已全面進(jìn)軍智能編碼產(chǎn)品,各類 IDE 產(chǎn)品層出不窮。就連服務(wù)套餐也開始卷出「和 AI 砍價(jià)」的新花樣,智能編程領(lǐng)域逐漸成為了新的紅海。

在模型能力飛漲的情況下,業(yè)界知名的大模型公共基準(zhǔn)測(cè)試平臺(tái) LMArena 也敏銳地意識(shí)到,「問(wèn)題已經(jīng)不再是模型能否編寫代碼,而是它如何端到端構(gòu)建真實(shí)應(yīng)用程序。」

這個(gè)匯集了全球數(shù)百萬(wàn)用戶真實(shí)反饋的「盲測(cè)」競(jìng)技場(chǎng),其榜單排名已成為各大 AI 公司新模型宣發(fā)時(shí)彰顯實(shí)力的「標(biāo)配」。

就在今天,LMArena 做出了今年最大的更新,發(fā)布了新世代大模型編碼評(píng)估系統(tǒng):Code Arena,這可以說(shuō)是編程大模型能力評(píng)估領(lǐng)域的重大事件。



曾經(jīng)大模型編碼的「黃金標(biāo)準(zhǔn)」WebDev Arena 是首個(gè)引入大規(guī)模、人機(jī)協(xié)同的 AI 編碼基準(zhǔn)測(cè)試的榜單。開發(fā)者可以觀察模型構(gòu)建真實(shí)應(yīng)用程序、與輸出交互并對(duì)性能進(jìn)行投票,使評(píng)估過(guò)程更具參與性和透明度。

相比于舊時(shí)代的 WebDev Arena 編碼榜單,Code Arena 從底層重構(gòu)而成,它不僅評(píng)估代碼是否能運(yùn)行,更評(píng)估其性能表現(xiàn)、交互自然度,以及對(duì)設(shè)計(jì)意圖的忠實(shí)程度。

最重要的是,這個(gè)新系統(tǒng)測(cè)量的是「代碼的動(dòng)態(tài)過(guò)程」—— 捕捉模型在真實(shí)開發(fā)條件下如何思考、規(guī)劃與構(gòu)建的全過(guò)程。這不是靜態(tài)基準(zhǔn)測(cè)試。這是在真實(shí)世界中由真實(shí) Arena 用戶進(jìn)行的實(shí)際評(píng)估

Code Arena 的發(fā)布,標(biāo)志著大模型編碼評(píng)估標(biāo)準(zhǔn)的又一次進(jìn)化,重塑了大模型評(píng)估的標(biāo)桿。

在這個(gè)全新的榜單里,我們驚喜地發(fā)現(xiàn),國(guó)產(chǎn)大模型智譜 GLM-4.6 赫然列于榜首,超越了 Gemini 和 Grok,與 Claude、GPT-5 并列排名第一



智譜 GLM-4.6 于9 月 30 日發(fā)布,一登場(chǎng)便以媲美 Claude Sonnet 4 的卓越編碼能力,成為彼時(shí)的「國(guó)內(nèi)最強(qiáng) Coding 模型」。



時(shí)隔一個(gè)半月,GLM-4.6 的 Coding 能力仍能在最新發(fā)布的編程評(píng)估榜單中,與 Claude、GPT-5 并列第一,持續(xù)領(lǐng)跑全球第一梯隊(duì),足見其穩(wěn)定,超前的編碼能力。

事實(shí)上,其實(shí)力早已得到驗(yàn)證。

10 月初,就在 GLM 4.6 發(fā)布幾天后,編程智能體 Cline 的產(chǎn)品經(jīng)理 Nick Baumann 發(fā)帖表示,根據(jù) Cline 遙測(cè)數(shù)據(jù)對(duì)數(shù)百萬(wàn)次「diff edits」(代碼修改)操作的分析,zAI 的 GLM-4.6 模型達(dá)到了 94.9% 的成功率,而 Anthropic 的 Claude Sonnet 4.5 成功率為 96.2%。



他認(rèn)為,這一數(shù)據(jù)意義重大,因?yàn)榫驮谌齻€(gè)月前,(開放)開源模型與頂尖閉源模型在同類任務(wù)上的性能差距還高達(dá) 5 到 10 個(gè)百分點(diǎn)。而現(xiàn)在,這個(gè)差距已經(jīng)縮小到了「基點(diǎn)」(basis points),表明兩者在最困難的編碼任務(wù)之一上的能力正在迅速趨同。

此外,Baumann 提到 Cline 的社區(qū)用戶中已經(jīng)出現(xiàn)了轉(zhuǎn)向使用 GLM-4.6 完成日常工作的熱潮。

有趣的是,AI 編程獨(dú)角獸 Cognition 近期推出的最新 AI 模型 SWE-1.5,被質(zhì)疑是基于 GLM 4.6 模型進(jìn)行定制(精調(diào) / 強(qiáng)化學(xué)習(xí)),并運(yùn)行在全球最大的 AI 推理芯片公司 Cerebras 的硬件上。



有人對(duì) SWE 1.5 進(jìn)行了大模型「越獄」,結(jié)果模型直接回答自己是智譜 AI 開發(fā)的 GLM 大模型。

而值得一提的是,Cerebras 決定將 GLM-4.6 作為默認(rèn)推薦模型,其在給所有用戶的郵件中表示:qwen-3-coder-480b 將于 2025 年 11 月 5 日被停止使用,同時(shí)推出 GLM-4.6 作為新的基座模型。



以上 GLM-4.6 的光輝戰(zhàn)績(jī),不僅證明了其作為開源世界「最強(qiáng) Coding 模型」受到廣泛認(rèn)可,更讓業(yè)界再次見證了國(guó)產(chǎn)大模型的硬核實(shí)力。

正如 Cline 產(chǎn)品經(jīng)理所觀察到的,從幾個(gè)月前的「5 到 10 個(gè)百分點(diǎn)」差距,到如今的「基點(diǎn)」之差,這背后是國(guó)產(chǎn)力量從「追趕」到「并跑」乃至「領(lǐng)跑」的驚人加速度。

在過(guò)去由 Llama 系列主導(dǎo)的開源開放生態(tài)中,以 DeepSeek、Qwen、GLM、Kimi 等為代表的中國(guó)開源模型,正憑借其卓越的性能和極高的成本效益,成為全球 AI 開發(fā)者的新選擇。

這,正是國(guó)產(chǎn)大模型力量崛起的最佳注腳。

https://x.com/nickbaumann_/status/1973846157886697771

https://x.com/arena/status/1988665199000498369

https://news.lmarena.ai/code-arena/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
世預(yù)賽:2-0大冷門,世界第133掀翻世界第64,倒數(shù)第一掀翻領(lǐng)頭羊

世預(yù)賽:2-0大冷門,世界第133掀翻世界第64,倒數(shù)第一掀翻領(lǐng)頭羊

側(cè)身凌空斬
2025-11-14 12:14:48
雷軍采訪稱,很多人都說(shuō)我真誠(chéng),小米基本沒(méi)營(yíng)銷團(tuán)隊(duì)

雷軍采訪稱,很多人都說(shuō)我真誠(chéng),小米基本沒(méi)營(yíng)銷團(tuán)隊(duì)

公子麥少
2025-11-14 14:22:31
人不會(huì)無(wú)故患上帶狀皰疹?調(diào)查發(fā)現(xiàn):患帶狀皰疹,背后有4個(gè)原因

人不會(huì)無(wú)故患上帶狀皰疹?調(diào)查發(fā)現(xiàn):患帶狀皰疹,背后有4個(gè)原因

涵豆說(shuō)娛
2025-10-23 09:31:22
網(wǎng)友發(fā)帖稱中獎(jiǎng)1200萬(wàn)卻被騙光,彩票店老板回應(yīng):中獎(jiǎng)人是一中年男子,曾買300萬(wàn)新房

網(wǎng)友發(fā)帖稱中獎(jiǎng)1200萬(wàn)卻被騙光,彩票店老板回應(yīng):中獎(jiǎng)人是一中年男子,曾買300萬(wàn)新房

每日經(jīng)濟(jì)新聞
2025-11-13 17:22:39
赴大陸前被美國(guó)約談,鄭麗文真實(shí)面目曝光?國(guó)臺(tái)辦兩個(gè)決不定調(diào)

赴大陸前被美國(guó)約談,鄭麗文真實(shí)面目曝光?國(guó)臺(tái)辦兩個(gè)決不定調(diào)

董董歷史燴
2025-11-13 11:58:31
高市早苗通知全球,不撤回涉臺(tái)言論,話音剛落,解放軍攻擊11亮相

高市早苗通知全球,不撤回涉臺(tái)言論,話音剛落,解放軍攻擊11亮相

青煙小先生
2025-11-14 16:16:14
霍震霆沒(méi)想到,官宣新身份才三個(gè)月,兒媳郭晶晶再次讓闊太圈沉默

霍震霆沒(méi)想到,官宣新身份才三個(gè)月,兒媳郭晶晶再次讓闊太圈沉默

東方不敗然多多
2025-11-14 00:55:03
美國(guó)人評(píng)中越戰(zhàn)爭(zhēng):越南一線15萬(wàn)地方師,戰(zhàn)斗力遠(yuǎn)超中國(guó)正規(guī)軍

美國(guó)人評(píng)中越戰(zhàn)爭(zhēng):越南一線15萬(wàn)地方師,戰(zhàn)斗力遠(yuǎn)超中國(guó)正規(guī)軍

正觀歷史
2025-11-12 13:38:40
25次落?。⊥醭J全運(yùn)遇樊振東考驗(yàn),奪冠路難上加難?

25次落??!王楚欽全運(yùn)遇樊振東考驗(yàn),奪冠路難上加難?

番茄體壇
2025-11-14 16:39:15
高市早苗拒不認(rèn)錯(cuò),日本通知中國(guó),不解決問(wèn)題,就驅(qū)逐中方外交官

高市早苗拒不認(rèn)錯(cuò),日本通知中國(guó),不解決問(wèn)題,就驅(qū)逐中方外交官

泠泠說(shuō)史
2025-11-14 14:22:22
14歲武校生捅刺教練致死二審改判6年 判決書:他沒(méi)想殺人,犯罪與家庭教育失當(dāng)有關(guān)

14歲武校生捅刺教練致死二審改判6年 判決書:他沒(méi)想殺人,犯罪與家庭教育失當(dāng)有關(guān)

紅星新聞
2025-11-13 18:40:42
掛牌督辦!惠州一小區(qū)地下車庫(kù)發(fā)生事故致1人死亡

掛牌督辦!惠州一小區(qū)地下車庫(kù)發(fā)生事故致1人死亡

南方都市報(bào)
2025-11-14 14:18:12
大霧掩護(hù)下,俄“廢土大軍”開進(jìn)紅軍城,這畫風(fēng)太有意思了

大霧掩護(hù)下,俄“廢土大軍”開進(jìn)紅軍城,這畫風(fēng)太有意思了

戰(zhàn)風(fēng)
2025-11-12 10:52:15
糖尿病離世的人越來(lái)越多!醫(yī)生多次苦勸:少吃西紅柿,多吃這6物

糖尿病離世的人越來(lái)越多!醫(yī)生多次苦勸:少吃西紅柿,多吃這6物

健身狂人
2025-11-12 14:10:12
人到中年,要改掉抽“小粗煙”習(xí)慣,什么是“小粗煙”?建議了解

人到中年,要改掉抽“小粗煙”習(xí)慣,什么是“小粗煙”?建議了解

神牛
2025-11-13 15:10:45
無(wú)解的陽(yáng)謀!菲律賓傻眼,美國(guó)做夢(mèng)也不敢想,黃巖島中國(guó)會(huì)這樣干

無(wú)解的陽(yáng)謀!菲律賓傻眼,美國(guó)做夢(mèng)也不敢想,黃巖島中國(guó)會(huì)這樣干

老謝談史
2025-11-11 20:30:02
被新廠長(zhǎng)當(dāng)眾開除,10分鐘后工廠3億生產(chǎn)線癱瘓,女總裁跪求出手

被新廠長(zhǎng)當(dāng)眾開除,10分鐘后工廠3億生產(chǎn)線癱瘓,女總裁跪求出手

云端書館
2025-11-14 09:40:37
32歲女子負(fù)債30萬(wàn)快還不上了,工作還是體制內(nèi),網(wǎng)友:錢花哪里了

32歲女子負(fù)債30萬(wàn)快還不上了,工作還是體制內(nèi),網(wǎng)友:錢花哪里了

唐小糖說(shuō)情感
2025-11-07 08:47:59
11.14,廖元赫勝樸廷桓,晉級(jí)決賽!第30屆三星杯半決賽!

11.14,廖元赫勝樸廷桓,晉級(jí)決賽!第30屆三星杯半決賽!

生活新鮮市
2025-11-14 15:07:27
中國(guó)的憤怒在升級(jí)

中國(guó)的憤怒在升級(jí)

牛彈琴
2025-11-14 07:06:36
2025-11-14 17:16:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
11714文章數(shù) 142505關(guān)注度
往期回顧 全部

科技要聞

京東“失去的五年”后,找到新增長(zhǎng)了嗎?

頭條要聞

29歲程序員疑被騙至東南亞 出租屋內(nèi)留下一張神秘紙條

頭條要聞

29歲程序員疑被騙至東南亞 出租屋內(nèi)留下一張神秘紙條

體育要聞

40歲C羅肘擊染紅 離場(chǎng)時(shí)怒罵對(duì)手主帥

娛樂(lè)要聞

《國(guó)色天香》編劇發(fā)長(zhǎng)文質(zhì)疑古二?

財(cái)經(jīng)要聞

統(tǒng)計(jì)局:前10月房地產(chǎn)開發(fā)投資下降14.7%

汽車要聞

小鵬X9超級(jí)增程動(dòng)態(tài)評(píng)測(cè)全網(wǎng)首發(fā) 高速實(shí)測(cè)車內(nèi)65分貝

態(tài)度原創(chuàng)

游戲
本地
健康
教育
房產(chǎn)

更大地圖要來(lái)了!《戰(zhàn)地6》官方談地圖問(wèn)題

本地新聞

云游安徽 | 江聲浩蕩閱千年,文脈相承看蕪湖

金振口服液助力科學(xué)應(yīng)對(duì)呼吸道疾病

教育要聞

九宮格填數(shù)字,四年級(jí)三階幻方

房產(chǎn)要聞

共話產(chǎn)業(yè)變革下的投資新思維與新機(jī)遇|藍(lán)灣財(cái)富論壇精華

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 少妇的大白屁股一区丁香| 国内精品免费视频自在线拍| 亚洲一区二区三区啪啪| 亚洲AV无码精品无码麻豆孕妇| 日本黄页网站免费观看| 在线看片无码永久免费aⅴ| 欧美人与动交zozo| 久久久久久国产精品无码下载 | 精品国产乱码久久久久久下载| 国产成人成网站在线播放青青| 亚洲人成伊人成综合网久久久| 欧美啪啪精品| 国产wwwⅹⅹⅹ| .欧美28P| av天堂久久天堂av| 51午夜福利影视在线观看| 美女扒开屁股让男人桶| 中文字幕精品亚洲无线码二区| 东京热毛片无码DVD一二三区| 国产无码久久久久久久| 日本sm极度另类视频| 在线天堂最新版资源| 国产成人一区二区视频免费| free性丰满video性中国| 国产精品午夜福利精品| 4399日本在线观看完整| 精产品久久久久久久9999| 一本色综合久久| 久久夜色撩人精品国产av| 西西偷拍一区| 久久男人av| 亚洲色在线网址| 黑人大战中国少妇XXX| 日韩av 丝袜人妻| 久久精品国产亚洲αv忘忧草| 四虎久久免费网站| 成人黄色网址| 产综合无码一区| 亚洲图片无码99| 久久精品亚洲熟女AV蜜柚小站| 香蕉久久夜色精品国产尤物|