論卷編程,還得看 Claude。
就在剛剛,Anthropic 正式發(fā)布 Claude Sonnet 4.5。
先說 Claude Sonnet 4.5 交出的成績單,在考察真實(shí)編程水平的 SWE-bench Verified 測試?yán)铮珻laude Sonnet 4.5 直接登頂業(yè)界第一。
更離譜的是,它能連續(xù)專注干活超過 30 小時。
好好好,AI 取代人類的優(yōu)勢又 +1 了。
比如讓它寫個類似 Slack 或 Teams 的聊天應(yīng)用,它能一口氣敲出大約 1.1 萬行代碼。相比之下,之前的 Claude Opus 4 和 Codex,最多也就能獨(dú)立工作七小時。
用 Anthropic 的話來說,Claude Sonnet 4.5 現(xiàn)在就是全球最強(qiáng)編程模型——構(gòu)建復(fù)雜智能體、操作電腦、推理和數(shù)學(xué),各項(xiàng)能力都狠狠提升了一波。
比方說,在 OSWorld 這個專門測試真實(shí)計(jì)算機(jī)任務(wù)的基準(zhǔn)里,它拿下了 61.4% 的成績,直接第一。要知道,四個月前 Sonnet 4 還以 42.2% 的成績遙遙領(lǐng)先,這才多久性能就又往上抬了一大截。
而 Anthropic 的 Claude Chrome 插件甚至能直接在瀏覽器里自己導(dǎo)航網(wǎng)站、填表格、處理任務(wù),像個真人在操作似的。推理、金融這些測評項(xiàng)目上也都更強(qiáng)了,各項(xiàng)指標(biāo)都在往上漲。
有了這么強(qiáng)的能力,Anthropic 這次自然不會只發(fā)個模型就完事。
具體來看:
- Claude Code加了「檢查點(diǎn)」功能,能隨時保存進(jìn)度,想回退到之前某個狀態(tài)一鍵搞定
- 終端界面翻新,還發(fā)布了原生 VS Code 插件
- Claude API 增加了上下文編輯功能和記憶工具
- 代碼執(zhí)行和文件創(chuàng)建現(xiàn)在直接整合到對話里
甚至,Anthropic 把自己內(nèi)部用來搭建 Claude Code 的底層基礎(chǔ)設(shè)施也開放出來了,叫 Claude Agent SDK。
智能體怎么在長時間任務(wù)里管理記憶、怎么設(shè)計(jì)權(quán)限系統(tǒng)讓自主性和用戶控制找到平衡點(diǎn)、怎么讓多個子智能體配合著完成目標(biāo),這些都是構(gòu)建和設(shè)計(jì) AI 智能體的棘手問題。
而借助 Claude Agent SDK,現(xiàn)在你也能拿去構(gòu)建自己的產(chǎn)品。
今天起,開發(fā)者還可以通過 Claude API 調(diào)用 claude-sonnet-4-5。定價還是跟 Claude Sonnet 4 一樣,每百萬 tokens $3/$15,價格沒變能力更強(qiáng)。
網(wǎng)友 @vasumanmoza 體驗(yàn)完直接發(fā)帖:
「Claude 4.5 Sonnet 剛在一次調(diào)用里重構(gòu)了我整個代碼庫,25 次工具調(diào)用,新增 3000 多行代碼,生成了 12 個全新文件。它把所有東西都模塊化了,拆掉了巨石式結(jié)構(gòu),清理了意大利面條式代碼。結(jié)果完全跑不通,但天啊真的很優(yōu)雅。」這評價,屬于又愛又恨那種。
Cursor 表示,在 Claude Sonnet 4.5 上看到了最前沿的編程性能,尤其處理長周期任務(wù)時提升明顯。這也再次說明為什么很多 Cursor 用戶會選 Claude 來解決最復(fù)雜的問題。
知名測評博主 Dan Shipper 則表示,新版 Sonnet 4.5 在使用體驗(yàn)上響應(yīng)速度更快,可控性更強(qiáng),也更穩(wěn)定。
性能強(qiáng)是一方面,安全性也得跟上。
據(jù)介紹,Claude Sonnet 4.5 也是 Anthropic 到目前為止對齊度最高的前沿模型。
靠著 Claude 更強(qiáng)的能力加上完善的安全訓(xùn)練,Anthropic 在模型行為上取得了顯著改進(jìn),減少了阿諛奉承、欺騙、權(quán)力追求、鼓勵妄想等行為。此外,Anthropic 在防御提示注入攻擊和減少內(nèi)容誤判這塊也有了重大突破。
比較讓我感興趣的是,Anthropic 還在 Claude Sonnet 4.5 發(fā)布的同時推出了個臨時研究預(yù)覽功能,叫「Imagine with Claude」。
在這個功能里,Claude 會實(shí)時生成軟件,所有功能不是預(yù)設(shè)的,所有代碼也不是提前寫好的。你看到的一切都是 Claude 跟你互動時當(dāng)場創(chuàng)造和調(diào)整出來的。
不過,「Imagine with Claude」接下來五天內(nèi)只會對 Max 訂閱用戶開放。
附上傳送門 claude.ai/imagine。
毫無疑問,今年的 AI 賽道依舊是卷編程的一年。
目前 Anthropic 估值已經(jīng)到了 1830 億美元,8 月還實(shí)現(xiàn)了年化營收 50 億美元,但這其中相當(dāng)一部分增長靠著來自編程軟件的普及。問題是,老對手 OpenAI 和 Google Gemini 也在瘋狂推類似工具搶程序員用戶。
甚至一周之后就是 OpenAI 年度開發(fā)者大會,Anthropic 這個時候搶先發(fā)布 Claude Sonnet 4.5,時間卡得夠精準(zhǔn),明擺著就是要給對手上一波壓力。
此外,Anthropic 聯(lián)合創(chuàng)始人兼首席科學(xué)官 Jared Kaplan 還表示,更先進(jìn)的 Opus 模型,預(yù)計(jì)今年晚些時候推出:「Anthropic 在大小模型的使用上都能占優(yōu)勢?!?/p>
不過有一說一,Anthropic 自己眼下也有麻煩要解決。
過去兩個月,Claude 系列模型剛經(jīng)歷了一場「降智」風(fēng)波。用戶普遍反映模型推理、代碼、格式和工具調(diào)用質(zhì)量斷崖式下滑,連付費(fèi)的 Max 用戶都沒能幸免。
雖然 Anthropic 后來緊急回滾了 Opus 4.1 更新,還承認(rèn)了兩個獨(dú)立 Bug,聲明「絕非為省成本故意降智」,但由于沒提供補(bǔ)償或退款,GitHub 和 X 等平臺上還是出現(xiàn)了退訂潮,不少用戶直接轉(zhuǎn)投 Codex。
這次 Claude Sonnet 4.5 的發(fā)布,顯然就是 Anthropic 想用實(shí)打?qū)嵉男阅芴嵘齺硗旎亓魇У挠脩?。至于能不能成功,就看接下來幾周的?shí)際表現(xiàn)了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.