網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Claude 4.5 剛剛發(fā)布，能連肝 30 多個小時，史上最卷 AI 誕生

2025-09-30 08:16:47　來源: 愛范兒

廣東舉報(bào)

分享至

論卷編程，還得看 Claude。

就在剛剛，Anthropic 正式發(fā)布 Claude Sonnet 4.5。

先說 Claude Sonnet 4.5 交出的成績單，在考察真實(shí)編程水平的 SWE-bench Verified 測試?yán)铮珻laude Sonnet 4.5 直接登頂業(yè)界第一。

更離譜的是，它能連續(xù)專注干活超過 30 小時。

好好好，AI 取代人類的優(yōu)勢又 +1 了。

比如讓它寫個類似 Slack 或 Teams 的聊天應(yīng)用，它能一口氣敲出大約 1.1 萬行代碼。相比之下，之前的 Claude Opus 4 和 Codex，最多也就能獨(dú)立工作七小時。

用 Anthropic 的話來說，Claude Sonnet 4.5 現(xiàn)在就是全球最強(qiáng)編程模型——構(gòu)建復(fù)雜智能體、操作電腦、推理和數(shù)學(xué)，各項(xiàng)能力都狠狠提升了一波。

比方說，在 OSWorld 這個專門測試真實(shí)計(jì)算機(jī)任務(wù)的基準(zhǔn)里，它拿下了 61.4% 的成績，直接第一。要知道，四個月前 Sonnet 4 還以 42.2% 的成績遙遙領(lǐng)先，這才多久性能就又往上抬了一大截。

而 Anthropic 的 Claude Chrome 插件甚至能直接在瀏覽器里自己導(dǎo)航網(wǎng)站、填表格、處理任務(wù)，像個真人在操作似的。推理、金融這些測評項(xiàng)目上也都更強(qiáng)了，各項(xiàng)指標(biāo)都在往上漲。

有了這么強(qiáng)的能力，Anthropic 這次自然不會只發(fā)個模型就完事。

具體來看：

Claude Code加了「檢查點(diǎn)」功能，能隨時保存進(jìn)度，想回退到之前某個狀態(tài)一鍵搞定
終端界面翻新，還發(fā)布了原生 VS Code 插件
Claude API 增加了上下文編輯功能和記憶工具
代碼執(zhí)行和文件創(chuàng)建現(xiàn)在直接整合到對話里

甚至，Anthropic 把自己內(nèi)部用來搭建 Claude Code 的底層基礎(chǔ)設(shè)施也開放出來了，叫 Claude Agent SDK。

智能體怎么在長時間任務(wù)里管理記憶、怎么設(shè)計(jì)權(quán)限系統(tǒng)讓自主性和用戶控制找到平衡點(diǎn)、怎么讓多個子智能體配合著完成目標(biāo)，這些都是構(gòu)建和設(shè)計(jì) AI 智能體的棘手問題。

而借助 Claude Agent SDK，現(xiàn)在你也能拿去構(gòu)建自己的產(chǎn)品。

今天起，開發(fā)者還可以通過 Claude API 調(diào)用 claude-sonnet-4-5。定價還是跟 Claude Sonnet 4 一樣，每百萬 tokens $3/$15，價格沒變能力更強(qiáng)。

網(wǎng)友 @vasumanmoza 體驗(yàn)完直接發(fā)帖：

「Claude 4.5 Sonnet 剛在一次調(diào)用里重構(gòu)了我整個代碼庫，25 次工具調(diào)用，新增 3000 多行代碼，生成了 12 個全新文件。它把所有東西都模塊化了，拆掉了巨石式結(jié)構(gòu)，清理了意大利面條式代碼。結(jié)果完全跑不通，但天啊真的很優(yōu)雅。」這評價，屬于又愛又恨那種。

Cursor 表示，在 Claude Sonnet 4.5 上看到了最前沿的編程性能，尤其處理長周期任務(wù)時提升明顯。這也再次說明為什么很多 Cursor 用戶會選 Claude 來解決最復(fù)雜的問題。

知名測評博主 Dan Shipper 則表示，新版 Sonnet 4.5 在使用體驗(yàn)上響應(yīng)速度更快，可控性更強(qiáng)，也更穩(wěn)定。

性能強(qiáng)是一方面，安全性也得跟上。

據(jù)介紹，Claude Sonnet 4.5 也是 Anthropic 到目前為止對齊度最高的前沿模型。

靠著 Claude 更強(qiáng)的能力加上完善的安全訓(xùn)練，Anthropic 在模型行為上取得了顯著改進(jìn)，減少了阿諛奉承、欺騙、權(quán)力追求、鼓勵妄想等行為。此外，Anthropic 在防御提示注入攻擊和減少內(nèi)容誤判這塊也有了重大突破。

比較讓我感興趣的是，Anthropic 還在 Claude Sonnet 4.5 發(fā)布的同時推出了個臨時研究預(yù)覽功能，叫「Imagine with Claude」。

在這個功能里，Claude 會實(shí)時生成軟件，所有功能不是預(yù)設(shè)的，所有代碼也不是提前寫好的。你看到的一切都是 Claude 跟你互動時當(dāng)場創(chuàng)造和調(diào)整出來的。

不過，「Imagine with Claude」接下來五天內(nèi)只會對 Max 訂閱用戶開放。

附上傳送門 claude.ai/imagine。

毫無疑問，今年的 AI 賽道依舊是卷編程的一年。

目前 Anthropic 估值已經(jīng)到了 1830 億美元，8 月還實(shí)現(xiàn)了年化營收 50 億美元，但這其中相當(dāng)一部分增長靠著來自編程軟件的普及。問題是，老對手 OpenAI 和 Google Gemini 也在瘋狂推類似工具搶程序員用戶。

甚至一周之后就是 OpenAI 年度開發(fā)者大會，Anthropic 這個時候搶先發(fā)布 Claude Sonnet 4.5，時間卡得夠精準(zhǔn)，明擺著就是要給對手上一波壓力。

此外，Anthropic 聯(lián)合創(chuàng)始人兼首席科學(xué)官 Jared Kaplan 還表示，更先進(jìn)的 Opus 模型，預(yù)計(jì)今年晚些時候推出：「Anthropic 在大小模型的使用上都能占優(yōu)勢?！?/p>

不過有一說一，Anthropic 自己眼下也有麻煩要解決。

過去兩個月，Claude 系列模型剛經(jīng)歷了一場「降智」風(fēng)波。用戶普遍反映模型推理、代碼、格式和工具調(diào)用質(zhì)量斷崖式下滑，連付費(fèi)的 Max 用戶都沒能幸免。

雖然 Anthropic 后來緊急回滾了 Opus 4.1 更新，還承認(rèn)了兩個獨(dú)立 Bug，聲明「絕非為省成本故意降智」，但由于沒提供補(bǔ)償或退款，GitHub 和 X 等平臺上還是出現(xiàn)了退訂潮，不少用戶直接轉(zhuǎn)投 Codex。

這次 Claude Sonnet 4.5 的發(fā)布，顯然就是 Anthropic 想用實(shí)打?qū)嵉男阅芴嵘齺硗旎亓魇У挠脩?。至于能不能成功，就看接下來幾周的?shí)際表現(xiàn)了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.