Anthropic 深夜祭出 Claude Sonnet 4.5，能自主工作 30 小時！CEO：它更像你的同事

2025-09-30 09:11:03　來源: InfoQ

北京舉報

分享至

整理 | 冬梅

昨夜凌晨，人工智能企業(yè) Anthropic 正式推出新一代模型 Claude Sonnet 4.5，官方直言其為 “世界上最好的編碼模型、構建復雜代理的最強大工具、使用計算機的最佳模型”。伴隨模型發(fā)布的還有 Claude Agent SDK 開發(fā)工具包及系列產(chǎn)品升級，標志著 AI 已具備獨立完成生產(chǎn)級開發(fā)任務的能力。

Anthropic 聯(lián)合創(chuàng)始人兼首席科學官賈里德·卡普蘭 (Jared Kaplan) 在接受 CNBC 采訪時表示：“人們注意到了這種模型，因為它更智能，更像同事，遇到問題并解決問題時與它一起工作很有趣?！?/p>

該公司表示，該模型可以生成更高質量的代碼，更好地識別代碼改進，并且可以更可靠地遵循指令。

性能跑分登頂：從 “寫代碼” 到 “交付產(chǎn)品” 的跨越

Claude Sonnet 4.5 的核心突破體現(xiàn)在工程落地能力上。在衡量真實軟件編碼能力的 SWE-bench Verified 基準測試中，該模型以 77.2% 的準確率名列前茅，較前代提升近 20 個百分點。更值得關注的是其長周期任務處理能力 —— 在實測中，它能自主運行 30 小時，生成 1.1 萬行代碼，完整開發(fā)出類似釘釘?shù)钠髽I(yè)聊天應用，涵蓋數(shù)據(jù)庫配置、域名注冊、合規(guī)審計等全流程，成為首個實現(xiàn) “生產(chǎn)級交付” 的 AI 模型。

在計算機操作領域，其 OSWorld 基準測試得分從四個月前的 42.2% 躍升至 61.4%，領先行業(yè)同類產(chǎn)品。金融、法律等專業(yè)領域測試顯示，其推理能力較上一代 Opus 4.1 提升 30% 以上，數(shù)學問題解決精度顯著優(yōu)化?！坝脩魰l(fā)現(xiàn)它更像同事，合作解決問題時非常高效?！盇nthropic 研究員 Jared Kaplan 表示。

該模型還顯示出在推理和數(shù)學等廣泛評估方面的改進能力：

金融、法律、醫(yī)學和 STEM 領域的專家發(fā)現(xiàn)，與包括 Opus 4.1 在內(nèi)的舊模型相比，Sonnet 4.5 表現(xiàn)出了更出色的領域特定知識和推理能力。

產(chǎn)品生態(tài)升級：代碼開發(fā)全流程體驗重構

針對開發(fā)者核心需求，Anthropic 同步推出多項產(chǎn)品功能更新：

Claude Code 2.0：新增呼聲極高的 “檢查點” 功能，支持代碼進度保存與即時回滾，配合刷新的終端界面與原生 VS Code 擴展，大幅提升開發(fā)效率；
API 能力強化：新增上下文編輯與記憶工具，使 AI 代理的持續(xù)運行時間從 7 小時延長至 30 小時，可處理更復雜的多步驟任務；
交互體驗革新：Claude 應用內(nèi)直接集成代碼執(zhí)行與文件創(chuàng)建功能，支持在對話中生成電子表格、幻燈片等文檔；
瀏覽器拓展落地：面向上月加入候補名單的 Max 訂閱用戶，開放 Claude for Chrome 擴展程序下載使用。

開放 Agent SDK：賦能開發(fā)者構建專屬智能助手

此次發(fā)布的重磅工具 Claude Agent SDK，將 Anthropic 內(nèi)部開發(fā) Claude Code 的核心基礎設施對外開放。該工具包解決了 AI 代理開發(fā)中的三大痛點：長期任務記憶管理、自主性與用戶控制的平衡、多代理協(xié)同調(diào)度。開發(fā)者可基于此快速搭建定制化 AI 助手，覆蓋項目管理、數(shù)據(jù)處理、客戶服務等場景。

“我們把支撐前沿產(chǎn)品的構建模塊共享出來，讓開發(fā)者無需從零搭建基礎設施?！盇nthropic 首席產(chǎn)品官 Mike Krieger 介紹，該 SDK 已在 Canva 等企業(yè)的工程團隊中得到驗證，能顯著提升代碼庫管理與產(chǎn)品研究效率。

誤報率較初代模型降低 90%

據(jù)介紹，Claude Sonnet 4.5 不僅是 Anthropic 功能最強大的模型，也是 Anthropic 迄今為止最符合前沿技術的模型。Claude 的改進功能以及廣泛的安全培訓使 Anthropic 能夠顯著改善該模型的行為，減少諸如諂媚、欺騙、權力追求以及鼓勵妄想思維傾向等令人擔憂的行為。對于該模型的代理和計算機使用功能，Anthropic 在防御即時注入攻擊方面也取得了顯著進展，而即時注入攻擊是這些功能用戶面臨的最嚴重風險之一。

Claude Sonnet 4.5 通過 AI 安全等級 3（ASL-3）認證，配備化學、生物等危險內(nèi)容分類檢測器，誤報率較初代降低 90%，同時大幅減少欺騙性回答、權力尋求等風險行為。

在商業(yè)策略上，Anthropic 保持價格親民，API 調(diào)用費用與 Claude Sonnet 4 完全一致，為每百萬代幣輸入 3 美元、輸出 15 美元。開發(fā)者即日起可通過 “claude-sonnet-4-5” 接口直接調(diào)用該模型。

Anthropic 首席產(chǎn)品官 Mike Krieger 表示，Claude Sonnet 4.5 將成為用戶的默認選擇，并且 Anthropic 推薦該模型用于“基本上所有用例”。

即便如此，用戶仍然有選擇。付費用戶仍然可以選擇使用 Opus，而擁有特定工作流程的用戶如果還沒準備好在一夜之間遷移，可以選擇老一代的 Sonnet，他說道。

Krieger 補充道，Claude Sonnet 4.5 比 Claude Opus 4.1 小，但“幾乎在各個方面”都比它更智能。

行業(yè)分析師指出，Claude Sonnet 4.5 的發(fā)布標志著 AI 從 “輔助工具” 向 “獨立生產(chǎn)力” 的跨越，而開放 SDK 的舉措或將加速 AI 代理技術在各行業(yè)的落地應用。

Kaplan 說：“我認為這是我們在過去一年或一年半中看到的最大安全飛躍?！?/p>

Anthropic 即將推出更多型號。Kaplan 表示，更好的型號即將推出，其中“很可能包括 Opus”。

“不敢保證，”他說，“但我想我們年底前可能會再推出一兩部作品?！?/p>

https://www.cnbc.com/2025/09/29/anthropic-claude-ai-sonnet-4-5.html

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.