整理 | 冬梅
昨夜凌晨,人工智能企業(yè) Anthropic 正式推出新一代模型 Claude Sonnet 4.5,官方直言其為 “世界上最好的編碼模型、構建復雜代理的最強大工具、使用計算機的最佳模型”。伴隨模型發(fā)布的還有 Claude Agent SDK 開發(fā)工具包及系列產(chǎn)品升級,標志著 AI 已具備獨立完成生產(chǎn)級開發(fā)任務的能力。
Anthropic 聯(lián)合創(chuàng)始人兼首席科學官賈里德·卡普蘭 (Jared Kaplan) 在接受 CNBC 采訪時表示:“人們注意到了這種模型,因為它更智能,更像同事,遇到問題并解決問題時與它一起工作很有趣?!?/p>
該公司表示,該模型可以生成更高質量的代碼,更好地識別代碼改進,并且可以更可靠地遵循指令。
性能跑分登頂:從 “寫代碼” 到 “交付產(chǎn)品” 的跨越
Claude Sonnet 4.5 的核心突破體現(xiàn)在工程落地能力上。在衡量真實軟件編碼能力的 SWE-bench Verified 基準測試中,該模型以 77.2% 的準確率名列前茅,較前代提升近 20 個百分點。更值得關注的是其長周期任務處理能力 —— 在實測中,它能自主運行 30 小時,生成 1.1 萬行代碼,完整開發(fā)出類似釘釘?shù)钠髽I(yè)聊天應用,涵蓋數(shù)據(jù)庫配置、域名注冊、合規(guī)審計等全流程,成為首個實現(xiàn) “生產(chǎn)級交付” 的 AI 模型。
在計算機操作領域,其 OSWorld 基準測試得分從四個月前的 42.2% 躍升至 61.4%,領先行業(yè)同類產(chǎn)品。金融、法律等專業(yè)領域測試顯示,其推理能力較上一代 Opus 4.1 提升 30% 以上,數(shù)學問題解決精度顯著優(yōu)化?!坝脩魰l(fā)現(xiàn)它更像同事,合作解決問題時非常高效?!盇nthropic 研究員 Jared Kaplan 表示。
該模型還顯示出在推理和數(shù)學等廣泛評估方面的改進能力:
金融、法律、醫(yī)學和 STEM 領域的專家發(fā)現(xiàn),與包括 Opus 4.1 在內(nèi)的舊模型相比,Sonnet 4.5 表現(xiàn)出了更出色的領域特定知識和推理能力。
產(chǎn)品生態(tài)升級:代碼開發(fā)全流程體驗重構
針對開發(fā)者核心需求,Anthropic 同步推出多項產(chǎn)品功能更新:
Claude Code 2.0:新增呼聲極高的 “檢查點” 功能,支持代碼進度保存與即時回滾,配合刷新的終端界面與原生 VS Code 擴展,大幅提升開發(fā)效率;
API 能力強化:新增上下文編輯與記憶工具,使 AI 代理的持續(xù)運行時間從 7 小時延長至 30 小時,可處理更復雜的多步驟任務;
交互體驗革新:Claude 應用內(nèi)直接集成代碼執(zhí)行與文件創(chuàng)建功能,支持在對話中生成電子表格、幻燈片等文檔;
瀏覽器拓展落地:面向上月加入候補名單的 Max 訂閱用戶,開放 Claude for Chrome 擴展程序下載使用。
開放 Agent SDK:賦能開發(fā)者構建專屬智能助手
此次發(fā)布的重磅工具 Claude Agent SDK,將 Anthropic 內(nèi)部開發(fā) Claude Code 的核心基礎設施對外開放。該工具包解決了 AI 代理開發(fā)中的三大痛點:長期任務記憶管理、自主性與用戶控制的平衡、多代理協(xié)同調(diào)度。開發(fā)者可基于此快速搭建定制化 AI 助手,覆蓋項目管理、數(shù)據(jù)處理、客戶服務等場景。
“我們把支撐前沿產(chǎn)品的構建模塊共享出來,讓開發(fā)者無需從零搭建基礎設施?!盇nthropic 首席產(chǎn)品官 Mike Krieger 介紹,該 SDK 已在 Canva 等企業(yè)的工程團隊中得到驗證,能顯著提升代碼庫管理與產(chǎn)品研究效率。
誤報率較初代模型降低 90%
據(jù)介紹,Claude Sonnet 4.5 不僅是 Anthropic 功能最強大的模型,也是 Anthropic 迄今為止最符合前沿技術的模型。Claude 的改進功能以及廣泛的安全培訓使 Anthropic 能夠顯著改善該模型的行為,減少諸如諂媚、欺騙、權力追求以及鼓勵妄想思維傾向等令人擔憂的行為。對于該模型的代理和計算機使用功能,Anthropic 在防御即時注入攻擊方面也取得了顯著進展,而即時注入攻擊是這些功能用戶面臨的最嚴重風險之一。
Claude Sonnet 4.5 通過 AI 安全等級 3(ASL-3)認證,配備化學、生物等危險內(nèi)容分類檢測器,誤報率較初代降低 90%,同時大幅減少欺騙性回答、權力尋求等風險行為。
在商業(yè)策略上,Anthropic 保持價格親民,API 調(diào)用費用與 Claude Sonnet 4 完全一致,為每百萬代幣輸入 3 美元、輸出 15 美元。開發(fā)者即日起可通過 “claude-sonnet-4-5” 接口直接調(diào)用該模型。
Anthropic 首席產(chǎn)品官 Mike Krieger 表示,Claude Sonnet 4.5 將成為用戶的默認選擇,并且 Anthropic 推薦該模型用于“基本上所有用例”。
即便如此,用戶仍然有選擇。付費用戶仍然可以選擇使用 Opus,而擁有特定工作流程的用戶如果還沒準備好在一夜之間遷移,可以選擇老一代的 Sonnet,他說道。
Krieger 補充道,Claude Sonnet 4.5 比 Claude Opus 4.1 小,但“幾乎在各個方面”都比它更智能。
行業(yè)分析師指出,Claude Sonnet 4.5 的發(fā)布標志著 AI 從 “輔助工具” 向 “獨立生產(chǎn)力” 的跨越,而開放 SDK 的舉措或將加速 AI 代理技術在各行業(yè)的落地應用。
Kaplan 說:“我認為這是我們在過去一年或一年半中看到的最大安全飛躍?!?/p>
Anthropic 即將推出更多型號。Kaplan 表示,更好的型號即將推出,其中“很可能包括 Opus”。
“不敢保證,”他說,“但我想我們年底前可能會再推出一兩部作品?!?/p>
https://www.cnbc.com/2025/09/29/anthropic-claude-ai-sonnet-4-5.html
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.