Anthropic推出Claude Sonnet 4.5，號稱 “全球最佳編碼模型”

2025-09-30 04:57:59　來源: 華爾街見聞官方

上海舉報(bào)

分享至

Anthropic宣稱推出“全球最佳編碼模型”。

9月29日，Anthropic推出了其最新的AI模型Claude Sonnet 4.5。公司稱依據(jù)SWE-bench Verified（一項(xiàng)衡量AI系統(tǒng)軟件編碼能力的測試標(biāo)準(zhǔn)）等行業(yè)基準(zhǔn)，Claude Sonnet 4.5堪稱 “全球最佳編碼模型”。

該模型能生成更高質(zhì)量的代碼，更擅長識別代碼改進(jìn)點(diǎn)，并且能更可靠地遵循指令。這款模型在編碼基準(zhǔn)測試中展現(xiàn)出頂尖性能，不僅能構(gòu)建 “可投入生產(chǎn)使用” 的應(yīng)用程序，而非僅停留在原型階段。

同時(shí)，金融、法律、醫(yī)學(xué)等領(lǐng)域的專家發(fā)現(xiàn)，與包括Opus 4.1在內(nèi)的舊模型相比，Sonnet 4.5在特定領(lǐng)域的知識和推理能力上表現(xiàn)出顯著提升。

Anthropic表示，新模型將作為用戶的默認(rèn)選項(xiàng)，且價(jià)格與上一代Sonnet 4保持一致。不過，付費(fèi)訂閱用戶仍可選擇使用舊的Opus模型。

展望未來，Anthropic已暗示更多模型即將問世。Anthropic聯(lián)合創(chuàng)始人兼首席科學(xué)官Jared Kaplan透露，更強(qiáng)大的模型正在開發(fā)中，其中“極有可能包括Opus”的新版本。他表示：

雖然沒有承諾，但我認(rèn)為在今年年底前，我們可能還會有一次或兩次發(fā)布。

全面升級的性能與自主性

Claude Sonnet 4.5不僅在模型尺寸上進(jìn)行了優(yōu)化，更在核心能力上實(shí)現(xiàn)了全面超越。

Anthropic表示，根據(jù)衡量AI系統(tǒng)真實(shí)軟件編碼能力的SWE-bench Verified評估，該模型已達(dá)到業(yè)界頂尖水平。

在測試真實(shí)計(jì)算機(jī)操作任務(wù)的OSWorld基準(zhǔn)測試中，Sonnet 4.5的得分從四個(gè)月前的42.2%躍升至61.4%，處于領(lǐng)先地位。

Jared Kaplan表示：

用戶會注意到，這個(gè)模型更智能，更像一個(gè)同事，在遇到和解決問題時(shí)與它合作會很有趣。

Anthropic首席產(chǎn)品官M(fèi)ike Krieger則表示，盡管Sonnet 4.5模型比此前的Opus 4.1更小，但在幾乎所有方面都更為智能，能夠?yàn)椤罢鎸?shí)的、實(shí)際的工作”提供有效支持。

該模型可自主運(yùn)行長達(dá)30小時(shí)，遠(yuǎn)超前代模型的7小時(shí)，能夠持續(xù)專注于復(fù)雜的多步驟任務(wù)。有網(wǎng)友初步測評后指出比以前模型輸出更好，但有時(shí)會缺少其強(qiáng)調(diào)的關(guān)鍵內(nèi)容：

對Claude Sonnet 4.5的初步想法：速度更快的模型，比以前的模型思考和輸出更好；似乎缺少很多修復(fù)和我指出的關(guān)鍵事項(xiàng)，沒有正確遵循說明；當(dāng)它確實(shí)修復(fù)或創(chuàng)建我所需要的東西時(shí)，它達(dá)到了高標(biāo)準(zhǔn)。

安全與對齊的顯著躍升

除了性能提升，Anthropic強(qiáng)調(diào)Claude Sonnet 4.5是其迄今為止“最一致的模型”。

公司通過廣泛的安全訓(xùn)練，顯著改善了模型的行為，減少了如欺騙、權(quán)力尋求和“奉承”（即模型迎合用戶預(yù)期）等“令人擔(dān)憂的行為”。

此外，新模型對“提示詞注入攻擊”具有更強(qiáng)的抵抗力，這種攻擊會誘導(dǎo)模型執(zhí)行惡意操作，如泄露敏感數(shù)據(jù)。Kaplan稱：

這可能是過去一年半以來我們在安全性方面看到的最大飛躍。

該模型在AI安全等級3（ASL-3）的保護(hù)下發(fā)布，配備了旨在檢測化學(xué)、生物、放射性和核（CBRN）武器相關(guān)危險(xiǎn)內(nèi)容的分類器，同時(shí)公司已將誤報(bào)率大幅降低。

賦能開發(fā)者的Agent SDK

伴隨新模型發(fā)布，Anthropic還推出了一系列產(chǎn)品升級，其中最引人注目的是Claude Agent SDK。

這是一個(gè)供開發(fā)者使用的軟件開發(fā)工具包，其底層基礎(chǔ)設(shè)施與驅(qū)動Anthropic旗下產(chǎn)品Claude Code的基礎(chǔ)設(shè)施相同。

該公司表示，此舉將解決構(gòu)建AI代理（agent）時(shí)遇到的棘手問題，如長期任務(wù)的內(nèi)存管理、平衡自主性與用戶控制的權(quán)限系統(tǒng)以及協(xié)調(diào)子代理等。

通過開放這一工具包，Anthropic旨在讓開發(fā)者能夠?yàn)楦鼜V泛任務(wù)構(gòu)建功能強(qiáng)大的定制化AI代理。

其他產(chǎn)品更新還包括為Claude Code增加的“檢查點(diǎn)”功能、新的VS Code原生擴(kuò)展、以及在付費(fèi)應(yīng)用中直接集成代碼執(zhí)行和文件創(chuàng)建（電子表格、幻燈片、文檔）等功能。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.