Anthropic宣稱推出“全球最佳編碼模型”。
9月29日,Anthropic推出了其最新的AI模型Claude Sonnet 4.5。公司稱依據(jù)SWE-bench Verified(一項(xiàng)衡量AI系統(tǒng)軟件編碼能力的測試標(biāo)準(zhǔn))等行業(yè)基準(zhǔn),Claude Sonnet 4.5堪稱 “全球最佳編碼模型”。
該模型能生成更高質(zhì)量的代碼,更擅長識別代碼改進(jìn)點(diǎn),并且能更可靠地遵循指令。這款模型在編碼基準(zhǔn)測試中展現(xiàn)出頂尖性能,不僅能構(gòu)建 “可投入生產(chǎn)使用” 的應(yīng)用程序,而非僅停留在原型階段。
同時(shí),金融、法律、醫(yī)學(xué)等領(lǐng)域的專家發(fā)現(xiàn),與包括Opus 4.1在內(nèi)的舊模型相比,Sonnet 4.5在特定領(lǐng)域的知識和推理能力上表現(xiàn)出顯著提升。
Anthropic表示,新模型將作為用戶的默認(rèn)選項(xiàng),且價(jià)格與上一代Sonnet 4保持一致。不過,付費(fèi)訂閱用戶仍可選擇使用舊的Opus模型。
展望未來,Anthropic已暗示更多模型即將問世。Anthropic聯(lián)合創(chuàng)始人兼首席科學(xué)官Jared Kaplan透露,更強(qiáng)大的模型正在開發(fā)中,其中“極有可能包括Opus”的新版本。他表示:
雖然沒有承諾,但我認(rèn)為在今年年底前,我們可能還會有一次或兩次發(fā)布。
全面升級的性能與自主性
Claude Sonnet 4.5不僅在模型尺寸上進(jìn)行了優(yōu)化,更在核心能力上實(shí)現(xiàn)了全面超越。
Anthropic表示,根據(jù)衡量AI系統(tǒng)真實(shí)軟件編碼能力的SWE-bench Verified評估,該模型已達(dá)到業(yè)界頂尖水平。
在測試真實(shí)計(jì)算機(jī)操作任務(wù)的OSWorld基準(zhǔn)測試中,Sonnet 4.5的得分從四個(gè)月前的42.2%躍升至61.4%,處于領(lǐng)先地位。
Jared Kaplan表示:
用戶會注意到,這個(gè)模型更智能,更像一個(gè)同事,在遇到和解決問題時(shí)與它合作會很有趣。
Anthropic首席產(chǎn)品官M(fèi)ike Krieger則表示,盡管Sonnet 4.5模型比此前的Opus 4.1更小,但在幾乎所有方面都更為智能,能夠?yàn)椤罢鎸?shí)的、實(shí)際的工作”提供有效支持。
該模型可自主運(yùn)行長達(dá)30小時(shí),遠(yuǎn)超前代模型的7小時(shí),能夠持續(xù)專注于復(fù)雜的多步驟任務(wù)。有網(wǎng)友初步測評后指出比以前模型輸出更好,但有時(shí)會缺少其強(qiáng)調(diào)的關(guān)鍵內(nèi)容:
對Claude Sonnet 4.5的初步想法:速度更快的模型,比以前的模型思考和輸出更好;似乎缺少很多修復(fù)和我指出的關(guān)鍵事項(xiàng),沒有正確遵循說明;當(dāng)它確實(shí)修復(fù)或創(chuàng)建我所需要的東西時(shí),它達(dá)到了高標(biāo)準(zhǔn)。
安全與對齊的顯著躍升
除了性能提升,Anthropic強(qiáng)調(diào)Claude Sonnet 4.5是其迄今為止“最一致的模型”。
公司通過廣泛的安全訓(xùn)練,顯著改善了模型的行為,減少了如欺騙、權(quán)力尋求和“奉承”(即模型迎合用戶預(yù)期)等“令人擔(dān)憂的行為”。
此外,新模型對“提示詞注入攻擊”具有更強(qiáng)的抵抗力,這種攻擊會誘導(dǎo)模型執(zhí)行惡意操作,如泄露敏感數(shù)據(jù)。Kaplan稱:
這可能是過去一年半以來我們在安全性方面看到的最大飛躍。
該模型在AI安全等級3(ASL-3)的保護(hù)下發(fā)布,配備了旨在檢測化學(xué)、生物、放射性和核(CBRN)武器相關(guān)危險(xiǎn)內(nèi)容的分類器,同時(shí)公司已將誤報(bào)率大幅降低。
賦能開發(fā)者的Agent SDK
伴隨新模型發(fā)布,Anthropic還推出了一系列產(chǎn)品升級,其中最引人注目的是Claude Agent SDK。
這是一個(gè)供開發(fā)者使用的軟件開發(fā)工具包,其底層基礎(chǔ)設(shè)施與驅(qū)動Anthropic旗下產(chǎn)品Claude Code的基礎(chǔ)設(shè)施相同。
該公司表示,此舉將解決構(gòu)建AI代理(agent)時(shí)遇到的棘手問題,如長期任務(wù)的內(nèi)存管理、平衡自主性與用戶控制的權(quán)限系統(tǒng)以及協(xié)調(diào)子代理等。
通過開放這一工具包,Anthropic旨在讓開發(fā)者能夠?yàn)楦鼜V泛任務(wù)構(gòu)建功能強(qiáng)大的定制化AI代理。
其他產(chǎn)品更新還包括為Claude Code增加的“檢查點(diǎn)”功能、新的VS Code原生擴(kuò)展、以及在付費(fèi)應(yīng)用中直接集成代碼執(zhí)行和文件創(chuàng)建(電子表格、幻燈片、文檔)等功能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.