看起來10月又是一個大月,DeepSeek用v3.2開場,Anthropic,谷歌,OpenAI都有大動作
剛剛,Anthropic發(fā)布了其最新前沿模型——Claude Sonnet 4.5
官方稱,這是目前全球最強的代碼模型、最強的復(fù)雜智能體構(gòu)建模型、以及最擅長使用計算機的模型,并且在推理和數(shù)學(xué)能力上取得了顯著進步
伴隨新模型發(fā)布的,還有一系列產(chǎn)品全家桶的升級,Anthropic還首次開放了構(gòu)建Claude Code的同款工具,最后還發(fā)布了一個比較科幻的東西叫Imagine with Claude,可以實時動態(tài)生成軟件,不過目前還是研究預(yù)覽
Claude Sonnet 4.5現(xiàn)已全面可用,通過API調(diào)用claude-sonnet-4-5
即可。價格與上一代Sonnet 4保持不變,為每百萬token輸入3美元/輸出15美元
新模型性能有多強?
Anthropic表示,Claude Sonnet 4.5在衡量真實世界軟件編碼能力的SWE-bench Verified評估中達到了業(yè)界頂尖(SOTA)水平。在實際測試中,該模型能在復(fù)雜的多步驟任務(wù)上保持超過30小時的專注
在計算機使用能力方面,Sonnet 4.5也實現(xiàn)了巨大飛躍。在測試AI模型真實世界計算機任務(wù)的OSWorld基準(zhǔn)上,Sonnet 4.5以61.4%的得分領(lǐng)先。就在四個月前,Sonnet 4還以42.2%的成績保持領(lǐng)先
此外,該模型在一系列廣泛的評估中也展示了更強的能力,包括推理和數(shù)學(xué):
來自金融、法律、醫(yī)學(xué)和STEM領(lǐng)域的專家發(fā)現(xiàn),與包括Opus 4.1在內(nèi)的舊模型相比,Sonnet 4.5在特定領(lǐng)域的知識和推理能力上表現(xiàn)出了顯著的提升
產(chǎn)品全家桶重大升級
Claude Code新增了“檢查點”(checkpoints)功能,可以保存進度并即時回滾到之前的狀態(tài)。同時,終端界面也進行了更新,并推出了原生的VS Code擴展
Claude API增加了新的上下文編輯功能和記憶工具,使智能體能夠運行更長時間并處理更復(fù)雜的任務(wù)。
Claude App中,代碼執(zhí)行和文件創(chuàng)建(電子表格、幻燈片和文檔)功能被直接整合到對話中
Claude for Chrome擴展已向所有上個月加入等待名單的Max用戶開放
首次開放Claude Agent SDK
Anthropic此次還開放了他們用于構(gòu)建Claude Code的基石——Claude Agent SDK
官方表示,他們解決了構(gòu)建AI智能體過程中的多個難題:智能體如何在長時間任務(wù)中管理記憶、如何平衡自主性與用戶控制的權(quán)限系統(tǒng)、以及如何協(xié)調(diào)多個子智能體以實現(xiàn)共同目標(biāo)
現(xiàn)在,這套為Anthropic前沿產(chǎn)品提供動力的基礎(chǔ)設(shè)施正式向所有開發(fā)者開放,可用于構(gòu)建自己的智能體
地址:
https://www.anthropic.com/engineering/building-agents-with-the-claude-agent-sdk(使用 Claude Agent SDK 構(gòu)建 Agent)
史上最對齊模型
Anthropic稱,Claude Sonnet 4.5是其迄今為止最對齊的前沿模型
通過提升模型能力和進行廣泛的安全訓(xùn)練,模型的行為得到了顯著改善,減少了逢迎、欺騙、權(quán)力尋求和鼓勵妄想等不良行為。針對智能體和計算機使用能力,模型在抵御提示注入攻擊方面也取得了長足進步
Claude Sonnet 4.5在AI安全等級3(ASL-3)的保護下發(fā)布。這些保護措施包括旨在檢測潛在危險輸入和輸出的分類器,特別是與化學(xué)、生物、放射性和核(CBRN)武器相關(guān)的內(nèi)容
如果分類器意外標(biāo)記了正常內(nèi)容,用戶可以方便地切換到CBRN風(fēng)險較低的Sonnet 4模型繼續(xù)對話。Anthropic表示,自最初引入分類器以來,他們已將誤報率降低了十倍
one more thing
與Sonnet 4.5一同發(fā)布的還有一個名為“Imagine with Claude”的限時研究預(yù)覽
在這個實驗中,Claude能夠?qū)崟r動態(tài)地生成軟件,沒有任何預(yù)定功能或預(yù)寫代碼。用戶可以看到Claude根據(jù)交互請求進行實時創(chuàng)建和調(diào)整
該功能向Max訂閱用戶開放,為期五天
上手小測試
我用之前測試新模型前端能力的提示詞測了一下,并且至少進行了5次抽卡,沒有一次成功,感覺Claude Sonnet 4.5代碼能力提升貌似不大,提示詞如下:
模擬,一個由彈力球組成的正方體漂浮在半空中,從正方體最下一層慢慢塌方,注意是,一層一層塌方,小球落在桌子上彈起來,直到靜止,模擬整個塌方過程,整個過程符合物理規(guī)律,效果要酷炫,整個環(huán)境要盡量逼近真實,在單個HTML中實現(xiàn)
實現(xiàn)效果:一次掉落了兩層后,小球就不往下掉落了,核心的邏輯沒有實現(xiàn)
完整的技術(shù)細節(jié)和評估結(jié)果,可參閱官方發(fā)布的系統(tǒng)卡、模型頁面和文檔
https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf(整整148頁)
https://www.anthropic.com/claude/sonnet
https://docs.claude.com/en/docs/about-claude/models/overview
https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents(這篇也很重要,講如何為Agent構(gòu)建的上下文工程context engineering,詳細請看下一篇文章)
官方測試方法說明
SWE-bench Verified: 所有Claude結(jié)果均使用一個包含bash和文件編輯兩個工具的簡單框架報告。在完整的500個問題的SWE-bench Verified數(shù)據(jù)集上,通過10次試驗平均,無測試時計算,200K思考預(yù)算,得分為77.2%
OSWorld: 所有分?jǐn)?shù)均使用官方OSWorld-Verified框架報告,最大步數(shù)為100,4次運行取平均值
MMMLU: 所有分?jǐn)?shù)均為在14種非英語語言上進行5次運行的平均值,并使用了擴展思考(最高128K)。
其他模型的得分均引用自O(shè)penAI和Google發(fā)布的官方文章或排行榜
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.