網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

重磅！Claude Sonnet 4.5發(fā)布，可連續(xù)編程30小時，Claude Code同款構(gòu)建工具也開放了

Claude 4.5發(fā)布能連續(xù)干活30多小時

2025-09-30 04:35:58　來源: AI寒武紀(jì)

江蘇舉報

分享至

看起來10月又是一個大月，DeepSeek用v3.2開場，Anthropic，谷歌，OpenAI都有大動作

剛剛，Anthropic發(fā)布了其最新前沿模型——Claude Sonnet 4.5

官方稱，這是目前全球最強的代碼模型、最強的復(fù)雜智能體構(gòu)建模型、以及最擅長使用計算機的模型，并且在推理和數(shù)學(xué)能力上取得了顯著進步

伴隨新模型發(fā)布的，還有一系列產(chǎn)品全家桶的升級，Anthropic還首次開放了構(gòu)建Claude Code的同款工具，最后還發(fā)布了一個比較科幻的東西叫Imagine with Claude，可以實時動態(tài)生成軟件，不過目前還是研究預(yù)覽

Claude Sonnet 4.5現(xiàn)已全面可用，通過API調(diào)用claude-sonnet-4-5即可。價格與上一代Sonnet 4保持不變，為每百萬token輸入3美元/輸出15美元

新模型性能有多強？

Anthropic表示，Claude Sonnet 4.5在衡量真實世界軟件編碼能力的SWE-bench Verified評估中達到了業(yè)界頂尖（SOTA）水平。在實際測試中，該模型能在復(fù)雜的多步驟任務(wù)上保持超過30小時的專注

在計算機使用能力方面，Sonnet 4.5也實現(xiàn)了巨大飛躍。在測試AI模型真實世界計算機任務(wù)的OSWorld基準(zhǔn)上，Sonnet 4.5以61.4%的得分領(lǐng)先。就在四個月前，Sonnet 4還以42.2%的成績保持領(lǐng)先

此外，該模型在一系列廣泛的評估中也展示了更強的能力，包括推理和數(shù)學(xué)：

來自金融、法律、醫(yī)學(xué)和STEM領(lǐng)域的專家發(fā)現(xiàn)，與包括Opus 4.1在內(nèi)的舊模型相比，Sonnet 4.5在特定領(lǐng)域的知識和推理能力上表現(xiàn)出了顯著的提升

產(chǎn)品全家桶重大升級

Claude Code新增了“檢查點”（checkpoints）功能，可以保存進度并即時回滾到之前的狀態(tài)。同時，終端界面也進行了更新，并推出了原生的VS Code擴展

Claude API增加了新的上下文編輯功能和記憶工具，使智能體能夠運行更長時間并處理更復(fù)雜的任務(wù)。

Claude App中，代碼執(zhí)行和文件創(chuàng)建（電子表格、幻燈片和文檔）功能被直接整合到對話中

Claude for Chrome擴展已向所有上個月加入等待名單的Max用戶開放

首次開放Claude Agent SDK

Anthropic此次還開放了他們用于構(gòu)建Claude Code的基石——Claude Agent SDK

官方表示，他們解決了構(gòu)建AI智能體過程中的多個難題：智能體如何在長時間任務(wù)中管理記憶、如何平衡自主性與用戶控制的權(quán)限系統(tǒng)、以及如何協(xié)調(diào)多個子智能體以實現(xiàn)共同目標(biāo)

現(xiàn)在，這套為Anthropic前沿產(chǎn)品提供動力的基礎(chǔ)設(shè)施正式向所有開發(fā)者開放，可用于構(gòu)建自己的智能體

地址：

https://www.anthropic.com/engineering/building-agents-with-the-claude-agent-sdk（使用 Claude Agent SDK 構(gòu)建 Agent）

史上最對齊模型

Anthropic稱，Claude Sonnet 4.5是其迄今為止最對齊的前沿模型

通過提升模型能力和進行廣泛的安全訓(xùn)練，模型的行為得到了顯著改善，減少了逢迎、欺騙、權(quán)力尋求和鼓勵妄想等不良行為。針對智能體和計算機使用能力，模型在抵御提示注入攻擊方面也取得了長足進步

Claude Sonnet 4.5在AI安全等級3（ASL-3）的保護下發(fā)布。這些保護措施包括旨在檢測潛在危險輸入和輸出的分類器，特別是與化學(xué)、生物、放射性和核（CBRN）武器相關(guān)的內(nèi)容

如果分類器意外標(biāo)記了正常內(nèi)容，用戶可以方便地切換到CBRN風(fēng)險較低的Sonnet 4模型繼續(xù)對話。Anthropic表示，自最初引入分類器以來，他們已將誤報率降低了十倍

one more thing

與Sonnet 4.5一同發(fā)布的還有一個名為“Imagine with Claude”的限時研究預(yù)覽

在這個實驗中，Claude能夠?qū)崟r動態(tài)地生成軟件，沒有任何預(yù)定功能或預(yù)寫代碼。用戶可以看到Claude根據(jù)交互請求進行實時創(chuàng)建和調(diào)整

該功能向Max訂閱用戶開放，為期五天

上手小測試

我用之前測試新模型前端能力的提示詞測了一下，并且至少進行了5次抽卡，沒有一次成功，感覺Claude Sonnet 4.5代碼能力提升貌似不大，提示詞如下：

模擬，一個由彈力球組成的正方體漂浮在半空中，從正方體最下一層慢慢塌方，注意是，一層一層塌方，小球落在桌子上彈起來，直到靜止，模擬整個塌方過程，整個過程符合物理規(guī)律，效果要酷炫，整個環(huán)境要盡量逼近真實，在單個HTML中實現(xiàn)

實現(xiàn)效果：一次掉落了兩層后，小球就不往下掉落了，核心的邏輯沒有實現(xiàn)

完整的技術(shù)細節(jié)和評估結(jié)果，可參閱官方發(fā)布的系統(tǒng)卡、模型頁面和文檔

https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf（整整148頁）

https://www.anthropic.com/claude/sonnet

https://docs.claude.com/en/docs/about-claude/models/overview

https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents（這篇也很重要，講如何為Agent構(gòu)建的上下文工程context engineering，詳細請看下一篇文章）

官方測試方法說明

SWE-bench Verified: 所有Claude結(jié)果均使用一個包含bash和文件編輯兩個工具的簡單框架報告。在完整的500個問題的SWE-bench Verified數(shù)據(jù)集上，通過10次試驗平均，無測試時計算，200K思考預(yù)算，得分為77.2%

OSWorld: 所有分?jǐn)?shù)均使用官方OSWorld-Verified框架報告，最大步數(shù)為100，4次運行取平均值

MMMLU: 所有分?jǐn)?shù)均為在14種非英語語言上進行5次運行的平均值，并使用了擴展思考（最高128K）。

其他模型的得分均引用自O(shè)penAI和Google發(fā)布的官方文章或排行榜

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

AI專家：對AI的質(zhì)疑是對“指數(shù)級增長趨勢”的“自欺欺人”

華爾街見聞官方 2025-09-30 10:11:01
14 跟貼 14
Anthropic推出Claude Sonnet 4.5，號稱 “全球最佳編碼模型”

華爾街見聞官方 2025-09-30 04:57:59
4 跟貼 4

ChatGPT智能體來了：自己操作電腦干活，接管你的電腦，自動執(zhí)行各種任務(wù)

量子位 2025-07-18 18:08:35
0 跟貼 0

智能體是讓大模型技術(shù)在業(yè)界落地產(chǎn)生價值的重要形態(tài)

每日經(jīng)濟新聞 2025-07-29 13:43:51
0 跟貼 0
國產(chǎn)AI的“偉大閉環(huán)”！DeepSeek平常的一句話或改變GPU編程生態(tài)

華爾街見聞官方 2025-09-30 13:51:32
20 跟貼 20

國產(chǎn)大模型集體國慶！最強國產(chǎn)編程模型誕生，寒武紀(jì)摩爾線程火速適配

智東西 2025-10-01 08:21:24
100 跟貼 100

全新合成框架SOTA：強化學(xué)習(xí)當(dāng)引擎，任務(wù)合成當(dāng)燃料

量子位 2025-10-01 18:36:45
0 跟貼 0
Vibe Coding爆火，YouWare突圍(1)

機器之心Pro 2025-07-24 14:36:10
0 跟貼 0

當(dāng)AI學(xué)會作弊：比壞更可怕的是壞還聰明

機器之心Pro 2025-08-29 18:45:31
0 跟貼 0
OpenAI重磅發(fā)布Sora 2！硬剛抖音豆包誰能贏？

雷科技 2025-10-01 22:01:53
6 跟貼 6
真夠卷的！DeepSeek更完智譜更：GLM-4.6，代碼國內(nèi)最強

量子位 2025-09-30 17:03:27
0 跟貼 0
浙江大學(xué)2026保研率約42%，計算機保研人數(shù)最多，文科專業(yè)較少

史海流年號 2025-09-30 16:11:54
72 跟貼 72
六歲小朋友珠心算，計算機都比不上的速度，大人都自愧不如！

趣味笑工廠 2025-10-01 15:19:36
1 跟貼 1
這三個專業(yè)不要再讀了，報志愿咱們千萬要避開

玉辭心 2025-10-01 08:41:04
0 跟貼 0
智能的三大秘密

白駒談人機 2025-10-01 08:05:41
0 跟貼 0
三星堆公布重大發(fā)現(xiàn)！專家：種種跡象表明，三星堆可能爆發(fā)過內(nèi)戰(zhàn)，神權(quán)貴族集團受到嚴(yán)重打擊，城市水系也因此改變

每日經(jīng)濟新聞 2025-09-27 22:27:12
13763 跟貼 13763
對話華為方坤鵬：解析5G-A×AI背后的發(fā)展邏輯

通信世界 2025-09-30 14:49:49
0 跟貼 0
國家發(fā)改委：將制定新一代智能終端和智能體有關(guān)政策指引

界面新聞 2025-09-29 15:36:49
0 跟貼 0
2025年40+職場人穩(wěn)崗——選對3個技能，不用怕年齡焦慮

y芋泥啵啵 2025-09-29 19:37:32
0 跟貼 0
國家發(fā)改委：推動智能終端和智能體市場擴容

每日經(jīng)濟新聞 2025-09-29 16:07:24
0 跟貼 0
螞蟻數(shù)科AI技術(shù)負責(zé)人：未來要靠智能體原生大模型

機器之心Pro 2025-08-04 15:47:29
0 跟貼 0
女警頂級邏輯推演拋尸地點，一個細節(jié)發(fā)現(xiàn)案件有第三人

小板凳劇院V 2025-10-01 12:34:28
1 跟貼 1
野外搭建木屋庇護所，建造承重框架和防潮保暖層

四季荒野 2025-09-29 09:39:13
1 跟貼 1
女子單腿去放鞭炮，感覺醫(yī)保沒用上可惜，竟還有這邏輯！

卡瓦看生活 2025-10-01 09:41:50
0 跟貼 0
VLA 推理新范式

機器之心Pro 2025-07-16 17:37:16
0 跟貼 0
重慶渝北悅來街道：“科技賦能成長”公益項目秋季學(xué)期課程開啟

上游新聞 2025-09-30 18:00:14
0 跟貼 0
第28屆國際電子、計算機及電子商務(wù)展覽會在德黑蘭落下帷幕

新華社 2025-09-29 21:35:24
0 跟貼 0
邏輯清晰至極，堪稱超神反殺

兔八哥影視 2025-10-01 15:13:57
4 跟貼 4
這是什么邏輯，不愿意搬就說我是釘子戶，這不是欺負人嗎！

壹云影視 2025-09-30 15:10:35
1 跟貼 1
用紙殼做的迷你坦克模型，上面安裝太陽能板，遇到陽光就會走！

歡樂笑料站 2025-09-30 10:27:27
1 跟貼 1
誰是2025年度最好的編程語言？

量子位 2025-10-01 10:14:54
35 跟貼 35
俄外長：即便烏克蘭獲得"戰(zhàn)斧"導(dǎo)彈也不會改變局勢

環(huán)球網(wǎng)資訊 2025-09-30 19:08:30
9875 跟貼 9875
國慶提前出發(fā)的“大聰明”已堵路，網(wǎng)友笑著笑著就哭了

每日經(jīng)濟新聞 2025-10-01 14:47:29
96 跟貼 96
可能是目前效果最好的開源生圖模型，混元生圖3.0來了

量子位 2025-09-30 20:56:55
3 跟貼 3
殲20模型涂上沙特國旗！沙特:實在等不了了，就把殲20賣給我吧！

阿龍聊軍事 2025-10-01 20:37:09
1 跟貼 1
汕頭兩“世仇村”迎來世紀(jì)大和解：清末因搶水發(fā)生械斗，此后百余年不往來

極目新聞 2025-10-01 11:48:13
3581 跟貼 3581
車友組團在沙漠玩越野，一輛新能源車起火燒得只?？蚣埽繐粽撸憾虝r間內(nèi)燒的只剩車架

觀象視頻 2025-09-29 14:25:13
71 跟貼 71
“雞排哥”和家人國慶要出10個攤位，景德鎮(zhèn)連夜招十多名大學(xué)生上任“雞排保鏢”，學(xué)?；貞?yīng)：系當(dāng)志愿者

極目新聞 2025-10-01 13:42:47
3553 跟貼 3553
Sora 2深夜來襲，OpenAI直接推出App，視頻ChatGPT時刻到了

機器之心Pro 2025-10-01 20:54:03
0 跟貼 0
幼兒園布置手工作業(yè)，爸爸安排火箭模型，這下女兒真要跑了！

爆笑眼鏡貓 2025-09-27 11:52:08
1 跟貼 1

手機 / 數(shù)碼

房產(chǎn) / 家居

重磅！Claude Sonnet 4.5發(fā)布，可連續(xù)編程30小時，Claude Code同款構(gòu)建工具也開放了

Claude 4.5發(fā)布 能連續(xù)干活30多小時

天問二號最新影像！五星紅旗與地球同框

75萬公務(wù)員近7年文件全丟失 韓政府文件存儲系統(tǒng)被燒毀

75萬公務(wù)員近7年文件全丟失 韓政府文件存儲系統(tǒng)被燒毀

蓉城獨撐中超！3隊6戰(zhàn)僅1勝 申花痛失好局

董璇母女國慶節(jié)跳舞 小酒窩眼神堅定

美國聯(lián)邦政府“關(guān)門”，有何影響？

零跑9月銷量突破6萬臺大關(guān) 刷新新勢力單月交付紀(jì)錄

態(tài)度原創(chuàng)

內(nèi)分泌科專家破解身高八大謠言

來上課了——高考完形填空與課內(nèi)詞匯用法精講（一）第二段

空瓶專場|| 不停產(chǎn)能用到老，沒想到它也破價了

聯(lián)想moto X70 Air輕薄手機官宣，月底見！

Google展示基于Gemini的Google Home智能音箱 2026年春季上市

重磅！Claude Sonnet 4.5發(fā)布，可連續(xù)編程30小時，Claude Code同款構(gòu)建工具也開放了

Claude 4.5發(fā)布能連續(xù)干活30多小時

天問二號最新影像！五星紅旗與地球同框

75萬公務(wù)員近7年文件全丟失韓政府文件存儲系統(tǒng)被燒毀

75萬公務(wù)員近7年文件全丟失韓政府文件存儲系統(tǒng)被燒毀

蓉城獨撐中超！3隊6戰(zhàn)僅1勝申花痛失好局

董璇母女國慶節(jié)跳舞小酒窩眼神堅定

美國聯(lián)邦政府“關(guān)門”，有何影響？

空瓶專場|| 不停產(chǎn)能用到老，沒想到它也破價了

聯(lián)想moto X70 Air輕薄手機官宣，月底見！