網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Claude Sonnet 4.5來了！能連續(xù)編程30多小時、1.1萬行代碼

Claude 4.5發(fā)布能連續(xù)干活30多小時

2025-09-30 08:48:06　來源: 新浪財經(jīng)

北京舉報

分享至

來源：市場資訊

（來源：機器之心）

十一假期還沒開始，大模型又開始卷起來了！

昨天，DeepSeek 開源新模型 V3.2-Exp，深夜 Anthropic 也不甘人后，重磅發(fā)布 Claude Sonnet 4.5。

作為編程領(lǐng)域的王者，Claude 新模型依然強勢，自稱為世界上最好的編碼模型。

我們都知道，GPT-5 Codex 曾自稱能獨立運行超過 7 小時。但這次，Claude Sonnet 4.5 把自主編碼時長提到了 30 多個小時。

此外，Claude 還稱它為構(gòu)建復雜智能體的最強模型，也是使用計算機（ computer use）的最佳模型，在推理和數(shù)學方面顯示出巨大的進步。

Claude Sonnet 4.5 使這一切成為可能。Anthropic 將它與一系列產(chǎn)品重大升級一同發(fā)布：

在 Claude Code 方面，Anthropic 添加了檢查點功能 —— 這是用戶需求最高的功能之一 —— 它能保存你的進度，并讓你即時回滾到之前的狀態(tài)。
Anthropic 更新了終端界面，并推出了原生的 VS Code 擴展。他們?yōu)?Claude API 增添了新的上下文編輯功能和記憶工具，讓智能體能夠運行更長時間，并處理更高復雜度的任務。
在 Claude 應用程序中，他們將代碼執(zhí)行和文件創(chuàng)建（電子表格、幻燈片和文檔）功能直接融入對話之中。
此外，他們還為上個月加入候補名單的 Max 用戶提供了 Claude for Chrome 擴展。

Anthropic 還為開發(fā)者提供了他們自己用于打造 Claude Code 的基礎(chǔ)工具。他們將其稱為 Claude Agent SDK。

Anthropic 表示，這是他們發(fā)布過的最符合對齊要求的前沿模型，與之前的 Claude 模型相比，在多個對齊領(lǐng)域都有顯著改進。

Claude Sonnet 4.5 版本今日已全面上線。如果你是開發(fā)者，只需通過 Claude API 使用 claude-sonnet-4-5 即可。定價與 Claude Sonnet 4 版本保持一致，每百萬 token 輸入 / 輸出分別為 3 美元 / 15 美元。

前沿智能

Claude Sonnet 4.5 在 SWE-bench 驗證評估中處于 SOTA 水平，該評估衡量的是現(xiàn)實世界中的軟件編碼能力。實際上，Anthropic 觀察到它在復雜的多步驟任務上能夠保持專注超過 30 小時。

Claude Sonnet 4.5 代表了 computer use 方面的重大飛躍。在 OSWorld（一個在現(xiàn)實世界計算機任務中測試人工智能模型的基準測試平臺）上，Sonnet 4.5 現(xiàn)在以 61.4% 的成績領(lǐng)先。就在四個月前，Sonnet 4 以 42.2% 的成績領(lǐng)先。Claude for Chrome 擴展將這些升級后的功能加以利用。在下面的演示中，他們展示了 Claude 直接在瀏覽器中工作，瀏覽網(wǎng)站、填寫電子表格并完成任務。

該模型在包括推理和數(shù)學在內(nèi)的廣泛評估中也展現(xiàn)出了更強的能力：

金融、法律、醫(yī)學和理工科（STEM）領(lǐng)域的專家發(fā)現(xiàn)，與包括 Opus 4.1 在內(nèi)的舊模型相比，Sonnet 4.5 在特定領(lǐng)域知識和推理方面表現(xiàn)得明顯更好。

該模型的能力也體現(xiàn)在早期客戶的體驗中：

Anthropic 迄今為止對齊最好的模型

Anthropic 表示，Claude Sonnet 4.5 不僅是他們性能最強的模型，也是目前與人類價值觀一致性最高的前沿模型。Claude 提升的能力以及 Anthropic 廣泛的安全訓練，讓他們能夠大幅改善模型的表現(xiàn)，減少諸如諂媚、欺騙、爭取主導權(quán)（power-seeking）以及鼓勵妄想性思維等令人擔憂的行為。對于模型的智能體和計算機使用能力，Anthropic 在抵御提示注入攻擊方面也取得了顯著進展，這是使用這些能力的用戶面臨的最嚴重風險之一。

你可以在 Claude Sonnet 4.5 系統(tǒng)卡片中閱讀一套詳細的安全性和一致性評估，其中首次包括使用「機制可解釋性技術(shù)」進行的測試。

系統(tǒng)卡地址：https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf

Claude Sonnet 4.5 版本將在 Anthropic 的 AI 安全等級 3（ASL-3）保護措施下發(fā)布，這是按照他們將模型能力與適當保障措施相匹配的框架進行的。這些保障措施包括名為分類器的過濾器，其旨在檢測潛在危險的輸入和輸出，特別是那些與化學、生物、放射性等相關(guān)的內(nèi)容。

這些分類器有時可能會無意中標記正常內(nèi)容。Anthropic 已為用戶提供便利，讓他們能夠繼續(xù)與 Sonnet 4 進行任何中斷的對話，該模型帶來的化學、生物、放射性風險較低。Anthropic 在減少這些誤報方面已經(jīng)取得了顯著進展。

Claude Agent SDK

Claude 稱他們花了六個多月的時間更新 Claude Code 的能力，因此自己知道如何構(gòu)建和設計 AI 智能體。過程中他們解決了許多難題：包括智能體如何在長時間運行的任務中管理內(nèi)存，如何處理平衡自主性和用戶控制性的權(quán)限系統(tǒng)，以及如何協(xié)調(diào)子智能體朝著共同目標努力。

今天的發(fā)布就是以上努力的成果，也就是 Claude Agent SDK。它 Claude Code 的基礎(chǔ)架構(gòu)相同，但它不僅在編碼領(lǐng)域，還在各種任務中展現(xiàn)出令人印象深刻的優(yōu)勢。從今天起，用戶可以使用它來構(gòu)建自己的智能體。

最后，Claude 還發(fā)布了一個臨時研究的預覽版，叫 Imagine with Claude.

在這個實驗中，Claude 可以即時生成軟件，且前提是不預先設定任何功能，也不預先編寫任何代碼。我們所看到的是 Claude 實時創(chuàng)建、響應并適應請求，并與用戶交互互動。

以上視頻就是該實驗的有趣演示，展示了 Claude Sonnet 4.5 的功能 —— 它可以讓您了解將強大的模型與合適的基礎(chǔ)架構(gòu)相結(jié)合所能實現(xiàn)的潛力。

“Imagine with Claude” 將在未來五天內(nèi)面向 Max 訂閱用戶開放。

你想體驗嗎？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.