來源:市場資訊
(來源:機器之心)
十一假期還沒開始,大模型又開始卷起來了!
昨天,DeepSeek 開源新模型 V3.2-Exp,深夜 Anthropic 也不甘人后,重磅發(fā)布 Claude Sonnet 4.5。
作為編程領(lǐng)域的王者,Claude 新模型依然強勢,自稱為世界上最好的編碼模型。
我們都知道,GPT-5 Codex 曾自稱能獨立運行超過 7 小時。但這次,Claude Sonnet 4.5 把自主編碼時長提到了 30 多個小時。
此外,Claude 還稱它為構(gòu)建復雜智能體的最強模型,也是使用計算機( computer use)的最佳模型,在推理和數(shù)學方面顯示出巨大的進步。
Claude Sonnet 4.5 使這一切成為可能。Anthropic 將它與一系列產(chǎn)品重大升級一同發(fā)布:
在 Claude Code 方面,Anthropic 添加了檢查點功能 —— 這是用戶需求最高的功能之一 —— 它能保存你的進度,并讓你即時回滾到之前的狀態(tài)。
Anthropic 更新了終端界面,并推出了原生的 VS Code 擴展。他們?yōu)?Claude API 增添了新的上下文編輯功能和記憶工具,讓智能體能夠運行更長時間,并處理更高復雜度的任務。
在 Claude 應用程序中,他們將代碼執(zhí)行和文件創(chuàng)建(電子表格、幻燈片和文檔)功能直接融入對話之中。
此外,他們還為上個月加入候補名單的 Max 用戶提供了 Claude for Chrome 擴展。
Anthropic 還為開發(fā)者提供了他們自己用于打造 Claude Code 的基礎(chǔ)工具。他們將其稱為 Claude Agent SDK。
Anthropic 表示,這是他們發(fā)布過的最符合對齊要求的前沿模型,與之前的 Claude 模型相比,在多個對齊領(lǐng)域都有顯著改進。
Claude Sonnet 4.5 版本今日已全面上線。如果你是開發(fā)者,只需通過 Claude API 使用 claude-sonnet-4-5 即可。定價與 Claude Sonnet 4 版本保持一致,每百萬 token 輸入 / 輸出分別為 3 美元 / 15 美元。
前沿智能
Claude Sonnet 4.5 在 SWE-bench 驗證評估中處于 SOTA 水平,該評估衡量的是現(xiàn)實世界中的軟件編碼能力。實際上,Anthropic 觀察到它在復雜的多步驟任務上能夠保持專注超過 30 小時。
Claude Sonnet 4.5 代表了 computer use 方面的重大飛躍。在 OSWorld(一個在現(xiàn)實世界計算機任務中測試人工智能模型的基準測試平臺)上,Sonnet 4.5 現(xiàn)在以 61.4% 的成績領(lǐng)先。就在四個月前,Sonnet 4 以 42.2% 的成績領(lǐng)先。Claude for Chrome 擴展將這些升級后的功能加以利用。在下面的演示中,他們展示了 Claude 直接在瀏覽器中工作,瀏覽網(wǎng)站、填寫電子表格并完成任務。
該模型在包括推理和數(shù)學在內(nèi)的廣泛評估中也展現(xiàn)出了更強的能力:
金融、法律、醫(yī)學和理工科(STEM)領(lǐng)域的專家發(fā)現(xiàn),與包括 Opus 4.1 在內(nèi)的舊模型相比,Sonnet 4.5 在特定領(lǐng)域知識和推理方面表現(xiàn)得明顯更好。
該模型的能力也體現(xiàn)在早期客戶的體驗中:
Anthropic 迄今為止對齊最好的模型
Anthropic 表示,Claude Sonnet 4.5 不僅是他們性能最強的模型,也是目前與人類價值觀一致性最高的前沿模型。Claude 提升的能力以及 Anthropic 廣泛的安全訓練,讓他們能夠大幅改善模型的表現(xiàn),減少諸如諂媚、欺騙、爭取主導權(quán)(power-seeking)以及鼓勵妄想性思維等令人擔憂的行為。對于模型的智能體和計算機使用能力,Anthropic 在抵御提示注入攻擊方面也取得了顯著進展,這是使用這些能力的用戶面臨的最嚴重風險之一。
你可以在 Claude Sonnet 4.5 系統(tǒng)卡片中閱讀一套詳細的安全性和一致性評估,其中首次包括使用「機制可解釋性技術(shù)」進行的測試。
系統(tǒng)卡地址:https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf
Claude Sonnet 4.5 版本將在 Anthropic 的 AI 安全等級 3(ASL-3)保護措施下發(fā)布,這是按照他們將模型能力與適當保障措施相匹配的框架進行的。這些保障措施包括名為分類器的過濾器,其旨在檢測潛在危險的輸入和輸出,特別是那些與化學、生物、放射性等相關(guān)的內(nèi)容。
這些分類器有時可能會無意中標記正常內(nèi)容。Anthropic 已為用戶提供便利,讓他們能夠繼續(xù)與 Sonnet 4 進行任何中斷的對話,該模型帶來的化學、生物、放射性風險較低。Anthropic 在減少這些誤報方面已經(jīng)取得了顯著進展。
Claude Agent SDK
Claude 稱他們花了六個多月的時間更新 Claude Code 的能力,因此自己知道如何構(gòu)建和設計 AI 智能體。過程中他們解決了許多難題:包括智能體如何在長時間運行的任務中管理內(nèi)存,如何處理平衡自主性和用戶控制性的權(quán)限系統(tǒng),以及如何協(xié)調(diào)子智能體朝著共同目標努力。
今天的發(fā)布就是以上努力的成果,也就是 Claude Agent SDK。它 Claude Code 的基礎(chǔ)架構(gòu)相同,但它不僅在編碼領(lǐng)域,還在各種任務中展現(xiàn)出令人印象深刻的優(yōu)勢。從今天起,用戶可以使用它來構(gòu)建自己的智能體。
最后,Claude 還發(fā)布了一個臨時研究的預覽版,叫 Imagine with Claude.
在這個實驗中,Claude 可以即時生成軟件,且前提是不預先設定任何功能,也不預先編寫任何代碼。我們所看到的是 Claude 實時創(chuàng)建、響應并適應請求,并與用戶交互互動。
以上視頻就是該實驗的有趣演示,展示了 Claude Sonnet 4.5 的功能 —— 它可以讓您了解將強大的模型與合適的基礎(chǔ)架構(gòu)相結(jié)合所能實現(xiàn)的潛力。
“Imagine with Claude” 將在未來五天內(nèi)面向 Max 訂閱用戶開放。
你想體驗嗎?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.