夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

重磅!Claude Sonnet 4.5發(fā)布,可連續(xù)編程30小時,Claude Code同款構(gòu)建工具也開放了

Claude 4.5發(fā)布 能連續(xù)干活30多小時

0
分享至


看起來10月又是一個大月,DeepSeek用v3.2開場,Anthropic,谷歌,OpenAI都有大動作

剛剛,Anthropic發(fā)布了其最新前沿模型——Claude Sonnet 4.5

官方稱,這是目前全球最強的代碼模型、最強的復(fù)雜智能體構(gòu)建模型、以及最擅長使用計算機的模型,并且在推理和數(shù)學(xué)能力上取得了顯著進步

伴隨新模型發(fā)布的,還有一系列產(chǎn)品全家桶的升級,Anthropic還首次開放了構(gòu)建Claude Code的同款工具,最后還發(fā)布了一個比較科幻的東西叫Imagine with Claude,可以實時動態(tài)生成軟件,不過目前還是研究預(yù)覽

Claude Sonnet 4.5現(xiàn)已全面可用,通過API調(diào)用claude-sonnet-4-5即可。價格與上一代Sonnet 4保持不變,為每百萬token輸入3美元/輸出15美元

新模型性能有多強?

Anthropic表示,Claude Sonnet 4.5在衡量真實世界軟件編碼能力的SWE-bench Verified評估中達到了業(yè)界頂尖(SOTA)水平。在實際測試中,該模型能在復(fù)雜的多步驟任務(wù)上保持超過30小時的專注


在計算機使用能力方面,Sonnet 4.5也實現(xiàn)了巨大飛躍。在測試AI模型真實世界計算機任務(wù)的OSWorld基準(zhǔn)上,Sonnet 4.5以61.4%的得分領(lǐng)先。就在四個月前,Sonnet 4還以42.2%的成績保持領(lǐng)先

此外,該模型在一系列廣泛的評估中也展示了更強的能力,包括推理和數(shù)學(xué):


來自金融、法律、醫(yī)學(xué)和STEM領(lǐng)域的專家發(fā)現(xiàn),與包括Opus 4.1在內(nèi)的舊模型相比,Sonnet 4.5在特定領(lǐng)域的知識和推理能力上表現(xiàn)出了顯著的提升


產(chǎn)品全家桶重大升級

Claude Code新增了“檢查點”(checkpoints)功能,可以保存進度并即時回滾到之前的狀態(tài)。同時,終端界面也進行了更新,并推出了原生的VS Code擴展

Claude API增加了新的上下文編輯功能和記憶工具,使智能體能夠運行更長時間并處理更復(fù)雜的任務(wù)。

Claude App中,代碼執(zhí)行和文件創(chuàng)建(電子表格、幻燈片和文檔)功能被直接整合到對話中

Claude for Chrome擴展已向所有上個月加入等待名單的Max用戶開放

首次開放Claude Agent SDK

Anthropic此次還開放了他們用于構(gòu)建Claude Code的基石——Claude Agent SDK

官方表示,他們解決了構(gòu)建AI智能體過程中的多個難題:智能體如何在長時間任務(wù)中管理記憶、如何平衡自主性與用戶控制的權(quán)限系統(tǒng)、以及如何協(xié)調(diào)多個子智能體以實現(xiàn)共同目標(biāo)

現(xiàn)在,這套為Anthropic前沿產(chǎn)品提供動力的基礎(chǔ)設(shè)施正式向所有開發(fā)者開放,可用于構(gòu)建自己的智能體

地址:

https://www.anthropic.com/engineering/building-agents-with-the-claude-agent-sdk(使用 Claude Agent SDK 構(gòu)建 Agent)

史上最對齊模型

Anthropic稱,Claude Sonnet 4.5是其迄今為止最對齊的前沿模型


通過提升模型能力和進行廣泛的安全訓(xùn)練,模型的行為得到了顯著改善,減少了逢迎、欺騙、權(quán)力尋求和鼓勵妄想等不良行為。針對智能體和計算機使用能力,模型在抵御提示注入攻擊方面也取得了長足進步

Claude Sonnet 4.5在AI安全等級3(ASL-3)的保護下發(fā)布。這些保護措施包括旨在檢測潛在危險輸入和輸出的分類器,特別是與化學(xué)、生物、放射性和核(CBRN)武器相關(guān)的內(nèi)容

如果分類器意外標(biāo)記了正常內(nèi)容,用戶可以方便地切換到CBRN風(fēng)險較低的Sonnet 4模型繼續(xù)對話。Anthropic表示,自最初引入分類器以來,他們已將誤報率降低了十倍

one more thing

與Sonnet 4.5一同發(fā)布的還有一個名為“Imagine with Claude”的限時研究預(yù)覽

在這個實驗中,Claude能夠?qū)崟r動態(tài)地生成軟件,沒有任何預(yù)定功能或預(yù)寫代碼。用戶可以看到Claude根據(jù)交互請求進行實時創(chuàng)建和調(diào)整

該功能向Max訂閱用戶開放,為期五天

上手小測試

我用之前測試新模型前端能力的提示詞測了一下,并且至少進行了5次抽卡,沒有一次成功,感覺Claude Sonnet 4.5代碼能力提升貌似不大,提示詞如下:

模擬,一個由彈力球組成的正方體漂浮在半空中,從正方體最下一層慢慢塌方,注意是,一層一層塌方,小球落在桌子上彈起來,直到靜止,模擬整個塌方過程,整個過程符合物理規(guī)律,效果要酷炫,整個環(huán)境要盡量逼近真實,在單個HTML中實現(xiàn)

實現(xiàn)效果:一次掉落了兩層后,小球就不往下掉落了,核心的邏輯沒有實現(xiàn)

完整的技術(shù)細節(jié)和評估結(jié)果,可參閱官方發(fā)布的系統(tǒng)卡、模型頁面和文檔

https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf(整整148頁)

https://www.anthropic.com/claude/sonnet

https://docs.claude.com/en/docs/about-claude/models/overview

https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents(這篇也很重要,講如何為Agent構(gòu)建的上下文工程context engineering,詳細請看下一篇文章)

官方測試方法說明

SWE-bench Verified: 所有Claude結(jié)果均使用一個包含bash和文件編輯兩個工具的簡單框架報告。在完整的500個問題的SWE-bench Verified數(shù)據(jù)集上,通過10次試驗平均,無測試時計算,200K思考預(yù)算,得分為77.2%

OSWorld: 所有分?jǐn)?shù)均使用官方OSWorld-Verified框架報告,最大步數(shù)為100,4次運行取平均值

MMMLU: 所有分?jǐn)?shù)均為在14種非英語語言上進行5次運行的平均值,并使用了擴展思考(最高128K)。

其他模型的得分均引用自O(shè)penAI和Google發(fā)布的官方文章或排行榜

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
前谷歌CEO透露:中國人工智能只落后美國兩年,黃仁勛警告:拜托!中國只落后幾納秒!

前谷歌CEO透露:中國人工智能只落后美國兩年,黃仁勛警告:拜托!中國只落后幾納秒!

大白聊IT
2025-10-01 22:09:24
眼鏡眉!獨行俠社媒曬安東尼·戴維斯訓(xùn)練照,他已戴上護目鏡

眼鏡眉!獨行俠社媒曬安東尼·戴維斯訓(xùn)練照,他已戴上護目鏡

雷速體育
2025-10-01 09:25:05
保時捷女銷售9月再奪銷冠:國慶假期我上7天班,很少有不是銷冠的時候;曾兩年賣340臺保時捷,因被造黃謠報警

保時捷女銷售9月再奪銷冠:國慶假期我上7天班,很少有不是銷冠的時候;曾兩年賣340臺保時捷,因被造黃謠報警

極目新聞
2025-09-30 17:16:34
玄學(xué)提醒:盡量不要跟身邊任何人,包括你的父母妻兒分享這3件事

玄學(xué)提醒:盡量不要跟身邊任何人,包括你的父母妻兒分享這3件事

聞心品閣
2025-09-24 08:19:08
8000塊的手表,換不了一條命,CBA70分先生被殺

8000塊的手表,換不了一條命,CBA70分先生被殺

籃球小人物
2025-10-01 12:13:29
她21歲打敗王菲,童顏巨乳躺賺上億,卻甘愿主動過氣

她21歲打敗王菲,童顏巨乳躺賺上億,卻甘愿主動過氣

橙星文娛
2025-09-29 00:25:05
福將!陳俊菘3-2勝泊雷特闖進16強,可暴露了2個毛病

福將!陳俊菘3-2勝泊雷特闖進16強,可暴露了2個毛病

真理是我親戚
2025-10-01 22:04:36
《沉默的榮耀》吳石:56歲被槍決,夫人王碧璽入獄,女兒輟學(xué)嫁人

《沉默的榮耀》吳石:56歲被槍決,夫人王碧璽入獄,女兒輟學(xué)嫁人

動物奇奇怪怪
2025-10-01 04:41:23
大反轉(zhuǎn)!確認系自導(dǎo)自演!網(wǎng)友:太惡心了...

大反轉(zhuǎn)!確認系自導(dǎo)自演!網(wǎng)友:太惡心了...

FM93浙江交通之聲
2025-09-30 14:11:04
預(yù)警!大雨暴雨將抵福建

預(yù)警!大雨暴雨將抵福建

業(yè)翔民安
2025-10-01 22:45:25
票數(shù)大幅領(lǐng)先,國民黨新主席已定?張亞中:我是臺灣人也是中國人

票數(shù)大幅領(lǐng)先,國民黨新主席已定?張亞中:我是臺灣人也是中國人

肖茲探秘說
2025-09-16 17:09:49
正式拒絕,卡納瓦羅表態(tài),官宣決定,原因找到,中國足協(xié)看懂

正式拒絕,卡納瓦羅表態(tài),官宣決定,原因找到,中國足協(xié)看懂

樂聊球
2025-10-01 12:10:54
于和偉沒想到,9位老戲骨給自己當(dāng)綠葉,卻被跨界歌手搶盡風(fēng)頭

于和偉沒想到,9位老戲骨給自己當(dāng)綠葉,卻被跨界歌手搶盡風(fēng)頭

小椰的奶奶
2025-10-01 06:52:25
44歲余文樂在上海逛街,整個人看起來胖了好多,皮膚黝黑

44歲余文樂在上海逛街,整個人看起來胖了好多,皮膚黝黑

手工制作阿殲
2025-10-01 03:11:10
男子冒充外賣員入戶,與女主播發(fā)生6次關(guān)系,女子哭訴:還帶道具

男子冒充外賣員入戶,與女主播發(fā)生6次關(guān)系,女子哭訴:還帶道具

書畫藝術(shù)收藏
2025-08-30 19:30:03
突發(fā)!朝鮮半島凌晨交火,五角大樓高層緊急集合,韓國動真格了?

突發(fā)!朝鮮半島凌晨交火,五角大樓高層緊急集合,韓國動真格了?

阿芒娛樂說
2025-10-01 02:08:46
程瀟 這怎么可能心靜呢

程瀟 這怎么可能心靜呢

阿廢冷眼觀察所
2025-09-20 12:00:10
《速度與激情》男演員吉布森被通緝,因飼養(yǎng)烈性犬咬死了鄰居的寵物犬,并將狗轉(zhuǎn)移拒絕交出

《速度與激情》男演員吉布森被通緝,因飼養(yǎng)烈性犬咬死了鄰居的寵物犬,并將狗轉(zhuǎn)移拒絕交出

魯中晨報
2025-09-30 15:27:06
印度留學(xué)生刷爆信用卡后逃回國,引爆罵戰(zhàn)!又有印度人盯上中國?

印度留學(xué)生刷爆信用卡后逃回國,引爆罵戰(zhàn)!又有印度人盯上中國?

每日一見
2025-10-02 01:56:42
中國富豪正在集體“撤離”新加坡,回流香港?

中國富豪正在集體“撤離”新加坡,回流香港?

新加坡眼
2025-10-01 18:43:19
2025-10-02 03:48:49
AI寒武紀(jì) incentive-icons
AI寒武紀(jì)
專注于人工智能,科技領(lǐng)域
908文章數(shù) 360關(guān)注度
往期回顧 全部

科技要聞

天問二號最新影像!五星紅旗與地球同框

頭條要聞

75萬公務(wù)員近7年文件全丟失 韓政府文件存儲系統(tǒng)被燒毀

頭條要聞

75萬公務(wù)員近7年文件全丟失 韓政府文件存儲系統(tǒng)被燒毀

體育要聞

蓉城獨撐中超!3隊6戰(zhàn)僅1勝 申花痛失好局

娛樂要聞

董璇母女國慶節(jié)跳舞 小酒窩眼神堅定

財經(jīng)要聞

美國聯(lián)邦政府“關(guān)門”,有何影響?

汽車要聞

零跑9月銷量突破6萬臺大關(guān) 刷新新勢力單月交付紀(jì)錄

態(tài)度原創(chuàng)

健康
教育
時尚
手機
數(shù)碼

內(nèi)分泌科專家破解身高八大謠言

教育要聞

來上課了——高考完形填空與課內(nèi)詞匯用法精講(一)第二段

空瓶專場|| 不停產(chǎn)能用到老,沒想到它也破價了

手機要聞

聯(lián)想moto X70 Air輕薄手機官宣,月底見!

數(shù)碼要聞

Google展示基于Gemini的Google Home智能音箱 2026年春季上市

無障礙瀏覽 進入關(guān)懷版 亚洲日本中文字幕乱码在线电影| 久久无码专区| 成人免费无遮挡在线播放| 女虐女 国产sm| 日本高清中文字幕免费一区二区 | 国产乱子伦视频大全| 免费一区二区无码东京热| 蜜桃AV一区在线| 综合网久久| 手机少妇AV在线| 一本之道无码色视频网站 | 国产亚洲美女精品久久久| 亚洲AV成人教育片| 日本婷婷开心在线| 国产精品久久久久兔费无码AV| 日本熟女二区| 久久久久人妻精品樱花影视| 亚洲无码很黄很色91视觉盛宴在线播放| 久久人妻少妇嫩草av蜜桃| 超碰91人人操| 中文字幕人妻中文| 亚洲伊人久久综合影院| 亚洲国产中文曰韩丝袜| 国产亚洲综合aa系列| 天堂资源中文最新版在线一区| 欧美性爱综合| 精品国产一区二区性色av | 午夜福利视频免费观看| 天天操夜夜操| 亚洲av日韩av男人的天堂在线| 日本熟妇人妻一区二区三区| 狠狠色噜噜色伊人AV蜜臀| 日本少妇自慰免费网站| 欧美大bbb毛多| 无码成人精品区一级毛片| 蜜臀亚洲一区二区| 日韩欧美在线观看一区二区视频| 国产一区影视在线| 久久免费精品国产72精品| 亚洲伊人精品酒店| 国产欧美婬乱一区二区|