夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI大神卡帕西發(fā)年終總結(jié)!大模型有6大轉(zhuǎn)折點,潛力挖掘不足10%

0
分享至


智東西
編譯 王欣逸
編輯 程茜

智東西12月23日消息,12月20日,前特斯拉AI總監(jiān)、OpenAI聯(lián)合創(chuàng)始人安德烈·卡帕西(Andrej Karpathy)在其個人博客上發(fā)布帖子,談到2025年大模型的6個轉(zhuǎn)折點,他認為行業(yè)對當前大模型潛力的挖掘尚不足10%,大模型比他預(yù)期的聰明得多,也笨拙得多。


在全文中,他特別提到了6個關(guān)鍵詞——RLVR(基于可驗證獎勵的強化學(xué)習(xí))、大模型智能的“形態(tài)”、大模型新應(yīng)用層、AI交互新范式、Vibe Coding(氛圍編程)以及大模型交互形式,還單獨提及了2個模型,Anthropic的編程模型Claude Code和谷歌的圖像編輯模型Nano Banana,以及1家公司AI編程創(chuàng)企Cursor。

2025年,預(yù)訓(xùn)練、監(jiān)督微調(diào)以及基于人類反饋的強化學(xué)習(xí)的大模型傳統(tǒng)訓(xùn)練范式發(fā)生改變,新的范式以基于可驗證獎勵的強化學(xué)習(xí)為核心,讓模型在數(shù)學(xué)、代碼等有明確對錯的環(huán)境中進行訓(xùn)練,從而自發(fā)涌現(xiàn)出推理能力。

博客核心信息如下:

1、RLVR的突破在于利用數(shù)學(xué)、編程等可客觀驗證的獎勵函數(shù)對模型進行長期、深度的優(yōu)化,讓模型自發(fā)地形成了在人類看來酷似“推理”的策略,這一方法是提升模型能力性價比極高的方法。

2、大模型智能的本質(zhì)是“召喚幽靈”,大模型由人類數(shù)據(jù)與訓(xùn)練目標所定義,它沒有意識,完全不同于“會成長的生命體”。

3、基準測試極易受到RLVR或通過合成數(shù)據(jù)生成等較弱形式的影響,當下的AI基準測試正面臨“刷分”導(dǎo)致的可信度危機。

4、大模型新應(yīng)用層的關(guān)鍵是構(gòu)建以模型為核心的專業(yè)系統(tǒng),通過編排多個模型調(diào)用、工具和私有數(shù)據(jù),形成解決復(fù)雜任務(wù)的工作流,承擔上下文作用。

5、Claude Code的顯著特點是能運行在開發(fā)者的電腦上,調(diào)用開發(fā)者的私人環(huán)境、數(shù)據(jù)和上下文,這是一種與AI交互的全新范式。

6、通過Vibe Coding(氛圍編程),寫代碼不再嚴格局限于受過高度訓(xùn)練的專業(yè)人士,任何人都可以嘗試,這將重塑軟件生態(tài)與職業(yè)定義。

7、大模型的輸出形態(tài)將從純文本演進成人們喜愛的方式,如圖像、信息圖、幻燈片、動畫/視頻、網(wǎng)頁應(yīng)用等。

8、大模型正在演化成一種新型智能,卡帕西認為它既比預(yù)期聰明得多,又比預(yù)期笨拙得多,行業(yè)至今尚未發(fā)掘出大模型能力潛力的10%。

以下為卡帕西博客全文翻譯,題為《2025年大模型年度回顧(2025LLMYear in Review)》:

2025年是大模型取得強勁發(fā)展、進展顯著的一年。以下是我個人關(guān)注到的具有代表性、有點出乎意料的“范式變遷”(paradigm changes)清單,這些變化深刻影響行業(yè)格局,并在概念層面讓我感到印象深刻。

一、RLVR:基于可驗證獎勵的強化學(xué)習(xí)

2025年伊始,大模型標準生產(chǎn)流程大致如下:

1、預(yù)訓(xùn)練(約2020年的GPT-2/3)

2、監(jiān)督微調(diào)(約2022年的InstructGPT)

3、基于人類反饋的強化學(xué)習(xí)(約2022年的RLHF)

在一段時間內(nèi),這曾是訓(xùn)練生產(chǎn)級大模型的穩(wěn)定、已驗證的配方。然而,2025年,RLVR成為事實上的新的標準環(huán)境。

RLVR的核心突破在于,通過讓大模型在數(shù)學(xué)、編程等可自動驗證答案的環(huán)境中進行強化學(xué)習(xí)訓(xùn)練,模型自發(fā)地形成了在人類看來酷似“推理”的策略:它們學(xué)會了將復(fù)雜問題拆解為中間步驟進行計算,并掌握了多種來回推敲以解決問題的策略(參見DeepSeek R1論文中的示例)。

這是傳統(tǒng)范式難以實現(xiàn)的能力,因為對于大模型來說,最優(yōu)的推理路徑和糾錯方式并不明確,模型必須在獎勵信號的引導(dǎo)下,自行探索一套適合自己的問題解決辦法。

與之前計算消耗相對較小的SFT(監(jiān)督微調(diào))和RLHF(人類反饋強化學(xué)習(xí))不同,RLVR涉及利用數(shù)學(xué)、編程等可客觀驗證的獎勵函數(shù)進行長期、深度的優(yōu)化。事實證明,運行RLVR階段是提升模型能力性價比極高的方法,因此迅速奪走了原本用于預(yù)訓(xùn)練的大量計算資源。

2025年模型能力的飛躍,主要源于各大實驗室對這一范式的全力投入,其結(jié)果是,模型參數(shù)量雖然沒有發(fā)生顯著變化,但強化學(xué)習(xí)訓(xùn)練過程大幅延長。

這個新階段還引入了一個前所未有的新維度:通過生成更長的推理軌跡、增加思考時間,開發(fā)者可靈活調(diào)控測試階段的計算量。

OpenAI在2024年底推出的o1模型首次展示了RLVR的潛力,而2025年初的o3版本則成為一個明顯的拐點,其能力的質(zhì)變已能被清晰感知。

二、“幽靈”與“動物”:智能的鋸齒狀能力

2025年,整個行業(yè)開始開始更直觀地理解大模型智能的“形態(tài)”。我們面對的不是在“進化、成長著的動物”,而是在“召喚幽靈”。

大模型的技術(shù)棧(神經(jīng)網(wǎng)絡(luò)架構(gòu)、訓(xùn)練數(shù)據(jù)、訓(xùn)練算法,尤其是優(yōu)化目標)與人類智能的方方面面都不同,因此我們得到的是智能空間中截然不同的實體,用動物的視角來思考它們是不合適的。

從監(jiān)督信號的根源看,人腦神經(jīng)網(wǎng)絡(luò)是為了叢林部落的生存而優(yōu)化的,而大模型的神經(jīng)網(wǎng)絡(luò)則被優(yōu)化用于模仿人類文本、在數(shù)學(xué)謎題中獲取獎勵、以及在競技場中獲得人類點贊。

隨著RLVR在可驗證領(lǐng)域的應(yīng)用,大模型在這些特定領(lǐng)域的能力會出現(xiàn)“爆發(fā)式增長”,整體上呈現(xiàn)出一種有趣的鋸齒狀性能特征:它們可以同時是博學(xué)的天才,也是困惑的、認知能力受限的小學(xué)生,甚至可能在下一秒鐘就被一個越獄攻擊欺騙而泄露你的數(shù)據(jù)。


▲人類智能:藍色;AI智能:紅色。我喜歡這個版本的梗圖,因為它揭示了人類智能同樣也有其自身不同的“鋸齒狀”能力。抱歉我找不到它在社交平臺X上的原帖出處。

與此相關(guān)的是,2025年,我對基準測試普遍感到漠視與信任喪失。核心問題在于,基準測試幾乎天生就是可驗證的環(huán)境,因此極易受到RLVR或通過合成數(shù)據(jù)生成等較弱形式的影響。在典型的“刷分”過程中,大模型的實驗室團隊不可避免地會構(gòu)建接近基準測試所處嵌入空間微小區(qū)域的訓(xùn)練環(huán)境,并催生出針對性的能力鋸齒來覆蓋這些區(qū)域。如今,針對測試集的訓(xùn)練已經(jīng)成為一門新的“藝術(shù)”。

如果碾壓所有基準測試卻仍然無法實現(xiàn)通用人工智能(AGI),那會是什么景象?

關(guān)于這一主題,我在以下文章中展開了更多討論:《動物vs幽靈(Animals vs. Ghosts)》《可驗證性(Verifiability)》《心智空間(The Space of Minds)》。

三、Cursor:新的大模型應(yīng)用層

除了Cursor今年的飛速崛起之外,這家企業(yè)最引人關(guān)注的是,它有力揭示了一個全新的大模型應(yīng)用層級,人們開始談?wù)摗澳愁I(lǐng)域的Cursor模式”。正如我在今年的Y Combinator演講中強調(diào)的那樣,像Cursor這樣的大模型,核心價值在于針對特定垂直領(lǐng)域捆綁和組織大模型調(diào)用,具體有以下幾點:

1、它們負責(zé)處理“上下文工程”;

2、它們在幕后編排多個大模型調(diào)用,串聯(lián)成日益復(fù)雜的有向無環(huán)圖(DAG),能仔細權(quán)衡性能和成本;

3、它們?yōu)槿斯そ槿胩峁┨囟☉?yīng)用場景的圖形用戶界面;

4、它們提供一個“自主程度調(diào)節(jié)滑塊”,靈活控制AI自主決策的權(quán)限范圍。

2025年,關(guān)于這個新應(yīng)用層“厚度”的討論很多,如大模型實驗室會通吃所有應(yīng)用場景,還是垂直領(lǐng)域的大模型應(yīng)用有其廣闊的天地?我個人認為,大模型實驗室傾向于培養(yǎng)“通識能力強的大學(xué)生”式模型,而大模型應(yīng)用則通過提供私有數(shù)據(jù)、傳感器、執(zhí)行器和反饋循環(huán),將這些通才組織、微調(diào)并激活為特定垂直領(lǐng)域可實際部署的“專業(yè)團隊”。

四、Claude Code:運行在你的電腦上的AI

Claude Code首次令人信服地展示了大模型智能體的形態(tài),它通過循環(huán)方式串聯(lián)工具使用和推理,實現(xiàn)持續(xù)的問題解決。此外,Claude Code的顯著特點在于它運行在你的電腦上,調(diào)用你的私人環(huán)境、數(shù)據(jù)和上下文。

我認為OpenAI在這方面判斷有誤,因為他們早期的Codex/智能體工作重點放在了從ChatGPT編排的云端容器部署,而不是簡單的本地運行。盡管在云端運行的智能體集群感覺像是AGI的終極形態(tài),但我們身處一個發(fā)展?jié)u進、變革速度有限的世界,能力分布仍呈鋸齒狀,因此直接在開發(fā)者的電腦上運行智能體更為合理。

關(guān)鍵區(qū)別并不在于“AI運算”發(fā)生在何處(云端或者本地),而在于其他一切:已經(jīng)存在且已啟動的計算機、其安裝環(huán)境、上下文、數(shù)據(jù)、密鑰、配置以及低延遲交互。Anthropic把優(yōu)先順序處理得很正確,將Claude Code封裝成一種簡潔優(yōu)雅的命令行界面形式,從而改變了AI的模樣:它不再只是一個像谷歌那樣需要訪問的網(wǎng)站,而是一個居住在你電腦中的小型精靈/幽靈。這是一種與AI交互的新穎、獨特的范式。

五、Vibe Coding

2025年,AI跨過了一個能力臨界點,使得僅通過自然語言描述就能構(gòu)建各類令人驚嘆的程序成為可能,人們甚至無需在意代碼的存在。有趣的是,我曾在一條隨手發(fā)布的推文中創(chuàng)造了“Vibe Coding”這個詞,當時完全沒有想到它會發(fā)展至此。

通過Vibe Coding,寫代碼不再嚴格局限于受過高度訓(xùn)練的專業(yè)人士,而是任何人都可以做的事情。從這個角度看,它正是我在《技術(shù)平權(quán):大模型如何重塑技術(shù)擴散模式(Power to the people: How LLMs flip the script on technology diffusion)》一文中提到的又一個例證,與迄今為止所有其他技術(shù)截然不同,普通人從大模型中獲得的益處遠超專業(yè)人士、企業(yè)和政府。

Vibe Coding不僅賦能普通人接觸編程,更讓專業(yè)開發(fā)者能輕松編寫大量通過Vibe Coding實現(xiàn)的軟件,而這些軟件原本是永遠不會被創(chuàng)造出來的。例如在開發(fā)nanochat項目中,我就通過Vibe Coding用Rust自研了一套高效BPE分詞器,無需依賴現(xiàn)有庫或深入鉆研Rust。我今年還用Vibe Coding創(chuàng)造了許多項目,并快速實現(xiàn)了許多創(chuàng)意原型,例如 menugen、llm-council、reader3、HN time capsule等。我甚至通過Vibe Coding編寫了整套臨時應(yīng)用程序,就為了找到一個bug。代碼突然間變得免費、短暫、可塑、用后即棄。Vibe Coding將重塑軟件生態(tài)與職業(yè)定義。

六、Nano Banana:大模型的圖形用戶界面(GUI)

谷歌Gemini Nano Banana是2025年最令人難以置信、最具范式轉(zhuǎn)移意義的模型之一。在我看來,大模型是類似20世紀70-80年代的全新計算范式,因此我們將看到基于相似邏輯的創(chuàng)新涌現(xiàn),例如個人計算、微控制器(認知核心)、智能體互聯(lián)網(wǎng)等對應(yīng)形態(tài)。特別是在用戶界面/用戶體驗上,當前與大模型“聊天”有點像上世紀80年代向計算機終端輸入指令。

文本是計算機(和大模型)偏愛的數(shù)據(jù)形式,但它不是人們偏愛的格式,尤其是在輸入上。人們其實不喜歡閱讀文字,因為它很慢而且費力。相反,人們喜歡以視覺和空間的方式接受信息,這正是傳統(tǒng)計算中圖形界面誕生的原因。同樣地,大模型應(yīng)以我們喜愛的方式輸出信息——如圖像、信息圖、幻燈片、白板、動畫/視頻、網(wǎng)頁應(yīng)用等。早期的實現(xiàn)形式包括表情符號和Markdown(輕量級文本標注語言),它們通過標題、加粗、列表、表格等方式“裝扮”文本以提升可讀性。

但究竟誰來構(gòu)建大模型的圖形用戶界面呢?Nano Banana為此提供了第一個雛形。關(guān)鍵在于,它不僅涉及圖像生成能力,更融合了文本生成、圖像創(chuàng)作與世界知識,這些能力交織于模型權(quán)重之中,形成復(fù)合型智能。

七、結(jié)語

總而言之,2025年是大模型令人興奮又略帶驚喜的一年。大模型正在演化成一種新型智能,既比我預(yù)期的聰明得多,又比我預(yù)期的笨拙得多。無論如何,它們非常有用,而我認為行業(yè)至今尚未發(fā)掘出當前能力潛力的10%。與此同時,這個領(lǐng)域依然充滿嘗試空間與開放性概念。正如今年早些時候我在Dwarkesh播客中提到的:“我同時持有兩種看似矛盾的觀點:一方面相信進展將持續(xù)加速,另一方面認為仍有大量基礎(chǔ)工作亟待完成?!毕岛冒踩珟В幼兏?。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
策略:明天12月24日的預(yù)判出來了,全面減倉之前,我要說兩句!

策略:明天12月24日的預(yù)判出來了,全面減倉之前,我要說兩句!

一擔金
2025-12-23 12:42:57
某體制內(nèi)單位的工作時間,真的實名羨慕了

某體制內(nèi)單位的工作時間,真的實名羨慕了

微微熱評
2025-12-23 00:38:18
追夢格林一家近照,二婚娶女明星,生第5個娃,賺2.5億不缺錢

追夢格林一家近照,二婚娶女明星,生第5個娃,賺2.5億不缺錢

大西體育
2025-12-23 15:57:40
祝賀李金羽!遼足拿下標王級外援,身價高達4千萬,排名中超第一

祝賀李金羽!遼足拿下標王級外援,身價高達4千萬,排名中超第一

國足風(fēng)云
2025-12-23 15:53:08
馬克龍背叛默茨,準備與俄領(lǐng)導(dǎo)人會談;魯比奧猛批歐洲喪失價值觀

馬克龍背叛默茨,準備與俄領(lǐng)導(dǎo)人會談;魯比奧猛批歐洲喪失價值觀

山河路口
2025-12-22 13:35:28
廣東女護士林楚欣,因淤青確診癌癥,年僅18歲,兩個月共花費13萬

廣東女護士林楚欣,因淤青確診癌癥,年僅18歲,兩個月共花費13萬

溫辭韞
2025-12-23 10:42:08
網(wǎng)友力量大!五件“假畫”,一件不少,全找到了

網(wǎng)友力量大!五件“假畫”,一件不少,全找到了

眼界縱橫
2025-12-23 00:16:39
造成毛岸英犧牲的罪魁禍首,讓毛主席痛恨得罪人,他們下場如何?

造成毛岸英犧牲的罪魁禍首,讓毛主席痛恨得罪人,他們下場如何?

風(fēng)笛悠揚聲
2025-12-04 10:08:06
40多歲辭職創(chuàng)業(yè),成為深圳第二有錢的女人,又要IPO了?

40多歲辭職創(chuàng)業(yè),成為深圳第二有錢的女人,又要IPO了?

毒sir財經(jīng)
2025-12-22 21:24:05
巴薩核心對著隊友怒吼!西媒:他才是巴薩的真領(lǐng)袖

巴薩核心對著隊友怒吼!西媒:他才是巴薩的真領(lǐng)袖

星耀國際足壇
2025-12-23 11:20:19
何穗產(chǎn)后復(fù)出,強勢回歸!登上時尚芭莎開年刊,網(wǎng)友:陳偉霆帶娃

何穗產(chǎn)后復(fù)出,強勢回歸!登上時尚芭莎開年刊,網(wǎng)友:陳偉霆帶娃

心靜物娛
2025-12-23 14:01:18
女人陪你去下面三個地方,就是想要和你越界了,藏不住

女人陪你去下面三個地方,就是想要和你越界了,藏不住

落雪聽梅a
2025-12-23 12:10:06
5000萬廣東先生成大番薯,登場8分鐘拿下4犯,杜鋒換走徐昕吃大虧

5000萬廣東先生成大番薯,登場8分鐘拿下4犯,杜鋒換走徐昕吃大虧

二哥聊球
2025-12-23 22:36:57
43歲迪拜最帥王儲和馬斯克同框,又黑又矮濾鏡全碎,一人帶一個娃

43歲迪拜最帥王儲和馬斯克同框,又黑又矮濾鏡全碎,一人帶一個娃

照見古今
2025-12-23 18:19:01
離岸人民幣兌美元匯率升至7.0253 ,是自2024年10月2日以來的最高水平

離岸人民幣兌美元匯率升至7.0253 ,是自2024年10月2日以來的最高水平

每日經(jīng)濟新聞
2025-12-23 10:52:06
濃眉35+17賽季新高獨行俠難阻鵜鶘5連勝 錫安24+9克萊20分

濃眉35+17賽季新高獨行俠難阻鵜鶘5連勝 錫安24+9克萊20分

醉臥浮生
2025-12-23 11:26:47
1962年李敏生子求賜名,毛主席盯著窗外看了許久,毛主席:給娃取名,別用我的字

1962年李敏生子求賜名,毛主席盯著窗外看了許久,毛主席:給娃取名,別用我的字

寄史言志
2025-12-18 18:37:14
49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當年小燕子徹底涼透了

49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當年小燕子徹底涼透了

阿纂看事
2025-12-12 09:18:29
小姐姐吊帶背心配同色瑜伽褲,圓潤曲線盡顯,青春活力擋不住

小姐姐吊帶背心配同色瑜伽褲,圓潤曲線盡顯,青春活力擋不住

小喬古裝漢服
2025-12-22 16:57:01
向太曝馬伊琍已再婚:當年文章過不了心理那關(guān)

向太曝馬伊琍已再婚:當年文章過不了心理那關(guān)

娛樂看阿敞
2025-12-12 15:50:00
2025-12-23 23:23:00
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級。
10961文章數(shù) 116932關(guān)注度
往期回顧 全部

科技要聞

慘烈90分鐘!快手驚魂:遭遇最強黑產(chǎn)攻擊

頭條要聞

特朗普稱出于國家安全"必須拿下格陵蘭島" 又扯上中俄

頭條要聞

特朗普稱出于國家安全"必須拿下格陵蘭島" 又扯上中俄

體育要聞

楊瀚森連續(xù)5場DNP!開拓者遭活塞雙殺

娛樂要聞

朱孝天回應(yīng)阿信感謝,自曝沒再收到邀約

財經(jīng)要聞

祥源系百億產(chǎn)品爆雷 浙金中心18人被拘

汽車要聞

四款新車集中發(fā)布 星途正式走進3.0時代

態(tài)度原創(chuàng)

健康
家居
教育
藝術(shù)
親子

這些新療法,讓化療不再那么痛苦

家居要聞

通透明亮 大氣輕奢風(fēng)

教育要聞

成都這所學(xué)校的課堂變樣了:AI在語文課當“辯手”,在體育課做“私教”

藝術(shù)要聞

朱總理的詩句驚艷眾人,張家界竟藏有這樣的美景!

親子要聞

年銷10億的兒童止咳藥,說明書增加:會導(dǎo)致“自殺傾向”

無障礙瀏覽 進入關(guān)懷版 日本中国内射bbxx| 成人免费久久精品国产片久久影院 | 舌头伸进去添的我好爽高潮欧美| 国产囗交口爆在线视频480| 黄色成人免费高清| 国产偷情一区| 俄罗斯美女真人性做爰| 国产精品久久久久久福利| 国产aⅴ无码专区亚洲av麻豆| 人美人妻人人乐| 天堂久久天堂av色综合| 五月丁香操婷婷| 国产精品桃色无码免费看 | 亚洲色一区二区三区四区| 久久av小说| 91丝袜美腿高跟国产极品老师| 国产草草影院ccyycom| 色噜噜日韩精品欧美一区二区| 少妇被躁爽到高潮无码麻豆AV| 亚洲精品一二三伦理中文| 久久精品国产亚洲av成人| 欧洲无人区卡一卡二卡三| 疯狂做受xxxx高潮欧美日本| 九九热大香焦视频| 亚洲精品观看视频| 免费无码成人av在线播| 亚洲AV无码一,区二区二三区j| 精品人妻av区| 亚洲国产婷婷香蕉久久久久久99| 黑人巨鞭大战洋妞视频 | 国产精品自在拍首页视频| 中文字幕日本最新乱码视频| 精品亚洲国产成人AV色哟哟| 国产成人啪精品视频免费网 | 国产亚洲精品a在线看| 天天躁夜夜躁狠狠躁躁88| 国产av成人一区二区三区| 欧美精品一级二级A片| 国产美女精品自在线拍免费| 12孩岁女孩在线| 国产欧美日韩精品a在线看|