Andrej Karpathy 的最新演講又刷屏了:
過去 70 年,軟件的底層范式幾乎未變。
但在近幾年里,這種“穩(wěn)態(tài)”被兩次劇烈沖擊。
我將當(dāng)前的浪潮稱為“Software 3.0”。
演講視頻:https://www.youtube.com/watch?v=LCEmiRjPEtQ
演講 PPT:https://drive.google.com/file/d/1a0h1mkwfmV2PlekxDN8isMrDA5evc4wW/view(無法領(lǐng)取的小伙伴可添加文中小助手領(lǐng)取)
責(zé)編 | 夢依丹
出品丨AI 科技大本營(ID:rgznai100)
作為 OpenAI 初始成員,前特斯拉 AI 總監(jiān),Andrej Karpathy 親歷并塑造了過去十年深度學(xué)習(xí)的黃金時代。
他的每一次開口,幾乎都能點(diǎn)燃技術(shù)社區(qū)的瘋狂討論與思考,就在上周的 Y Combinator 舉辦的 AI Startup School 上,他發(fā)表的《Software in the era of AI》演講再一次揭示了 AI 時代的軟件開發(fā)正經(jīng)歷深刻的范式變革。
以下是對他演講原文的整理,去掉一些口語化表達(dá),使用 Gemini 2.5 Pro 進(jìn)翻譯與適當(dāng)優(yōu)化:
大家好,很高興今天能來到這里。我想說的是,現(xiàn)在是進(jìn)入科技行業(yè)極其獨(dú)特且特別令人興奮的時刻。
為什么這么說,軟件再次被改變。
我之所以說“再次”,是因?yàn)閹啄昵拔以l(fā)表過名為「Software 2.0」的觀點(diǎn),當(dāng)時我認(rèn)為軟件的形態(tài)發(fā)生了第一次重大躍遷。
你可能難以想象,在過去七十年的時間里,軟件的底層范式幾乎沒有本質(zhì)性的變化??删驮谧罱潭處啄辏B續(xù)經(jīng)歷了兩次劇烈躍遷。
這意味著什么?
意味著我們有一座龐大的軟件世界需要重建,有無數(shù)的系統(tǒng)等待重寫。
一張“軟件版圖”,三次范式革命
設(shè)想你面前是一張軟件世界的地圖。圖中星羅棋布的,不是城市和河流,而是成千上萬的代碼倉庫。每一個 repo,都是人類試圖與計(jì)算機(jī)對話的一次嘗試。
幾年前,我開始意識到這張地圖正在悄然變形:有一種“新型軟件”正在浮現(xiàn)。
我把它稱為 Software 2.0。
Software 1.0 時代是由人類用 Python、C++ 等語言明確編寫的代碼的時代,這是過去 70 年軟件開發(fā)的主流形態(tài)。
Software 2.0 則是以神經(jīng)網(wǎng)絡(luò)的權(quán)重為核心。我們不再直接編寫復(fù)雜的邏輯,而是通過設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)、準(zhǔn)備數(shù)據(jù)集,然后用優(yōu)化算法(如梯度下降)來“尋找”能解決問題的程序。
如果說 GitHub 是 Software 1.0 的王國,那么 Hugging Face 就好比是 Software 2.0 時代的 GitHub。
它不在是托管代碼,而是托管模型。
你甚至可以在它的“模型地圖”(Model Atlas)上看到各種各樣的模型,就像在 GitHub 上看代碼倉庫一樣。
你在圖上看到那個巨大的圓圈嗎?中心那一點(diǎn),正是圖像生成模型 Flux 的核心參數(shù)體積。
每當(dāng)有人基于 Flux 微調(diào)出一個新模型,就像是給這棵演化樹打上了新的 Git 提交。
一次 LoRA 微調(diào),就是一次模型的分支——就像你在 Git 上拉出新的一條開發(fā)線。
Software 3.0 的到來:新范式,新電腦,新語言
然而,真正的顛覆才剛剛開始。我認(rèn)為,在 Software 2.0 之后,我們迎來了又一次根本性的變革,我愿稱之為 Software 3.0。
過去我們訓(xùn)練的神經(jīng)網(wǎng)絡(luò),大多像“定制功能機(jī)”:識別圖像、翻譯句子、回答問題……每個模型都只擅長一件事。
但現(xiàn)在,模型變了。
它們不再是“預(yù)制功能塊”,而是像 Unix 那樣擁有模塊和庫,能編排、能組合,變得真正“可編程”。
這一次,軟件的核心變成了用自然語言(比如英語)“提示詞”(Prompts)。這些提示詞,正在編程一種全新的計(jì)算機(jī)——大型語言模型(LLM)。
過去,我們用 Software 1.0 的代碼去編程計(jì)算機(jī);后來,我們用 Software 2.0 的權(quán)重去編程神經(jīng)網(wǎng)絡(luò);而現(xiàn)在,我們用 Software 3.0 的提示詞去編程 LLM。
假設(shè)你要實(shí)現(xiàn)一個情感分類器:
Software 1.0:你需要手寫一堆 Python 代碼和關(guān)鍵詞規(guī)則來判斷文本情感;
Software 2.0:你需要準(zhǔn)備成千上萬個正負(fù)面樣本,訓(xùn)練一個二元分類器。
Software 3.0:你只需要寫幾句話,給 LLM 看幾個例子,它就能明白你的意圖并開始工作。
幾年前,當(dāng)我意 識到這一點(diǎn)的時候,我感到非常震撼,并發(fā)布了那條非常著名的推文。
我在特斯拉工作的時候,就在經(jīng)歷這樣一場變革。
我們當(dāng)時在做 Autopilot 自動駕駛系統(tǒng)。你可以想象一下,汽車的軟件棧由底層是各種傳感器輸入(攝像頭、雷達(dá)等)和頂層是輸出(轉(zhuǎn)向、加速等)組成。
剛開始,Autopilot 的軟件棧里有海量的 C++ 代碼,也就是 Software 1.0。同時,我們也用了一些神經(jīng)網(wǎng)絡(luò)(Software 2.0)來處理感知任務(wù),比如圖像識別。
但我們觀察到一個非常有趣的趨勢:隨著 Autopilot 的能力越來越強(qiáng),神經(jīng)網(wǎng)絡(luò)的部分在不斷膨脹,變得越來越大、越來越強(qiáng)大。與此同時,那些傳統(tǒng)的 C++ 代碼正在被不斷刪除和替代。
很多原本由 Software 1.0 實(shí)現(xiàn)的功能,都被遷移到了 Software 2.0 的范疇里。
舉個例子,像“融合多攝像頭、多時間幀的圖像信息”這樣復(fù)雜的任務(wù),以前需要用 C++ 寫大量的邏輯,現(xiàn)在完全可以交給一個端到端的神經(jīng)網(wǎng)絡(luò)來完成。
于是,我們刪掉了海量的舊代碼。
所以,Software 2.0 的軟件棧真的是在一點(diǎn)點(diǎn)“吃掉”(eating through)Software 1.0 的部分。彼時,我認(rèn)為這是一個非常精彩的模式。
今天,同樣的故事再次上演。一種全新的軟件(Software 3.0)正在用一個完全不同的編程范式,開始吞噬整個軟件棧。
如果你正準(zhǔn)備進(jìn)入軟件行業(yè),我強(qiáng)烈建議你要精通這三種軟件范式。
因?yàn)樗鼈兏饔袃?yōu)劣,所以在實(shí)際開發(fā)應(yīng)用中,你需要靈活地做出選擇。
AI 產(chǎn)品爆發(fā),但你的痛點(diǎn)解決了嗎?8.15-16 北京威斯汀·全球產(chǎn)品經(jīng)理大 會 PM-Summit,3000+ AI 產(chǎn)品人社群已就位。
直面 AI 落地難題、拆解頭部案例、對接精準(zhǔn)資源!
掃碼登記信息,添加小助手進(jìn)群,搶占 AI 產(chǎn)品下一波紅利:
進(jìn)群后,您將有機(jī)會得到:
· 獨(dú)家視頻及文章解讀 AGI 時代的產(chǎn)品方法論及實(shí)戰(zhàn)經(jīng)驗(yàn)
· 不定期贈送 AI 產(chǎn)品干貨資料和秘籍
LLM:新時代的“操作系統(tǒng)”
接下來我來聊聊 LLM,這個新范式、新生態(tài)到底是什么樣?
為了理解 LLM 帶來的變革,我們可以用幾個類比:
類比 1:LLM 是新型“公共事業(yè)”(Utilities)
幾年前,Andrew Ng(吳恩達(dá))曾說“AI 是新的電力”。
我非常認(rèn)同這個觀點(diǎn),因?yàn)樗プ×?LLM 的一個核心特質(zhì):LLM 確實(shí)越來越具備「公共事業(yè)(Utilities)」 的屬性。
你看那些頂尖的 LLM 實(shí)驗(yàn)室,OpenAI、 Google、 Anthropic 等 公司:
巨額資本投入(CAPEX):他們投入海量資金訓(xùn)練基礎(chǔ)模型,這就像電力公司在建設(shè)電網(wǎng);
API 即服務(wù)(OPEX):他們通過 API 向我們所有人提供“智能”服務(wù);
按量計(jì)費(fèi):我們通過互聯(lián)網(wǎng)接入,并按照“百萬 Token”這樣的單位付費(fèi),就像我們按度數(shù)支付電費(fèi)一樣;
服務(wù)要求:我們對這些 API 的要求——低延遲、高可用性——也和對電力的要求如出一轍。
在電力系統(tǒng)中,你會有個轉(zhuǎn)換開關(guān),可以在電網(wǎng)、太陽能、電池或發(fā)電機(jī)之間切換電力來源。
在 LLM 領(lǐng)域,我們現(xiàn)在有了像 OpenRouter 這樣的工具,可以讓你輕松地在不同類型的 LLM 之間切換。
更有趣的是,因?yàn)?LLM 是軟件,它們不像發(fā)電廠那樣需要物理空間。所以,你可以同時接入六家不同的“電力公司”(LLM 提供商),并隨時切換,這在物理世界是不可想象的。
“公共事業(yè)”這個類比最傳神的一點(diǎn)就是前幾天我們剛剛經(jīng)歷的:當(dāng)頂尖的 LLM 服務(wù)中斷時,整個世界仿佛經(jīng)歷了一場“智能停電”(intelligence brownout)。人們突然發(fā)現(xiàn)自己寸步難行,無法工作。
這讓我覺得非常奇妙。當(dāng)電網(wǎng)電壓不穩(wěn)時,我們的生活會受影響;而現(xiàn)在,當(dāng) LLM 服務(wù)中斷時,整個地球的“智商”似乎都降低了。
我們對這些模型的依賴程度已經(jīng)非常高,而且我認(rèn)為這種依賴還會急劇增長。
類比 2:LLM 像“芯片工廠”(Fabs)
訓(xùn)練 LLM 也 像建造芯片工廠,需要巨大的資本投入、尖端的技術(shù)研發(fā)和高度保密的“制程工藝”。
像 NVIDIA 這樣的公司提供 GPU,扮演了“無廠半導(dǎo)體設(shè)計(jì)公司”(Fabless)的角色,而 Google 自研 TPU,則更像是擁有自己工廠的英特爾(Intel)。
類比 3:LLM 是新時代的“操作系統(tǒng)”(Operating Systems)
這是我個人最喜歡的類比。LLM 遠(yuǎn)比電力或水這樣的商品復(fù)雜,它更像一個復(fù)雜的軟件生態(tài)系統(tǒng)。
這個生態(tài)的演化路徑,也與操作系統(tǒng)的歷史驚人地相似:
市場格局:我們看到少數(shù)幾家強(qiáng)大的閉源提供商(如 Windows、macOS),同時存在一個充滿活力的開源替代品(如 Linux)。在 LLM 領(lǐng)域,我們同樣有少數(shù)幾家頂尖的閉源模型,而 Llama 系列等開源模型正在扮演類似 Linux 的角色,快速追趕。
生態(tài)復(fù)雜度:這一切還只是開始。LLM 的未來遠(yuǎn)不止模型本身,還包括圍繞它的工具鏈(tool use)、多模態(tài)能力等等,整個生態(tài)會變得越來越復(fù)雜。
當(dāng)我意識到這一點(diǎn)時,我試著畫了一張圖來梳理我的思路。
在我看來,LLM 正在成為一個全新的操作系統(tǒng)。
LLM 是新的 CPU:它扮演著中央處理器的角色,負(fù)責(zé)核心的計(jì)算和推理。
上下文窗口(Context Window)是新的內(nèi)存(RAM):它決定了這臺“電腦”能同時處理多少信息。
LLM 在編排一切:它調(diào)用各種能力(工具、知識),管理內(nèi)存(上下文),最終解決復(fù)雜問題。
從這個角度看,LLM 的本質(zhì)就是一種全新的、可編程的軟件基礎(chǔ)設(shè)施。
我們還可以從應(yīng)用層面找到更多相似之處。比如,你想下載一個像 VS Code 這樣的應(yīng)用,你可以輕松地在 Windows、Linux 或 Mac 上運(yùn)行它。
同樣地,現(xiàn)在你也可以開發(fā)一個“LLM 應(yīng)用”,比如 Cursor。
你可以讓這個應(yīng)用無縫地運(yùn)行在 GPT、Claude 或 Gemini 等不同的 LLM “操作系統(tǒng)”之上,只需要一個下拉菜單就能切換。這是一種全新的跨平臺能力。
我們正處在類似計(jì)算機(jī)的“1960 年代”——大型機(jī)與分時共享的時代。
那時的計(jì)算機(jī)是昂貴、中心化的主機(jī),人們通過“終端”(Terminal)以分時共享 的方式使用它。這和我們現(xiàn)在通過云端 API 與 LLM 交互的方式何其相似!
LLM 時代的“個人計(jì)算”(Personal Computing)革命尚未真正到來。因?yàn)槟壳霸趥€人設(shè)備上運(yùn)行強(qiáng)大的 LLM 還不經(jīng)濟(jì),意義不大。
但我認(rèn)為,已經(jīng)有一些人在嘗試了。事實(shí)證明,像蘋果的 Mac Mini 這樣擁有大統(tǒng)一內(nèi)存的設(shè)備,非常適合運(yùn)行某些 LLM,因?yàn)榧兇獾呐幚硗评恚╞atch-one inference)是高度內(nèi)存密集型的。
這些都是“個人計(jì)算 2.0”即將到來的早期跡象。它最終會是什么樣子,還不清晰。也許,在座的各位中,就有人會去定義它的形態(tài)、工作方式和未來。
LLM 的本質(zhì):一個顛覆性的觀察
我再提一個類比。每當(dāng)我和 ChatGPT 這樣的 LLM 直接用文本對話時,我感覺就像在通過“終端”(terminal)與一個操作系統(tǒng)交互。 這是一種直接、原生的訪問方式。
而這個新“操作系統(tǒng)”的通用圖形界面(GUI)——遠(yuǎn)不止一個聊天框那么簡單——我認(rèn)為尚未被真正發(fā)明出來。
技術(shù)的擴(kuò)散方向,被 LLM 徹底反轉(zhuǎn)了
然而,LLM 與以往所有技術(shù)都存在一個根本性的不同。我曾寫過一篇文章,核心觀點(diǎn)是:LLM 顛覆了技術(shù)擴(kuò)散的傳統(tǒng)路徑。
回顧歷史,無論是電力、密碼學(xué)、計(jì)算機(jī)、還是 GPS,幾乎所有變革性技術(shù)都遵循著一個路徑:它們最初是昂貴、尖端的,首先被政府和大型企業(yè)(尤其是軍事領(lǐng)域)所掌握,然后才逐步擴(kuò)散到消費(fèi)者市場。
早期計(jì)算機(jī)的主要用途是計(jì)算軍事彈道,而不是幫你解決生活瑣事。
但 LLM 完全反過來了。這項(xiàng)全新的、堪稱神奇的計(jì)算機(jī)技術(shù),一誕生就直接進(jìn)入了消費(fèi)市場。它首先是幫我解決“如何煮雞蛋”這類問題的,而不是先去服務(wù)于 什么國家級的軍事彈道項(xiàng)目。
這太不可思議了!公司和政府反而成了追趕者,他們正在努力追趕我們這些普通消費(fèi)者的使用步伐。整個技術(shù)擴(kuò)散的箭頭被反轉(zhuǎn)了。這預(yù)示著,基于 LLM 的應(yīng)用,其起點(diǎn)和演化路徑將與以往任何技術(shù)都大相徑庭。
你必須理解 LLM 的“心智”:一個有認(rèn)知缺陷的超級學(xué)霸
在我們開始編程這些新計(jì)算機(jī)之前,我們必須花時間去理解它們到底是什么。我尤其喜歡談?wù)撍鼈兊摹靶睦韺W(xué)”(psychology)。
我喜歡把 LLM 想象成“人的靈魂”(people spirits),它們本質(zhì)上是在海量人類語料上訓(xùn)練出來的、對人類的隨機(jī)模擬器。這個模擬器就是自回歸的 Transformer。因?yàn)樗鼈兪腔谌祟悢?shù)據(jù)訓(xùn)練的,所以它們也展現(xiàn)出了一種涌現(xiàn)出的、類似人類的“心智”。
這種“心智”有幾個非常重要的特點(diǎn):
超凡的記憶力(Encyclopedic knowledge/memory):它們像電影《雨人》(Rain Man) 里的主角,擁有百科全書般的知識和近乎完美的記憶力,能記住海量的細(xì)節(jié)。
認(rèn)知缺陷(Cognitive deficits):
幻覺 (Hallucinations):它們會一本正經(jīng)地“編造”事實(shí),而且自己無法分辨真假。
參差不齊的智能 (Jagged intelligence):在某些領(lǐng)域它們是超人,但在另一些簡單問題上卻會犯低級錯誤,比如堅(jiān)稱“9.11 大于 9.9”或者“strawberry 里有兩個 r”。你總會踩到一些意想不到的“坑”。
順行性遺忘癥 (Anterograde amnesia):這是最關(guān)鍵的缺陷之一。LLM 沒有持續(xù)學(xué)習(xí)的能力,它們不會像人類一樣通過“睡眠”來鞏固知識、形成長期記憶和專業(yè)技能。它們的“上下文窗口”就是它們的全部工作記憶,一旦對話結(jié)束,它們就“失憶”了。這就像電影《記憶碎片》(Memento) 或《初戀50次》(50 First Dates) 的主角,每一天都是新的開始。
因此,與 LLM 協(xié)作,就像是與一個擁有超級記憶力但同時患有多種認(rèn)知障礙的“學(xué)霸”共事。你必須非常清楚地管理它的工作記憶(上下文),才能讓它為你高效工作。
我還要強(qiáng)調(diào)一點(diǎn) LLM 的局限性,那就是安全問題。LLM 非常脆弱,極易受到提示詞注入攻擊(prompt injection),可能會泄露你的數(shù)據(jù)。這類安全問題層出不窮。
我們必須清楚,LLM 在某些方面超越人類,但在其他方面卻可能存在嚴(yán)重認(rèn)知缺陷。我們的任務(wù)是如何既能強(qiáng)化其優(yōu)勢,又能規(guī)避其風(fēng)險,并設(shè)計(jì)出可靠而高效的應(yīng)用方案。
機(jī)會一:構(gòu)建“部分自治應(yīng)用”(Partial Autonomy Apps)
接下來,我將聚焦于“可控自主”應(yīng)用的設(shè)計(jì)思路,以及現(xiàn)階段最具代表性的示例。
以編程為例——與其直接向 ChatGPT 發(fā)送一長串代碼塊,然后反復(fù)粘貼測試,不如選擇專為 AI 編程設(shè)計(jì)的工具。例如,Cursor 就是一個典型代表。
其顯著特點(diǎn)包括:
上下文管理:能夠有效組織代碼和對話內(nèi)容;
多模型協(xié)作:背后可能同時驅(qū)動多個模型協(xié)同處理,如文件管理、邏輯檢查等;
圖形化界面:用戶無需通過文本輸入命令,而是通過顏色提示、審批按鈕等直觀操作來控制修改與確認(rèn);
自主程度可調(diào):Cursor 提供“自主滑塊”,用戶可選擇執(zhí)行不同范圍的更新,從局部改動到整體重構(gòu),甚至自主研究功能與審批流程。
這類應(yīng)用的設(shè)計(jì)理念是——讓 AI 在可見范圍內(nèi)有效合作,并確保人類隨時可介入監(jiān)督。
如何保持 AI 的“可控性”?
若想實(shí)現(xiàn)上述構(gòu)想,有兩條原則尤為重要:
加速驗(yàn)證流程:利用圖形界面讓人直觀識別 AI 修改,減少僅憑文字判斷的認(rèn)知負(fù)擔(dān);
確保人類監(jiān)督節(jié)奏:即使模型生成代碼,也必須有人工復(fù)核,防止引入漏洞或安全風(fēng)險。
我的經(jīng)驗(yàn)是,編程過程中最好采用“小步提交”的策略:每次僅讓 AI處理少量代碼,以便快速驗(yàn)證并保持控制權(quán)。
從教育到自動駕駛:封閉監(jiān)督機(jī)制至關(guān)重要
類似原則也適用于教育場景。假設(shè)我們用 AI 協(xié)助教師生成課程內(nèi)容并供學(xué)生學(xué)習(xí),最佳方案是采用“雙應(yīng)用結(jié)構(gòu)”:
一個給教師使用,用于設(shè)計(jì)、調(diào)整課程;
另一個面向?qū)W生,呈現(xiàn)學(xué)習(xí)內(nèi)容。
這樣不僅保留了 AI 的效率,也能通過中間產(chǎn)物(課程方案)進(jìn)行質(zhì)量審核。我們避免讓 AI“自由發(fā)揮”,而是將其“拴在”既定課綱與流程內(nèi)。
實(shí)踐中,我也曾參與開發(fā)特斯拉的半自主駕駛系統(tǒng),該系統(tǒng)中儀表板會顯示 AI 權(quán)重的決策狀態(tài),并允許人類及時介入。
我的第一次自動駕駛體驗(yàn)是在 2013 年,那次出行過程幾乎完美,但之后十多年里,我們?nèi)栽谥鸩酵晟啤@是一個漫長的“從網(wǎng)絡(luò)模型到產(chǎn)品”的過程。
技術(shù)躍進(jìn) ≠ 產(chǎn)品立即可用
無論是自動駕駛,還是 AI 驅(qū)動的軟件,都存在“從模型到產(chǎn)品”的鴻溝:算法能否穩(wěn)定輸出,并在復(fù)雜場景中反復(fù)執(zhí)行,這才是勝負(fù)關(guān)鍵。
因此,關(guān)于“2035 年全面進(jìn)入 Agent 時代”的預(yù)測,我保持謹(jǐn)慎態(tài)度。Agent 的確是未來方向,但我們必須實(shí)事求是、穩(wěn)健前行。
在思考人與 AI 的協(xié)作未來時,我常常想到《鋼鐵俠》——不僅因?yàn)樗犰?,更因?yàn)樗莱隽思夹g(shù)發(fā)展的真實(shí)軌跡。
鋼鐵俠的戰(zhàn)衣,是對人類能力的增強(qiáng),是人機(jī)之間的深度融合。它既賦予托尼·斯塔克超越常人的力量,也始終保留著人的主導(dǎo)地位。這套戰(zhàn)衣既可以部分自主執(zhí)行任務(wù),也可以完全受控于駕駛者,這正像我們今天面對的大模型:它既可以是“智能助手”,也可能演變?yōu)椤白灾黧w”。
但至少在現(xiàn)階段,我認(rèn)為我們更應(yīng)打造的是“增強(qiáng)套裝”——幫助人類提效、擴(kuò)展能力的工具,而不是那些華而不實(shí)的全自動“炫技”Agent Demo。
我們的目標(biāo)應(yīng)是打造“部分自主”的產(chǎn)品,而非讓 AI 全權(quán)接管。
這樣的產(chǎn)品設(shè)計(jì)有一個關(guān)鍵思想:為每一位用戶配備一個“自主滑桿”,讓他們可以根據(jù)需求,靈活控制 AI 的自動化程度。從命令輔助,到任務(wù)執(zhí)行,再到半自主完成,逐步演進(jìn),而不是一蹴而就。
當(dāng)“自然語言”成為編程語言:每個人都是程序員
更深層次的變革在于:我們正在進(jìn)入一個“人人可編程”的時代。
傳統(tǒng)軟件開發(fā)的門檻很高,你需要五到十年的專業(yè)訓(xùn)練,才能駕馭一門編程語言。而現(xiàn)在,一切的入口變成了“自然語言”——尤其是英語。
這不僅僅是編程語言的變革,更是“人與機(jī)器對話方式”的范式轉(zhuǎn)移。當(dāng)我們用英語與大模型交流時,我們本質(zhì)上已經(jīng)在“寫程序”。在某種意義上,每一個會說話的人,都是一位潛在的程序員。這前所未有,也極具顛覆性。
我曾發(fā)過一條推文,內(nèi)容簡單,但沒想到被大量網(wǎng)友轉(zhuǎn)發(fā)、二創(chuàng), 談的正是“人人編程”的未來。
Tom Wolfe(Hugging Face)曾分享一段令人動容的視頻:一群孩子在“vibe coding”。看著他們歡快地調(diào)試、搭建、試錯,我由衷感到樂觀——如果這是下一代軟件開發(fā)者的起點(diǎn),那么未來一定值得期待。
我自己也試著“vibe coding”了一次,在一個周末構(gòu)建了一個 iOS 小應(yīng)用。雖然我不懂 Swift,但借助 AI 的幫助,我依舊快速搭好了界面,跑起來了。體驗(yàn)非常震撼。
后來,我又動手開發(fā)了一個名叫“MenuGem”的小程序。
靈感很簡單:每次進(jìn)餐館拿到菜單時,我總是一臉茫然。于是我寫了一個應(yīng)用,拍一張菜單照,它就會生成每道菜的圖示。想法樸素,開發(fā)輕松,用戶注冊還能送 5 美元免費(fèi)額度。但說實(shí)話,這成了我人生第一個“負(fù)營收”項(xiàng)目。
但真正令我印象深刻的,不是代碼的部分——而是上線應(yīng)用時那段“非編碼”的痛苦旅程。
你想讓它上線?那你得注冊域名、配置支付系統(tǒng)、搞定身份驗(yàn)證、接入 Google 登錄……不是寫代碼,而是在無數(shù)網(wǎng)頁界面中點(diǎn)來點(diǎn)去、填表點(diǎn)擊,照著文檔走流程。
就像一臺計(jì)算機(jī)在指著你鼻子說:“去點(diǎn)這個、選那個、改這里?!?/p>
我在想:“你為什么不自己做呢?”
這部分工作,才是真正讓人精疲力竭的部分。
從“寫代碼”到“構(gòu)建產(chǎn)品”:AI 尚未涉足的真實(shí)難題
MenuGem 給我最深的感受是:寫代碼反而是最簡單的部分。真正耗費(fèi)心力的,是讓它成為一個“真實(shí)”的產(chǎn)品——你得搞定身份認(rèn)證、支付系統(tǒng)、域名部署等等。而這些,幾乎都不是寫代碼能解決的,更多的是你一個人在瀏覽器里“點(diǎn)來點(diǎn)去”的苦活累活。
在演講的最后一部分,我提出了一個核心問題:“我們能否專為 Agent 構(gòu)建系統(tǒng)?”
粗略地講,我認(rèn)為出現(xiàn)了一種全新的數(shù)字信息消費(fèi)者和操縱者。
人類:通過 GUI(圖形用戶界面)與信息交互。
計(jì)算機(jī):通過 API 與信息交互。
全新的物種:Agents。它們是計(jì)算機(jī),但行為方式又像人類?;蛘哒f,它們是互聯(lián)網(wǎng)上“人的靈魂”(people spirits)。
那么,我們是否應(yīng)該為它們量身構(gòu)建、更易理解、更易調(diào)用的系統(tǒng)框架?
這是一個全新的領(lǐng)域。我們有一些早期的探索:
從 robots.txt 到 llms.txt:就像 robots.txt 文件用來指導(dǎo)網(wǎng)絡(luò)爬蟲一樣,我們可以創(chuàng)建一個 llms.txt 文件。這只是一個簡單的 Markdown 文件,用來告訴 LLM 這個網(wǎng)站是關(guān)于什么的。這對于 LLM 來說非常易讀。如果讓它自己去解析網(wǎng)頁的 HTML,那將非常容易出錯,而且很可能失敗。直接告訴它,效率高得多。
重構(gòu)文檔,使其對 LLM 友好:一些領(lǐng)先的公司,比如 Vercel 和 Stripe,已經(jīng)開始將他們的文檔轉(zhuǎn)向?qū)?LLM 友好的格式了。他們不僅提供 Markdown 格式的文檔——這對于 LLM 來說已經(jīng)非常好了——他們甚至更進(jìn)一步。
將“點(diǎn)擊”行為替換為“代碼”:在他們的文檔里,任何需要“點(diǎn)擊”的地方,Vercel 都在嘗試用等效的 cURL 命令來替代。因?yàn)?LLM 無法“點(diǎn)擊”,但它可以執(zhí)行代碼。這是一個非常有趣且重要的轉(zhuǎn)變。
為 Agents 設(shè)計(jì)協(xié)議:Anthropic 提出的模型上下文協(xié)議(MCP)是另一個很好的例子。它是一種直接與 Agents 對話的協(xié)議,定義了一種新的消費(fèi)者和商業(yè)應(yīng)用模式。我非??春眠@個方向。
我非常喜歡那些能將現(xiàn)有數(shù)據(jù)轉(zhuǎn)換成 LLM 友好格式的小工具。我稱之為“上下文構(gòu)建器”(Context builders)。
例如,一個 GitHub 倉庫,它的界面是為人類設(shè)計(jì)的,你不能直接把一個 URL 扔給 LLM 讓它去理解。但現(xiàn)在有了像 Gitingest 這樣的工具,你只需要在 URL 里把 github.com 換成 gitingest.com,它就能自動把整個倉庫的代碼文件、目錄結(jié)構(gòu)打包成一個巨大的、結(jié)構(gòu)化的文本塊,讓你能直接復(fù)制粘貼給 LLM。
更進(jìn)一步的例子是 Devin 的 DeepWiki。它不只是簡單地打包文件內(nèi)容,它會運(yùn)行一個 Agent 去分析整個代碼庫,然后為你生成一份高質(zhì)量的、包含系統(tǒng)架構(gòu)圖和代碼依賴關(guān)系的文檔。這對于讓 LLM 理解一個復(fù)雜項(xiàng)目非常有幫助。
我喜歡所有這些“改變一個 URL”就能讓世界對 LLM 更友好的小工具,我認(rèn)為這個領(lǐng)域未來可期。
總而言之,我們正處在一個激動人心的時代。
海量的軟件將被重寫:無論是專業(yè)開發(fā)者還是“Vibe Coder”,每個人都將參與其中。
LLM 是新時代的操作系統(tǒng):它們像公共事業(yè),像芯片工廠,但最核心的,它們是計(jì)算機(jī)的“1960年代”,一切都將被重新定義。
我們與“人的靈魂”協(xié)作:這些 LLM 是不可靠的、有認(rèn)知缺陷的“人的靈魂”,我們需要學(xué)會如何與它們高效協(xié)作。
構(gòu)建“部分自治”產(chǎn)品:核心是加速**“AI生成-人類驗(yàn)證”**的循環(huán),通過定制化的 GUI 和“自治滑塊”來實(shí)現(xiàn)。
為 Agents 構(gòu)建基礎(chǔ)設(shè)施:這是另一個巨大的機(jī)會,讓數(shù)字世界對 LLM 更加友好。
最后,回到鋼鐵俠戰(zhàn)衣的類比。我認(rèn)為,在接下來的十年里,我們將要去做的就是把那個“自治滑塊”,慢慢地從左邊的“增強(qiáng)”推向右邊的“自主”。
我很期待看到這一切將如何發(fā)生,并希望能與在座的各位一起,共同構(gòu)建這個未來。
謝謝大家!
2025 全球產(chǎn)品經(jīng)理大會
8 月 15–16 日
北京·威斯汀酒店
2025 全球產(chǎn)品經(jīng)理大會將匯聚互聯(lián)網(wǎng)大廠、AI 創(chuàng)業(yè)公司、ToB/ToC 實(shí)戰(zhàn)一線的產(chǎn)品人,圍繞產(chǎn)品設(shè)計(jì)、用戶體驗(yàn)、增長運(yùn)營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。
更多詳情與報名,請掃碼下方二維碼。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.