文 | 硅谷101
GPT-5上線次日,OpenAl在一片用戶的批評聲中宣布向付費用戶恢復(fù) GPT-4o。
與GPT-3到GPT-4的驚艷跨越相比,GPT-5的發(fā)布略顯匆忙:翻車的數(shù)據(jù)圖表、帶bug的代碼演示、誤導(dǎo)的“博士級”科學(xué)原理解釋,以及作為核心技術(shù)更新的“Router”(路由器)也被硅谷AI從業(yè)者指出是已經(jīng)存在好幾年的技術(shù)。
從內(nèi)部代號Q-Star到Orion項目的接連受挫,從數(shù)據(jù)匱乏到模型崩潰的技術(shù)困境,OpenAI正面臨前所未有的挑戰(zhàn)。
但不可否認的是,作為一款產(chǎn)品,GPT-5有著明顯進步以及對用戶交互的進一步優(yōu)化。ChatGPT正打入更多垂類領(lǐng)域,朝著“AI超級應(yīng)用”產(chǎn)品進發(fā)。而一場搶占市場份額、爭奪企業(yè)訂單的價格戰(zhàn),也在頭部大模型公司之間正式開打。
本期文章,我們將深入聊聊GPT-5發(fā)布背后的技術(shù)困境、商業(yè)焦慮與未來趨勢。
OpenAI為什么引發(fā)外界這么多的吐槽?GPT-5的開發(fā)過程遇到了哪些技術(shù)瓶頸,最終選擇了什么架構(gòu)來攻克?作為產(chǎn)品的ChatGPT,為什么選擇進軍教育、健康醫(yī)療和編程市場?
而更令人擔憂的是,AI scaling law已經(jīng)碰壁,強化學(xué)習(xí)、多模態(tài)能力和新架構(gòu)范式能否為AI發(fā)展指明新的方向?
01 GPT-5發(fā)布會:漏洞百出,突破放緩
說實話,外界對GPT-5的發(fā)布非常期待。原因很簡單:GPT-4發(fā)布已經(jīng)是兩年半之前的事情了,而外界已經(jīng)等新一代模型很久了。
但總結(jié)來說,GPT-3到GPT-4的能力跨越太過驚艷——所謂的“ChatGPT Moment”。
這樣的“Wow moment”(驚艷時刻)是這一輪生成式AI技術(shù)革命的基礎(chǔ),但GPT-4到GPT-5的能力跨越,卻遠沒有達到外界的期待。
朱哲清 前Meta AI應(yīng)用強化學(xué)習(xí)負責人 Pokee AI創(chuàng)始人兼CEO: 你要橫向?qū)Ρ龋褪荊PT4和當年GPT3的對比,這個的是天和地的區(qū)別,對吧?GPT4跟GP5如果你是以同樣的標準來做對比的話,其實差距是沒有那么大的。就是它可能是一個在我看來是個改進,而不是一個階段性變化。
GPT-5發(fā)布了什么呢?
Chapter 1.1 業(yè)內(nèi)推測GPT-5技術(shù)路線
首先,此前新聞爆料,GPT-5會成為一個“統(tǒng)一大模型”(unifying system),能強大地將推理、編碼、語音、研究等能力整合進單一模型,實現(xiàn)“既要”和“又要”的用戶需求,將GPT系列和o系列的模型融合,這個單一模態(tài)架構(gòu)能自動調(diào)取相應(yīng)的模型和能力,而不需要用戶之后自己選擇模型了。
雖然OpenAI目前還沒有正式發(fā)布詳細的GPT-5技術(shù)報告,但業(yè)內(nèi)的技術(shù)專家們猜測,這其實不是一個端到端的超級大模型,而是由一個實時的“路由器”(Real-time Model Router)來“拼接”下面的不同子模型。
其實這個技術(shù)路線,不是創(chuàng)新也不是突破,早在硅谷初創(chuàng)技術(shù)圈里就存在很久了。
Aiden He TensorOpera AI聯(lián)合創(chuàng)始人: GPT-5就是一個典型的聯(lián)合的系統(tǒng),它是把已有的GPT-4,o3等推理和非推理的模型串聯(lián)到一起。 它可能是因為商業(yè)化比較著急吧,我覺得更應(yīng)該把它叫做GPT 4.99,因為它是在所有的歷史上的一個聚合方案。這個路由器,其實并不是一個很新的東西。
這種路由器的方案主要是一些初創(chuàng)公司在使用,大概有三個使用場景和原因:
第一,是在手機這樣的設(shè)備端上,有端上的小模型,也有云端的大模型,簡單的問題用本地模型,復(fù)雜的問題用云端模型,就需要有個路由器去幫你做選擇。
第二,是初創(chuàng)公司們做模型層之上的開發(fā)和應(yīng)用的時候,把所有開源和閉源模型聚合起來,把不同的任務(wù)給不同的模型來調(diào)用。
第三,是要去平衡系統(tǒng)的成本,比如說用戶的一些高頻又簡單的提問,像“hello”和“thank you”這種query(查詢)量非常大,光是這種簡單的問題每天都在消耗OpenAI上百萬美元的費用,所以這些典型問題都可以直接分發(fā)給非常小的模型去解決。
所以,這些是之前初創(chuàng)企業(yè)們因為要平衡系統(tǒng)成本,開發(fā)和應(yīng)用時的主要三大使用場景,但如今被GPT-5作為主打技術(shù)突破,讓外界不少人懷疑,一個端到端訓(xùn)練的超級大模型路線已經(jīng)觸頂。
而OpenAI不得不開始用這些“取巧”的技術(shù)來解決“產(chǎn)品層面”的問題,而不是AI大模型“智能飛躍”的問題,這是和外界的期待非常相悖的。
當然,實時路由器也沒有那么好做,整合各種多模態(tài)也有很多技術(shù)上的挑戰(zhàn),這也可能是發(fā)布推遲的原因之一。
Aiden He TensorOpera AI聯(lián)合創(chuàng)始人: 有的模型擅長于數(shù)學(xué),有的模型擅長于寫作,有的模型擅長于編碼,所以你要根據(jù)用戶的意圖、語言類型、各種各樣的地域位置,包括它的語言偏好去分發(fā)模型,這是一個非常復(fù)雜的問題。
Jenny Xiao 前OpenAI研究員 Leonis Capital合伙人: 不同的模態(tài)會有非常不同的計算需求,以及許多不同的推理需求。例如,如果是語音模塊,它就會需要非常低的延時。因為如果延遲太大,你和AI進行對話時就會變得很尷尬。而其他模塊,比如深度推理或研究,可能會有兩三分鐘的延時,甚至更長,有時候我覺得都有30分鐘。所以把所有這些模態(tài)整合在一起,還要確保產(chǎn)品不卡頓,這是一個相當大的技術(shù)挑戰(zhàn)。
拋開這不是一個多么酷炫的技術(shù)不談,說實話,單從用戶角度來看,我本來覺得這點改進還挺好的。
因為之前的ChatGPT確實像個大雜燴:4o,o3,o4-mini,o4-mini-high,GPT-4.5,GPT-4.1,GPT-4.1-mini,旁邊還有Codex,視頻模型Sora,已經(jīng)agent生態(tài)的GPTs……簡直太亂了。
所以,如果GPT-5能自動為我挑選最適合的模型,其實在用戶交互上是挺重要的。
但這里的關(guān)鍵詞是:你得能選對,且效果得比之前好。
然而,當OpenAI取消此前自選模式,在社交媒體上用戶們卻開始集體抗議,很多人認為GPT-5沒有4o的親切感,效果甚至不如4o,并且用戶有種被剝奪了選擇權(quán)的感受,所以在X上,非常多用戶集體呼吁“讓4o回來,不然就注銷ChatGPT賬號?!?/p>
這也讓OpenAI CEO Sam Altman不得不在周末之前回應(yīng),保證將上線更多定制化的功能和內(nèi)容,并持續(xù)對GPT-5進行改進。
OpenAI在這次發(fā)布會中,一直在強調(diào)要給用戶的不是“more information”“越多的信息不一定是越好的”,而是要給“just right”的信息,“剛剛好的、適合”的信息。
這個出發(fā)點看起來沒有什么問題,但在技術(shù)上,怎么去定義“just right”,什么是“剛剛好”,還蠻有爭議的。關(guān)于GPT-5的優(yōu)化,我們也會繼續(xù)關(guān)注。
接下來,我們再聊聊這次發(fā)布會上,OpenAI展示的三個應(yīng)用場景:教育,健康醫(yī)療以及編程。
毫無疑問,這將是OpenAI進軍商業(yè)化的主要三個戰(zhàn)場。
Chapter 1.2 三大垂直應(yīng)用場景
在發(fā)布會上,OpenAI展示了用多模態(tài)學(xué)習(xí)韓語的場景,效果確實看上去挺絲滑的:語音模型進一步升級,可以實時加快放慢,感覺會是非常好的教育交互場景。
GPT-5的玩法更加升級。你還可以讓ChatGPT直接給你做個學(xué)法語的網(wǎng)頁,或者小游戲應(yīng)用,幾分鐘時間,記憶閃卡、單詞測驗、進度追蹤等等功能應(yīng)有盡有。
所以我們看到語言學(xué)習(xí)公司多鄰國股價在GPT-5發(fā)布會期間就開始大幅度震蕩,本來因為財報非常好出現(xiàn)盤中大漲,但OpenAI發(fā)布會之后開始一路狂跌,也是市場在質(zhì)疑,ChatGPT在之后會搶奪多少教育市場的份額。
Jenny Xiao 前OpenAI研究員 Leonis Capital合伙人: 我認為教育是OpenAI非常明確的一個垂直領(lǐng)域。ChatGPT剛推出時,基本上把Chegg給“干掉”了。Chegg是一家教育公司,學(xué)生主要用它從同伴那里抄作業(yè)。ChatGPT推出后,學(xué)生們就覺得,我們好像不再需要Chegg了。如果你看OpenAI模型在2023年初的早期用戶,你會發(fā)現(xiàn)很多都是學(xué)生,而且在暑假期間,OpenAI的使用量會大幅下降。接著,OpenAI最近推出了“學(xué)習(xí)”功能,我覺得這個功能更多是針對那些想隨便學(xué)學(xué)或者是探索某個主題的人。
就語言學(xué)習(xí)而言,我一直在用ChatGPT練習(xí)粵語,我感覺它效果非常好。我以前是用多鄰國,但我覺得OpenAI比多鄰國自由度高得多,因為你可以用OpenAI探索任何話題。我認為OpenAI肯定會去切入這些(語言學(xué)習(xí))公司的營收領(lǐng)域,因為在ChatGPT的原生環(huán)境下,復(fù)刻它們的模式實在太容易了。
另外,OpenAI強調(diào)的市場蛋糕還有健康醫(yī)療領(lǐng)域。因為GPT-5號稱有著博士級別的能力,所以在醫(yī)療健康領(lǐng)域,也能夠?qū)I(yè)的癌癥診斷報告做通俗易懂的解讀。
在發(fā)布會中,OpenAI請到一名女性癌癥患者,她分享到說,去年被診斷出癌癥病情,收到的報告有許多醫(yī)學(xué)術(shù)語,她讓ChatGPT先幫助她厘清資訊,并與醫(yī)生的評估進行比對,再做出關(guān)鍵決策。
而她也形容說,GPT-5更快速、更完整,在整個治療過程中,讓她覺得有了一個“伙伴”。
這一點我也感觸蠻深的。醫(yī)療領(lǐng)域是一個醫(yī)生和患者知識差距巨大的行業(yè),因為這樣的知識差距,導(dǎo)致了兩者關(guān)系的不平衡,患者通常沒有選擇。
我最近身邊有個好朋友進了重癥監(jiān)護室,陷入昏迷整整五天,她家人剛開始除了每天去醫(yī)院求醫(yī)生,感覺什么都做不了,但很快用上了AI,開始對病情和治療方案各種學(xué)習(xí)和討論,之后感覺和醫(yī)生交流的時候障礙變小了很多,在做出一些關(guān)鍵決策的時候也心里更有底了。
我覺得這就是技術(shù)的光明面:賦予人們自主權(quán)。
而健康醫(yī)療行業(yè)占據(jù)美國GDP的18%左右,是巨大的市場,OpenAI不會放過這個市場。
同時,我們看到全球AI醫(yī)療市場也在井噴式發(fā)展。市場預(yù)測,全球AI醫(yī)療領(lǐng)域規(guī)模會從2024年的26.69億美元飆升至2030年的188.38億美元,年復(fù)合增長率高達38.62%。
包括OpenAI參與投資的、專注于利用AI減輕醫(yī)療專業(yè)人員行政負擔的初創(chuàng)公司Ambience Healthcare最近C輪融資2.43億美元,邁進獨角獸行列。所以我們接下來會看到OpenAI在醫(yī)療健康領(lǐng)域的進一步動作。
另外一個GPT-5要打的核心商業(yè)戰(zhàn)爭,就是編程市場了。
無論是低提示詞的非專業(yè)用戶場景,還是專業(yè)編程場景,都展現(xiàn)出代碼能力的強勢升級。
同時,OpenAI來請到了最炙手可熱的AI編程初創(chuàng)公司Cursor CEO到現(xiàn)場分享如何用GPT-5打造出最高效的編程體驗。
這里能看出,自從Anthropic開啟了Claude Code產(chǎn)品之后,AI coding初創(chuàng)公司就開始紛紛站隊了。
之前OpenAI本來想買Windsurf沒買成,我們之前也出了視頻跟大家講了這個狗血的收購大瓜,現(xiàn)在Cursor明顯站隊OpenAI一起來打Claude,這是一輪新的編程市場爭奪戰(zhàn)。
Aiden He TensorOpera AI聯(lián)合創(chuàng)始人: Anthropic其實做了很多很多事情,它在開發(fā)者社區(qū)的影響力,我覺得會大于GPT-5;GPT-5可能大家會做應(yīng)用,各種東西PoC(Proof of Concept,概念驗證)快速起步,但是一些專業(yè)的開發(fā)者可能還是比較喜歡Anthropic,所以它一定是各有所長。但就算是OpenAI主打及自夸“世界最強”的編程場景,其實也讓很多人失望。
朱哲清 前Meta AI應(yīng)用強化學(xué)習(xí)負責人 Pokee AI創(chuàng)始人兼CEO: 我可能本來的預(yù)期可能在于,比如說在代碼領(lǐng)域,它單一模型可以直接端到端,從架構(gòu)到寫每一個前端、后端代碼,到它知道選擇什么工具,到我怎么把這些東西都串聯(lián)起來,然后自行測試。完成測試以后,可能回過頭來再去改自己的代碼,類似于有這樣的一個端到端的能力。從OpenAI的定義上面,能超越它第三階段agentic experience(智能體體驗,模型以智能體身份主動行動)定義,再往上走一點那種感覺。但目前看起來完全沒有??傮w在我看來,是跟Anthropic的Claude Opus差不多的能力范圍。
Chapter 1.3 錯誤百出的發(fā)布會
同時,這場發(fā)布會不得不吐槽的,就是現(xiàn)場出的各種bug了,讓這場萬眾期待的發(fā)布會顯得特別“草臺班子”。
這個時候,OpenAI得感謝自己還沒有上市,如果是谷歌的發(fā)布會出現(xiàn)這么多錯誤,可能股價早就蒸發(fā)上千億美元了。
首先在發(fā)布會直播中,一張展示GPT-5在編程基準測試(SWE-bench)上性能的圖表出現(xiàn)了嚴重錯誤,圖上,代表GPT-5(52.8%準確率)的柱狀圖,其高度竟明顯超過了代表舊模型o3(69.1%準確率)的柱狀圖。
另一款模型4o的柱狀圖與o3的水平位置一模一樣,標注的數(shù)字卻是30.8%。這個錯誤低級到不敢讓人相信是OpenAI的發(fā)布會。
盡管OpenAI事后在官網(wǎng)上修正了圖,Sam Altman也發(fā)文自嘲了,但這個圖的火爆和出圈程度直接秒殺Sam Altman之前鋪墊的任何營銷努力。
而更嚴重的是,這顯示出的不僅僅是匆忙和粗心,更是OpenAI團隊試圖在數(shù)據(jù)呈現(xiàn)上營造出的“巨大進步”的假象。
同時,Benchmark“分數(shù)打榜”這件事,也正變得更越來越不重要。
朱哲清 前Meta AI應(yīng)用強化學(xué)習(xí)負責人 Pokee AI創(chuàng)始人兼CEO: 前兩天(OpenAI)剛release(發(fā)布)的open-source model(開源模型),它在Benchmark(基準測試)上面的performance(表現(xiàn))也還可以,但是它真正使用起來,它的代碼能力其實挺拉胯的,它出現(xiàn)了很多的bug,很多代碼都跑不通。
Jenny Xiao 前OpenAI研究員 Leonis Capital合伙人: 基準測試“已死”,但新形態(tài)的“基準測試”又會死灰復(fù)燃,對吧?所有這些實驗室都非常注重在基準測試表現(xiàn)上的提升。他們會為了在某個特定基準上提升3%或5%而相互競爭,而且很多研究人員也以模型在這些基準上的表現(xiàn)為傲。但作為用戶,我的感受是,基準測試對用戶來說毫無意義。所以我認為,下一個競爭前沿會主要轉(zhuǎn)向用戶體驗。我覺得現(xiàn)在,很難靠原始性能來區(qū)分模型的優(yōu)劣。
另外還有一個尷尬的細節(jié):在演示過程中,GPT-5在解釋“伯努利效應(yīng)”時,錯誤地采用被主流物理學(xué)教材已經(jīng)證偽的“等時通過理論”。
前一秒Sam Altman還在說,GPT-5是屬于“博士級別”的AI,后一秒就直接自己打臉,還挺尷尬的。
這顯示出,GPT-5完全沒能識別過時的錯誤解釋理論,讓外界對這個新模型的理解和推理能力有了更多的質(zhì)疑。
不過有一說一,在解釋這個理論時自動產(chǎn)出高質(zhì)量SVG動畫與可交互代碼還真的挺酷炫的(感覺對我們的視頻后期之后會非常有用),也說明OpenAI的多模態(tài)生成能力確實還是很強的。
朱哲清 前Meta AI應(yīng)用強化學(xué)習(xí)負責人 Pokee AI創(chuàng)始人兼CEO: 我的總體感覺是,OpenAI在嘗試在那么多個模型發(fā)布之后,想要在這個階段上站住腳跟,把自己這個領(lǐng)先地位占住,所以它必須要去做這么一個發(fā)布。
大概總結(jié)一下GPT-5發(fā)布的重點:GPT-5解決的都是產(chǎn)品層面的問題,并沒有技術(shù)顛覆性的創(chuàng)新,這說明接下來一線大模型的技術(shù)差距也會進一步縮小,大家都用著差不多的方式在把模型能力艱難地往前推,不過就是:堆算力+堆數(shù)據(jù)+高質(zhì)量數(shù)據(jù)篩選+后訓(xùn)練+推理時長+工具使用。
因此,我也看到一句話說OpenAI從“The One”變成了“One”,從“引領(lǐng)者”變成了前沿模型“之一”。
為什么GPT-5會這么拉胯?是不是LLM的發(fā)展路徑真的已經(jīng)碰壁了?
02 失敗的“GPT-5們”,Transformer架構(gòu)的發(fā)展瓶頸
GPT-5的訓(xùn)練從很早就開始了,但非常有意思的是,沒有一個模型在OpenAI從第一天就被命名為GPT-5的。
Jenny Xiao 前OpenAI研究員 Leonis Capital合伙人: 我們都清楚,OpenAI一直在訓(xùn)練下一代模型,但肯定只有在達到一個重要的里程碑后,他們才會給模型正式命名。GPT-5自2024年以來一直在訓(xùn)練,但只有到達一個重大節(jié)點之后,OpenAI才會將這個模型命名為GPT-5。
OpenAI在推出GPT-4的時候,所謂的“下一代大模型”就已經(jīng)在訓(xùn)練當中了,但如果這個模型不夠好,不夠“wow”到大家,那它就注定不能被叫做“GPT-5”。
比如說,在2023年年底就被曝出OpenAI內(nèi)部代號為“Q Star”或者“Project Q”的項目,但這個模型后來被稱為“o1”。
Jenny Xiao 前OpenAI研究員 Leonis Capital合伙人: OpenAI在另外一個叫Project Q的項目上投入了很多精力,很多人也叫它Q star。這個項目在2023年11月左右,也就是Sam Altman那場風波期間被泄露了出來,最終成為了o1系列,也就是o系列。這個項目非常重視思維鏈推理,想要打造推理模型。這個就是所謂的Q項目。
其實“O”系列模型還算成功,后來又更新了o3和o4-mini,但依然不能被稱為GPT-5。為什么呢?
The Information在GPT-5發(fā)布之前出了一篇非常重磅的文章,爆料了OpenAI內(nèi)部的這幾次關(guān)鍵的GPT-5研發(fā)挫敗。
其中在談到o系列的時候說,這樣的推理模型似乎幫助OpenAI克服了預(yù)訓(xùn)練階段性能增長放緩的問題,而且2024年年底的o3母模型(也稱為教師模型)在理解各種科學(xué)領(lǐng)域及其他領(lǐng)域方面,相比o1的母模型取得了顯著的進步,當然這個進步也是因為OpenAI用上了更強的英偉達芯片服務(wù)器。
但奇怪的事情發(fā)生了,當OpenAI將o3母模型轉(zhuǎn)換為能讓人們提問的ChatGPT版本(也稱為學(xué)生模型)時,效果出現(xiàn)了顯著下降,甚至比o1表現(xiàn)好不了多少,同樣的效果下降也出現(xiàn)在了API的模型版本中。
業(yè)界有猜測是因為基于人類自然語言的聊天產(chǎn)品形態(tài)拉低了模型的能力水平,限制了AI的發(fā)揮。
Nathan Wang 硅谷101特約研究員 資深A(yù)I Agent開發(fā)者: 可以理解說大模型是理解高維度復(fù)雜內(nèi)容的,但是最終它要跟我們?nèi)祟惤涣?,或者是要把它轉(zhuǎn)換成人類理解的文字的時候,它需要通過這樣降維的方式。就相當于一個高等的生物需要降維,才能跟我們?nèi)祟愡M行交流。在這個降維這個過程中,其實它會損失很多高維度的信息。
包括我們自己其實也有一些各式各樣的潛意識層面或者高維度的思考。最終我們要個人表達的時候,是要通過語言,但是語言其實并不一定真正能夠把我們大腦中的所思所想,全部都很清晰地表達出來,或者甚至說,有些東西是沒有辦法去表達的。所以從這一點上來看,當你去需要這個模型通過語言來跟人交流的時候,在一定程度上拉低了模型自身智能的表現(xiàn)。
除此之外,在o3之后,OpenAI內(nèi)部有一個代號為“Orion”的項目,在今年2月份推出,但也沒有掀起什么水花,估計OpenAI對它的信心也不大,所以也沒有把GPT-5的名字給它,而是叫了“GPT-4.5”。
Jenny Xiao 前OpenAI研究員 Leonis Capital合伙人: 我個人認為最大的挑戰(zhàn)仍然在于預(yù)訓(xùn)練,因為早在去年年底,甚至更早的時候,scaling law就已經(jīng)碰壁,因為我們正在耗盡高質(zhì)量且多樣化的人類生成的數(shù)據(jù)。缺乏數(shù)據(jù)是OpenAI的Orion項目延期的最大因素。有些人會稱這個項目失敗了,有些人則會說是延期。但本質(zhì)上,在OpenAI訓(xùn)練Orion系列模型時,他們就已經(jīng)遇到了缺乏高質(zhì)量、多樣化數(shù)據(jù)的問題。他們最終是用由OpenAI的o1模型生成的合成數(shù)據(jù)來訓(xùn)練Orion系列,但結(jié)果仍然沒有達到人們的預(yù)期。
我覺得OpenAI 4.5(也就是Orion模型)會沒那么成功,是因為它真的沒有帶來讓人眼前一亮的突破。就好比幾乎沒有人特別關(guān)注4.5版本。
同時,The Information的報道中說,2024年下半年,Orion沒能成功的部分原因在于其預(yù)訓(xùn)練階段的局限性。
同時,OpenAI還發(fā)現(xiàn)對Orion模型做的優(yōu)化在模型較小的時候有效,但當模型規(guī)模增大時,這些優(yōu)化就不再有效了——模型訓(xùn)練的不確定性仍然非常大,有很多的因素會導(dǎo)致模型訓(xùn)練的失敗。
之前在硅谷101的播客錄制中,我們的嘉賓Bill Zhu也跟我們分享了訓(xùn)練模型中會出現(xiàn)很多模型崩潰的情況,甚至可能會在強化學(xué)習(xí)過程中出現(xiàn)所謂的“災(zāi)難性遺忘”。
朱哲清 前Meta AI應(yīng)用強化學(xué)習(xí)負責人 Pokee AI創(chuàng)始人兼CEO: 你是不可以無限制訓(xùn)練模型本身的,就是你訓(xùn)練到某一個程度它就會fall apart(崩潰)。其實在RL領(lǐng)域之前很經(jīng)??吹浇衏atastrophic forgetting(災(zāi)難性遺忘)——在你訓(xùn)練很久很久以后,它開始忘記所有過往學(xué)到的知識,然后整個模型像瘋了一樣,所有原來的policy(決策策略)都消失。
這是為什么你一開始模型要變得足夠大,其實就像海綿一樣,然后你往里面不停地注水,然后你注水注到一定程度它滿了,那你再往里面注水,就會流出來一些,但流出來的不一定是注入的水,很有可能是原來已經(jīng)有的一部分水,甚至是很重要的水。
就像你大腦里面不停地灌輸知識,然后最后過載了,把加減乘除忘了,那剩下的所有知識體系就直接fall apart(崩潰)。這個問題本身叫model plasticity(模型可塑性),就是說它的可塑性到了某種程度就直接崩潰了,然后你要怎么去解決這個問題?叫Continual Learning(持續(xù)學(xué)習(xí)),現(xiàn)在可能你有一天會人類生成一個terabyte of data(1TB的數(shù)據(jù)),那10天是10 個terabyte(TB),那未來可能生成數(shù)據(jù)還會越來越多,那你怎么能夠用一個模型無限地去訓(xùn)練它,讓它仍然能夠?qū)ξ磥淼闹R進行獲?。窟@是不可能的。
這樣看來,以Transformer架構(gòu)為基礎(chǔ)的LLM模型發(fā)展,如今確實可能到了一個關(guān)鍵的時刻,或者需要一個完全不同的新架構(gòu)來突破技術(shù)壁壘。
03 未來AI進化路徑,強化學(xué)習(xí)、多模態(tài)、JEPA
接下來前沿的大模型該如何繼續(xù)優(yōu)化呢?我們跟身邊的技術(shù)大牛聊了一圈,總結(jié)了三種方式:第一是強化學(xué)習(xí),第二押注多模態(tài)能力提升帶來的突破,而第三,是尋找其它的框架范式。
首先是強化學(xué)習(xí)路線(Reinforcement learning),簡稱RL,包括RL在預(yù)訓(xùn)練階段的嘗試。
朱哲清 前Meta AI應(yīng)用強化學(xué)習(xí)負責人 Pokee AI創(chuàng)始人兼CEO: 我先講講以RL為核心的訓(xùn)練機制為了解決什么問題。很多的任務(wù)是以目標驅(qū)動的,比如說寫代碼,比如說數(shù)學(xué)、物理、金融機構(gòu)的一些東西,再比如城市規(guī)劃,你做Operations research(運籌學(xué))、供應(yīng)鏈這些東西它都是有明確目標的,世界機制也很完整。如果A發(fā)生了會出現(xiàn)B。在這種情況下,Pre-training(預(yù)訓(xùn)練)就變得不是很有必要。
這種專業(yè)型的目標為驅(qū)動的場景,大多數(shù)都是沒有任何的數(shù)據(jù)的。數(shù)學(xué)跟代碼是僅有的兩個可能數(shù)據(jù)點相對多的場景。除此以外,我剛剛說的剩下的那些點基本上都沒什么數(shù)據(jù),你很難在互聯(lián)網(wǎng)上得到大量的數(shù)據(jù)去完成訓(xùn)練。
本質(zhì)上它要解決的問題是非常泛化的,而市面上已經(jīng)出現(xiàn)的數(shù)據(jù),大多數(shù)都聚焦在一些經(jīng)常會發(fā)生的代碼問題和數(shù)學(xué)問題。而那些非常高深難測的數(shù)學(xué)問題,它是從來沒有出現(xiàn)過的,它必須要通過一個反事實的形式,就是我要生成一些市面上從來沒有出現(xiàn)過的代碼、數(shù)學(xué)、物理規(guī)劃等等的輸出。然后靠一個ground truth(真實標簽)的validator(驗證器)來告訴我做得對不對,然后去self-train(自我訓(xùn)練)。這種訓(xùn)練方式是非常適合于這種有真實標簽、能夠做出精確判斷的這種用例,然后去進行優(yōu)化。
這是RL最閃光的時候了,其實有很多研究在網(wǎng)上都說過,其實現(xiàn)在最大的問題是驗證,我如果能夠找到一個好的verifier(驗證器),我可以認為問題解決了。因為可以通過RL去完成對于這個驗證器的優(yōu)化就可以了。
Bill說的“驗證”是RL中非常重要的關(guān)鍵,也是The Information爆料中,GPT-5在RL上的殺手锏。
報道說,OpenAI一直在開發(fā)一個被稱為“universal verifier”(通用驗證器)的技術(shù):讓一個大語言模型使用各種來源的研究,來檢查和評估另一個模型的答案。它可以自動執(zhí)行,確保模型在強化學(xué)習(xí)過程中生成高質(zhì)量答案。
朱哲清 前Meta AI應(yīng)用強化學(xué)習(xí)負責人 Pokee AI創(chuàng)始人兼CEO: 這個方向就像我們當年看到Alpha Zero打敗人類一樣,它所能夠走出的一些路子是人類正常想象不到的。通過這個機制,甚至可以發(fā)現(xiàn)新的物理定理,它可能可以真正去發(fā)現(xiàn)人類所不擁有的知識,這可能是下一步我覺得真正邁向super intelligence(超級智能)的一個關(guān)鍵點,但目前還沒有很好的一個突破。
而接下來,需要各大模型公司去探索的第二條路,就是多模態(tài)。
就像前面我們說到的,大語言模型的維度是非常有限的,而多模態(tài),以及世界模型將對接下來AI的發(fā)展至關(guān)重要。
Aiden He TensorOpera AI聯(lián)合創(chuàng)始人: 我們要注意多模態(tài),因為多模態(tài)一旦引入,它就有非常復(fù)雜的工作流,比如說你要用瀏覽器,你要用數(shù)學(xué),你要用代碼,你要使用各種復(fù)雜的工具。然后包括多模態(tài)的使用,比如說,你看GAIA(Generalized AI Agent benchmark,一種面向生成式AI的基準測試)提出來的框架,它其實是非常復(fù)雜的任務(wù),人類去完成都可能要6-15分鐘,如果AI不斷地把時間降到6分鐘以下,我覺得這也是學(xué)術(shù)界、創(chuàng)業(yè)公司一直在追求的。比如說我們在金融領(lǐng)域去做很復(fù)雜的自動交易策略,包括給網(wǎng)紅們?nèi)プ霭l(fā)帖,其實這里面有非常復(fù)雜的步驟。
你怎么把它的boundary(能力上限)提高。我覺得兩個層面,一個是在應(yīng)用這樣的multi-agent(多智能體)系統(tǒng),不斷去推高需求;另外一個是在某些能力層面,大家不斷地去螺旋式上升,自己訓(xùn)更大的model(模型),當模型因為算力和能源限制的時候,它就會去做multi-model(多模型)的組合。 所以上面是多智能體,下面是多模型,我覺得這個是接下來我比較看好的兩到三年的一個發(fā)展路線圖。
朱哲清 前Meta AI應(yīng)用強化學(xué)習(xí)負責人 Pokee AI創(chuàng)始人兼CEO: 對于大方向的突破,我感覺應(yīng)該肯定會發(fā)力在多模態(tài)上面,特別是在視頻跟world model(世界模型)上面。因為人類的語言本身是一個非常大的compression(壓縮包),它的信息搭載量和視頻的信息是一個數(shù)量級的差異,這件事情我同意Yann LeCun的說法,人類從視覺、聽覺、觸覺各方面的多維度信息采取、吸收量,是要比純文字要高出大幾個數(shù)量級的。
文字訓(xùn)練的一個假設(shè)是:我如果能夠通過一些簡單規(guī)則,比如reinforcement(強化學(xué)習(xí)),fine tuning(微調(diào))或者reward model(獎勵模型),通過一個簡單規(guī)則或者簡單的判斷方式,或者訓(xùn)練出來、或者寫出來的判斷方式,能夠去判斷一個模型的好壞、告訴你怎么去提升這個模型。它就相當于一個文字領(lǐng)域的world model(世界模型)。比較復(fù)雜的點是,當出現(xiàn)了多模態(tài)視頻,可以navigate environment(導(dǎo)航環(huán)境)之后,它的評估難度就會高很多。從純pixel(像素)的方式去做評估,這個是目前機器人技術(shù)領(lǐng)域肯定沒有解決的問題。
如果world model(世界模型)能有大幅度提升的話,我們有一個很大的機會能夠去訓(xùn)練,比如說視頻理解的模型、機器人技術(shù)的基礎(chǔ)模型、游戲的基礎(chǔ)模型,這些基礎(chǔ)模型的誕生再給到一個機會,讓我們?nèi)ズ竺嬖偃プ鰌ost-training(后訓(xùn)練),它可以在整個多模態(tài)的世界里面創(chuàng)造text-based model(基于文字的模型)的一個同樣的可以復(fù)制的成就。
然而在那些領(lǐng)域當中,它所代表的市場份額,或者整個市場的空間,其實比純文字的市場空間要更大。它可以把一個純文字交流式的非常壓縮信息的系統(tǒng)拓展成一個,或者是線上的非常豐富的信息,或者說視覺、聽覺、觸覺的一部分,或者直接線下的機器人技術(shù)的東西,它們的能夠部署的這個領(lǐng)域有一個非常大的延展,所以我覺得我剛剛說的像世界模型這個方向,視覺的方向,一定是下一步最重要發(fā)力的方向。
而多模態(tài)之戰(zhàn)確實在最近變得非常激烈,谷歌最近發(fā)布世界模型Genie 3,這在一些業(yè)內(nèi)人士看來,重要性是要超過GPT-5的,我們《硅谷101》也在操作這個選題了,很快會放出來,所以大家記得關(guān)注我們的賬號,不要錯過更新哦。
此外,Bill提到的圖靈獎得主Yann LeCun近年來提出的核心研究方向叫做Joint Embedding Predictive Architecture,簡稱JEPA,翻譯過來是“聯(lián)合嵌入預(yù)測架構(gòu)”,旨在克服大語言模型的局限,推動AI理解物理世界。
Nathan Wang 硅谷101特約研究員 資深A(yù)I Agent開發(fā)者: JEPA本身它是把所有模型的訓(xùn)練放到Latent(潛層)空間中去完成。它在潛層空間的話,對于你的輸入是有一個抽象的表達,對于你的輸出也是一個抽象表達,這樣你就可以再把輸入、輸出都同時放到這樣的一個維度空間中訓(xùn)練。然后再給到它不同狀態(tài)的量,讓它可以在潛層空間中去預(yù)測“我下一個動作應(yīng)該是怎么樣的”或者“我下一個應(yīng)該預(yù)測的,是怎樣的一個狀態(tài)?”它在這個過程中就不是一幀或一個一個像素去預(yù)測的,而是把你遮擋了的某一塊可以整體地給預(yù)測出來。
JEPA本身其實也分I-JEPA(image圖像JEPA)和V-JEPA(video視頻JEPA)。最新發(fā)表這個文章其實也表現(xiàn)出,在預(yù)測整個視頻中的事物變化時,也取得了非常好的表現(xiàn)。所以,我個人比較看好一些非transformer的架構(gòu),是否在未來可以給我們一個真正的智能,更加接近或模擬我們?nèi)四X思考的一個方式。
我覺得transformer的局限性是存在的,但我們也有其他架構(gòu)作為替代方案,也有不同的團隊在進行探索。所以大家可能也需要去關(guān)注一些非transformer方面的模型究竟是怎么樣去模擬人類的智能。
04 GPT-5被過度營銷反噬,但AI進化不會停止
最后還想說,這次GPT-5的翻車與Sam Altman之前過于浮夸的營銷分不開。
在發(fā)布會之前,他在X上的各種預(yù)熱還有用詞,一會兒在他弟弟的播客上感嘆自己“相對于AI毫無用處”,一會兒又在X上曬出與GPT-5的聊天截圖,各種“暗示”,但又保持神秘,吊足了公眾的胃口,把期待值拉得太高。
結(jié)果發(fā)布會出來,大家都愣了。所以,這次發(fā)布會的失利也是被視為“營銷鬼才”的Sam Altman太過度營銷的一次反噬。
總結(jié)一下,長期來看,到達AGI之前,我們可能還有很多工作要做,還有很多技術(shù)壁壘需要突破,而這些突破需要腳踏實地的研發(fā)和創(chuàng)新。
但很遺憾的是,在人類的技術(shù)進一步被推進之際,OpenAI等大模型公司卻開始在商業(yè)化上變得非常激進,包括發(fā)布GPT-5之際正式開始打價格戰(zhàn),來圈地、圈市場份額。
這讓不少人擔心,會不會這次的GPT-5發(fā)布會意味著AI泡沫破滅的開始?AI大模型的進展是否會就此停止呢?
Nathan Wang 硅谷101特約研究員 資深A(yù)I Agent開發(fā)者: 所以我個人也是比較期待類似像JEPA這樣的一些新的構(gòu)架能夠出現(xiàn),有更多人能進行探索,而不是因為transformer現(xiàn)在可以給我們帶來很多經(jīng)濟利益、經(jīng)濟價值,就只是停留在這個階段,然后一直所有人都寄希望于scaling law能夠繼續(xù)持續(xù)下去。
從GPT 5的發(fā)布來講,我覺得大家也可以更好地去清醒地認識到transformer本身的局限,可能也有更多人可以去關(guān)注其他的一些替代方案,能夠幫助整個AI行業(yè)得到更深遠的發(fā)展。
最后,雖然我們這個視頻說了OpenAI和GPT-5這么多“壞話”,我個人其實還是非常喜歡這款產(chǎn)品,以及我是一個忠實用戶,基本上工作、生活都離不開ChatGPT了。
這場發(fā)布會讓我看到了ChatGPT朝著一個更好的AI全能super app的邁進。很多功能,在我看來,都將讓我的生活和工作更加高效。
而看上去OpenAI還會繼續(xù)優(yōu)化GPT-5的各種性能,到時候我們也會為大家跟進AI發(fā)展,并進一步分析。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.