夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-5≈o3.1!OpenAI首次詳解思考機制:RL+預(yù)訓(xùn)練才是AGI正道

0
分享至

鷺羽 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
  • 在某種程度上,GPT-5可以被視作是o3.1。

該觀點出自O(shè)penAI研究副總裁Jerry Tworek的首次播客采訪,而Jerry其人,正是o1模型的主導(dǎo)者之一。



在他看來,相比GPT-4,GPT-5更像是o3的迭代,而OpenAI接下來要做的,就是再創(chuàng)造一個“o3奇跡”——構(gòu)建能力更強、思考時間更長、能自主與多系統(tǒng)互動的模型。

在長達一小時的訪談中,Jerry Tworek侃侃而談自己對GPT系列模型的思考。

從o1到GPT-5的模型演變歷程講起,介紹OpenAI的模型推理過程、公司內(nèi)部架構(gòu)、強化學習對OpenAI的意義,中間還穿插了他個人進入OpenAI的經(jīng)歷,以及對OpenAI未來走向AGI的想法。

  • 如果向10年前的人展示今天的ChatGPT,他們可能會稱之為AGI。

另外,他也著重肯定了DeepSeek提出的GRPO算法貢獻,推動了美國RL研究。



有趣的是,當他談及自己也是ChatGPT的重度“發(fā)燒友”,每月都會花200美元充值在上面時,網(wǎng)友發(fā)現(xiàn)了華點:

  • 萬萬沒想到,OpenAI自家員工也要為ChatGPT付費。(doge)



不過有一說一,這場訪談的知識密度爆炸,非常值得一看,連他本人在社媒發(fā)帖,也說:

  • 如果你想要深入了解RL,那么這個播客不容錯過。



GPT-5如何思考

主持人Matt Turk首先拋出了一個所有人都很好奇的問題:

  • 當我們和ChatGPT聊天時,它們正在思考些什么?

簡單來說就是,什么是模型的推理。

Jerry Tworek當即一語中的,模型的推理過程類比于人類的思考,本質(zhì)上都是尋找未知答案的過程,期間可能涉及執(zhí)行計算、查找信息或自我學習。



推理過程具體表現(xiàn)在思維鏈上,自從OpenAI發(fā)布o1模型以來,這個概念開始變得廣為人知。

它是將模型的思維過程用人類的語言口語化表述出來,整個過程就是:語言模型在大量人類知識上訓(xùn)練、學習如何像人類一樣思考,然后通過思維鏈“翻譯”回人類。

早期如果想要激發(fā)思維鏈,需要在提示詞中描述“讓我們一步步解決它”,因為如果直接提問,模型可能會推理失敗,但只要讓它分步進行,它就會生成一系列思維鏈,并最終得出結(jié)果。

所以通常情況下,模型在推理中花費的時間越長,結(jié)果往往會更好

但OpenAI在實際用戶反饋中發(fā)現(xiàn),一般用戶并不喜歡花費大量時間在等待上,這在一定程度上也影響了他們構(gòu)建模型的決策路線。

現(xiàn)在OpenAI會同時將高推理模型與低推理模型通通都開放給用戶,將模型思考時長的選擇權(quán)交還用戶,同時內(nèi)部嘗試編碼啟發(fā)式方法以找到合適的平衡。

而OpenAI推理模型的伊始還得從o1說起。



這也是OpenAI發(fā)布的第一個正式的推理模型。

不過作為o1的主要負責人,Jerry也相當坦誠地表示,o1主要擅長解決謎題,所以與其說它是真正有用的產(chǎn)品,更像是一次技術(shù)演示。

隨后是o3的出現(xiàn)改變了這種局面,它也代表了AI發(fā)展過程中的結(jié)構(gòu)性轉(zhuǎn)變。

它是真正意義上有用的,能夠熟練使用工具以及各種來源的上下文信息,并在尋求答案的過程中呈現(xiàn)出堅持不懈刨根問底的狀態(tài)。



Jerry本人自己也是從o3開始完全信賴推理模型的。

所以從某種程度上講,GPT-5更像是o3的迭代——o3.1,擁有一脈相承的思考過程。

在之后,OpenAI也會繼續(xù)尋求下一個重大飛躍,即能力更強、思考更優(yōu),也更自主的推理模型。

加入OpenAI是自然而然的過程

但正是這樣一個主導(dǎo)OpenAI推理模型的關(guān)鍵人物,Jerry Tworek最初進入這個領(lǐng)域卻頗有一種命定感,獨屬于天才的靈光一現(xiàn)。

Jerry將這個過程比喻為一顆水晶的誕生,與生俱來想要從事科學研究的想法,在隨后的學習工作生涯中逐漸明確,然后當OpenAI出現(xiàn)的那一刻,叮咚,時機已到。

而這一切還得從他兒時說起,Jerry在波蘭長大,從小表現(xiàn)出超越同齡人的天賦,包括數(shù)學和科學,用他自己的話來說就是:

  • 它們是自然而然適合我的東西。

18歲的時候想要成為一名數(shù)學家,于是進入華沙大學學習數(shù)學,渴望追求真理,但“叛逆”的他因為厭倦學術(shù)界的死板和嚴苛,放棄了這個理想。

為了養(yǎng)家糊口,他決定成為一名交易員,利用自己的數(shù)學技能謀生,曾在摩根大通的股票衍生品交易部門實習,隨后又離職創(chuàng)立對沖基金。

幾年之后,對交易工作再次感到厭倦的他,陷入了職業(yè)期瓶頸。



直到DeepMind的DQN智能體的出現(xiàn)打破了這一僵局,他被其中的強化學習深深吸引,此前他認為分類器其實并不智能,但DQN展示出學習復(fù)雜行為的能力。

于是在2019年他加入了OpenAI,但最開始他在里面從事的是機器人項目,專注于靈巧操作。而這個項目也正是OpenAI著名的“用機器人解決魔方”項目,是強化學習與仿真實體交互的代表作之一。

隨后就是眾所周知的領(lǐng)導(dǎo)o1項目、推動OpenAI模型能力進步,而目前他的主要工作內(nèi)容是和其他研究人員交流,集思廣益完善研究計劃。

在OpenAI內(nèi)部,據(jù)Jerry所說,工作結(jié)構(gòu)相當獨特,是自上而下自下而上的結(jié)合。



具體來說就是,公司整體專注于三到四個核心項目,集中精力押注,而研究人員在項目內(nèi)部享有相對自下而上的自由。

整個研究部門總計約600人,但每個人都知道項目的所有內(nèi)容,因為在OpenAI看來,讓研究人員因為無法獲取全部信息而不能做出最佳研究,這個風險遠高于知識產(chǎn)權(quán)泄。

而OpenAI之所以能夠快速發(fā)布產(chǎn)品,一年時間就從o1到GPT-5,歸根結(jié)底是因為他們擁有良好的運營結(jié)構(gòu)、巨大的發(fā)展勢頭,以及頂尖人才的高效產(chǎn)出,他們都相信自己所做工作的意義:

  • AI在歷史上只會被構(gòu)建和部署一次。

另外員工們也會大量使用內(nèi)部工具,Jerry自己就是ChatGPT的深度用戶,每個月都會為其支付費用,另外例如CodeX也被廣泛應(yīng)用在內(nèi)部的代碼編寫中。

RL對OpenAI的關(guān)鍵一擊

對Jerry本人來說,強化學習是引領(lǐng)他走進OpenAI的鑰匙,而放眼看OpenAI整個公司,RL也是多次轉(zhuǎn)折的關(guān)鍵。

今天的語言模型可以被認為是預(yù)訓(xùn)練和強化學習的結(jié)合:先進行預(yù)訓(xùn)練,然后在其之上進行強化學習,二者缺一不可。這也是OpenAI自2019年起的研究計劃核心。

不過要想進一步了解RL在OpenAI的地位,首先要先清楚什么是RL。

Jerry認為,RL類似于訓(xùn)練狗,當狗表現(xiàn)良好時,可以給予“獎勵”(零食或微笑),當狗做錯事時,給予“懲罰”(例如轉(zhuǎn)移注意力、表達不悅情緒)。

RL就是在模型中提供類似作用,如果模型的行為正確就給予積極獎勵,反之行為不正確就給予負面獎勵,其中的關(guān)鍵在于策略和環(huán)境:

  • 策略:指模型的行為,是一個將觀察結(jié)果映射到行動的數(shù)學函數(shù)。
  • 環(huán)境:模型所看到的一切,必須是交互式的,而環(huán)境會根據(jù)模型的行動而演變,比如學習彈吉他時,會根據(jù)撥弦發(fā)出的聲音獲得反饋。RL就是教模型對環(huán)境變化做出反應(yīng)的唯一途徑。

隨后DeepMind的DQN將RL帶到了新的階段——Deep RL,它將神經(jīng)網(wǎng)絡(luò)與強化學習相結(jié)合,誕生出真正有意義的智能體。



Jerry也分享了當年GPT-4剛訓(xùn)練完成的故事,那時內(nèi)部團隊對其表現(xiàn)并不滿意,因為GPT-4在較長的回答中始終缺乏連貫性。

后續(xù)是通過RLHF(基于人類反饋的強化學習)解決了這個問題,即讓人類對模型輸出的內(nèi)容提供反饋,并以此作為獎勵。

也正是因為GPT-4碰到了RLHF,世界才擁有了“ChatGPT時刻”



最近OpenAI在編程競賽中出乎意料的優(yōu)異表現(xiàn),Jerry說也是因為研究人員長期使用編程謎題作為測試平臺,來嘗試他們的RL想法。

無心插柳柳成蔭,在他們研究RL的進程中,也為OpenAI帶來了階段性榮譽。

所以只要能夠評估當前結(jié)果并計算反饋信號,RL就能應(yīng)用在任何領(lǐng)域,即使答案不只是簡單的對與錯。

但目前要想規(guī)?;疪L,還是很有難度的,因為RL在實際運行中會出現(xiàn)很多可能出錯的地方,相比預(yù)訓(xùn)練會有更多的瓶頸和故障類型。

它是一個非常精細的過程,類比RL和預(yù)訓(xùn)練,就是制造半導(dǎo)體要比制造鋼鐵要復(fù)雜得多。



另外,Jerry也對DeepSeek團隊提出的全新的強化學習算法GRPO(組相對策略優(yōu)化)表示了認可:

  • GRPO的開源,讓許多缺乏高級RL研究項目的美國實驗室,可以更快地啟動并訓(xùn)練推理模型。
RL+預(yù)訓(xùn)練才是通往AGI的正確道路

關(guān)于AI的未來,Jerry Tworek也在最后提出了自己的見解。

首先是Agent,Jerry認為AI帶來的積極影響,是可以通過自動化解決人類問題。

模型目前提供答案的速度非常之快,大概需要幾分鐘,而他們內(nèi)部測試顯示,在某些任務(wù)上模型其實可以獨立思考30分鐘、1小時或者更久,所以當前模型遇到的挑戰(zhàn)是如何建立合適的產(chǎn)品來部署長時間的思考過程。

其中由基礎(chǔ)推理驅(qū)動的Agent能夠允許模型更長時間的獨立思考,并解決更為復(fù)雜的任務(wù),例如編程、旅游預(yù)訂、設(shè)計等,所以AI智能體化是大勢所趨。

模型對齊也是大眾比較關(guān)心的問題之一,也就是引導(dǎo)模型行為符合人類價值觀。

Jerry表示對齊問題本質(zhì)上其實就是一個RL問題,要讓模型深入理解其行為和可能導(dǎo)致的后果,才能讓模型做出正確的選擇。它將是永無止境的,因為對齊的概念將隨著人類文明的演進而不斷發(fā)展。



如果要通往AGI,當前的預(yù)訓(xùn)練和RL肯定是必不可少的,當然后續(xù)肯定需要添加更多元素一起發(fā)力。

Jerry明確反對當前業(yè)界一些關(guān)于“純RL是通往AGI的唯一途徑”的觀點,他堅信:

  • RL需要預(yù)訓(xùn)練才能成功,而預(yù)訓(xùn)練也需要RL才能成功,二者缺一不可。

雖然對于AGI,他也很難描述,具體什么時候模型可以在沒有大量外部輸出和人類干預(yù)的情況下,實現(xiàn)自我改進。

但他相信,OpenAI目前走在正確的道路上,未來的變化將會是新的復(fù)雜組件的添加,而絕非完全推翻現(xiàn)有的架構(gòu)。

參考鏈接:
[1]https://x.com/mattturck/status/1978838545008927034
[2]https://www.youtube.com/watch?v=RqWIvvv3SnQ

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中央定調(diào)!2025年70歲以上老人,可享受這幾項優(yōu)待,農(nóng)民也有份

中央定調(diào)!2025年70歲以上老人,可享受這幾項優(yōu)待,農(nóng)民也有份

社保小達人
2025-10-19 11:30:07
20號收評:三大指數(shù)沖高回落,所有人都注意,大盤后市或?qū)⑦@么走

20號收評:三大指數(shù)沖高回落,所有人都注意,大盤后市或?qū)⑦@么走

春江財富
2025-10-20 15:21:56
菲律賓動手,上百艘船包抄中方,加軍艦壓陣,美國也找到出兵借口

菲律賓動手,上百艘船包抄中方,加軍艦壓陣,美國也找到出兵借口

李博世財經(jīng)
2025-10-20 17:11:45
“難道我配不上15w年薪嗎?”浙大新聞女孩求職,被嘲諷:太天真

“難道我配不上15w年薪嗎?”浙大新聞女孩求職,被嘲諷:太天真

妍妍教育日記
2025-10-18 14:46:15
美國明搶柬埔寨企業(yè)12萬個比特幣、價值150億美金!

美國明搶柬埔寨企業(yè)12萬個比特幣、價值150億美金!

新浪財經(jīng)
2025-10-17 10:44:39
中超巨星退出國家隊,教練怒斥:他太懶了,別人跑7公里他跑4公里

中超巨星退出國家隊,教練怒斥:他太懶了,別人跑7公里他跑4公里

國足風云
2025-10-20 15:49:40
驚爆!火箭或以最快速度交易得到特雷·楊

驚爆!火箭或以最快速度交易得到特雷·楊

體育新角度
2025-10-20 18:48:56
“全球最快高鐵”,CR450動車組,創(chuàng)紀錄!

“全球最快高鐵”,CR450動車組,創(chuàng)紀錄!

每日經(jīng)濟新聞
2025-10-20 15:08:34
張學良有糖尿病,得病后他的煙酒觀,長壽秘訣讓他活了101歲!

張學良有糖尿病,得病后他的煙酒觀,長壽秘訣讓他活了101歲!

愚鑒
2025-10-20 09:37:38
鐘南山院士:天氣漸冷,吃完降壓藥后,請務(wù)必注意這9個隱患

鐘南山院士:天氣漸冷,吃完降壓藥后,請務(wù)必注意這9個隱患

荷蘭豆愛健康
2025-10-20 11:56:48
算命的說:家有這3大生肖惹不起,大智若愚,越老越享福

算命的說:家有這3大生肖惹不起,大智若愚,越老越享福

人閒情事
2025-10-20 12:46:26
楊振寧晚年遺憾:年薪僅1萬美元,未能資助杜致仁

楊振寧晚年遺憾:年薪僅1萬美元,未能資助杜致仁

阿鄖田間生活
2025-10-19 23:42:54
27歲小伙徒步登山失聯(lián)70余天,已確認遇難;出事前給女友發(fā)山頂照片,搜救人員:倒下位置離道路只有50米

27歲小伙徒步登山失聯(lián)70余天,已確認遇難;出事前給女友發(fā)山頂照片,搜救人員:倒下位置離道路只有50米

魯中晨報
2025-10-20 16:16:06
巴西大豆坐地起價?對華報價瘋漲,中國買家集體停購:等兩個時機

巴西大豆坐地起價?對華報價瘋漲,中國買家集體停購:等兩個時機

好賢觀史記
2025-10-20 17:42:44
新一代機皇!新機官宣:10月20日,正式發(fā)售

新一代機皇!新機官宣:10月20日,正式發(fā)售

科技堡壘
2025-10-20 10:50:33
放假通知!中小學2026寒假時間確定了!家長卻表示難以接受…

放假通知!中小學2026寒假時間確定了!家長卻表示難以接受…

感覺會火
2025-10-19 12:11:03
中國對外貿(mào)易中心主任調(diào)整

中國對外貿(mào)易中心主任調(diào)整

極目新聞
2025-10-20 15:26:56
吳石臨刑前的一個謊言,騙過了整個保密局,也守護了更多人的生命

吳石臨刑前的一個謊言,騙過了整個保密局,也守護了更多人的生命

平祥生活日志
2025-10-20 10:27:50
我是獨生女,讓二胎隨娘家姓8年后發(fā)現(xiàn):根本沒意義,純屬瞎折騰

我是獨生女,讓二胎隨娘家姓8年后發(fā)現(xiàn):根本沒意義,純屬瞎折騰

小馬達情感故事
2025-10-19 17:00:03
月薪比過山車還刺激!農(nóng)商行員工曬2025收入,網(wǎng)友:太真實了!

月薪比過山車還刺激!農(nóng)商行員工曬2025收入,網(wǎng)友:太真實了!

另子維愛讀史
2025-10-19 22:45:30
2025-10-20 19:44:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
11531文章數(shù) 176308關(guān)注度
往期回顧 全部

科技要聞

雙11涼涼了?大主播退場,無AI不賣貨

頭條要聞

未婚未育男子將遺產(chǎn)留給外甥遺囑卻寫錯名字 法院判了

頭條要聞

未婚未育男子將遺產(chǎn)留給外甥遺囑卻寫錯名字 法院判了

體育要聞

年薪百萬的球星,穿二手鞋騎自行車上下班

娛樂要聞

明星進豪門并沒有想象中的光鮮?

財經(jīng)要聞

第三季度GDP,4.8%!

汽車要聞

被騙上騰勢N8L干到200公里魚鉤測試 下車吐了但值了

態(tài)度原創(chuàng)

藝術(shù)
親子
本地
數(shù)碼
公開課

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

把生孩子當成義務(wù)和責任,正在害了我們的未來

本地新聞

考上警犬專業(yè),我和修勾一起卷編制

數(shù)碼要聞

國家廣電總局“便捷看電視”首張證書頒發(fā),買電視可看認證標志

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 久久精品国产99国产精品导航| 人人妻人人澡人人爽超污| 久久久久久亚洲av无码专区| 午夜无码a级毛片免费视频| 苍井空无码影院| 极品人妻系列无码30P| 亚洲黄色国产精品日韩无码| 一本大道大臿蕉视频无码| 无码av无码一区二区桃花岛| 国产AV自慰| 激情五月天综合网站| 亚洲第一二区aV蜜桃.蜜芽| 国产精品美女一区二区三区| www.婷婷五月开心| 亚洲高清中文字幕一区二区三区| AV一区二区三区在线观看| 中文在线っと好きだった在线| 啊灬啊灬啊灬快灬高潮少妇| 国产精品va无码免费麻豆| 国产乱,国产乱第3O0部| 国产乱码精品一区二区三区优势| 最新av中文字幕无码专区 | 国产熟妇按摩3p高潮大叫| 日韩av不卡一区二区在线| 中文字幕无码精品| 亚洲熟妇熟女久久精品综合| 丁香婷婷无码不卡在线| 色五月婷婷久久| AV网站免费看| 天堂网亚洲综合在线| 久久99精品久久久久婷婷| 婷婷综合AV在线| 精品一区二区三区蜜乳av| 色婷婷综合和线在线| 人妻超碰免费| 2014天堂网欧美无吗| 精品熟女少妇a∨免费久久| 性色欲情网站iwww| 懂色av粉嫩av色欲av| 国产91 对白在线播放九色| 色一情一乱一伦一区二区三区小说|