新智元報道
編輯:桃子 艾倫
【新智元導(dǎo)讀】強(qiáng)化學(xué)習(xí)核心是什么?Karpathy一語道破——環(huán)境。全新開源Environments Hub橫空出世,為強(qiáng)化學(xué)習(xí)訓(xùn)練帶去革命性突破。
強(qiáng)化學(xué)習(xí)時代,什么最重要?
Karpathy給出了答案,環(huán)境!只有環(huán)境,才能讓LLM真正進(jìn)行交互、執(zhí)行動作、觀察結(jié)果。
如今,一個開源的環(huán)境中心——Environments Hub正式登場了,它由一家專注于去中心化AI開發(fā)公司Prime Intellect發(fā)布。
一直以來,RL環(huán)境是割裂的、封閉的,甚至難以共享。
但有且只有環(huán)境,定義了世界、規(guī)則,以及「狀態(tài)—動作—獎勵」的反饋閉環(huán)。
從游戲到編程,再到聊天對話,它們是AI學(xué)習(xí)發(fā)生的場景。沒有它們,RL只是一套無從著力的算法。
Environments Hub的誕生,能夠讓任何人模擬出各種各樣、高質(zhì)量的環(huán)境,為開源AGI做出貢獻(xiàn)。
AI智能體交互,缺的是環(huán)境
RL環(huán)境,是智能體學(xué)習(xí)的試驗場。
回想一下,在預(yù)訓(xùn)練時代,互聯(lián)網(wǎng)數(shù)據(jù)是核心。LLM主要通過大量多樣,且高質(zhì)量的數(shù)據(jù)來學(xué)習(xí)。
到了監(jiān)督微調(diào)階段,重點變成了「對話數(shù)據(jù)」。
人們會雇傭外包團(tuán)隊,來為問題創(chuàng)建答案,類似Stack Overflow、Quora平臺的模式,但又專為LLM使用場景而設(shè)計。
如今到了強(qiáng)化學(xué)習(xí)時代,前兩個階段不會消失,但不同的是,環(huán)境成為了重心。
這些環(huán)境,可以用于模型訓(xùn)練,也可用于評估。不過,問題在于,如何創(chuàng)建出豐富多樣的環(huán)境?
Karpathy回憶道,OpenAI最早的一個項目Gym,一個希望用統(tǒng)一框架去構(gòu)建大規(guī)模環(huán)境集合。
GitHub地址:https://github.com/openai/gym
不過,這都是近十年前,大模型還未興起的項目了。所以,當(dāng)時的環(huán)境,都是一些簡單的經(jīng)典控制任務(wù),比如cartpole、ATARI之類的。
而現(xiàn)在,Environments Hub是一個專門針對LLM構(gòu)建的版本。
Karpathy激動地表示,「這是個非常棒的努力和想法」。今年初,他還發(fā)文建議過有人應(yīng)該做類似的事情。
Environments Hub有個特點,一旦框架構(gòu)建完成,原則上社區(qū)和行業(yè)就可以在不同領(lǐng)域并行開發(fā)。
而且,環(huán)境和智能體交互的方向,是下一個未來。
大廠斥資幾百萬,搞出圍墻花園
為什么需要打造一個Environments Hub呢?
目前,多數(shù)強(qiáng)化學(xué)習(xí)環(huán)境是由初創(chuàng)公司構(gòu)建,并將其出售給少數(shù)幾家不對外開放的大型實驗室。
如果高質(zhì)量的學(xué)習(xí)環(huán)境一直保持封閉且昂貴,開源模型將進(jìn)一步落后于閉源模型。
要想扭轉(zhuǎn)這種局勢,需要有一個強(qiáng)大的開源學(xué)習(xí)環(huán)境和訓(xùn)練工具生態(tài)系統(tǒng)能崛起。
Environments Hub正是承載著這個使命應(yīng)運而生,旨在讓下一波初創(chuàng)公司和AI的發(fā)展能夠構(gòu)建于開放的基礎(chǔ)設(shè)施和開源模型之上。
核心功能,一鍵生成評估報告
總結(jié)來說,Environments Hub具備了以下功能亮點:
通過Hub或CLI(命令行)拉取、推送并管理環(huán)境
生成跨模型的評測報告
與verifiers框架深度集成
prime-rl訓(xùn)練器原生支持環(huán)境
提供用于代碼執(zhí)行的原生沙箱支持
你可以創(chuàng)建、管理和共享用于強(qiáng)化學(xué)習(xí)及評估的環(huán)境:
可以為不同模型創(chuàng)建和瀏覽環(huán)境評估報告:
可擴(kuò)展訓(xùn)練器prime-rl原生支持這些環(huán)境:
還有沙盒功能,可直接與Verifier Environments對接,以實現(xiàn)安全的代碼執(zhí)行。
如果還有你需求的功能沒有滿足,你也可以親自作為該開源項目開發(fā)者去貢獻(xiàn)代碼。
下一步:全棧式開源AGI基礎(chǔ)設(shè)施
過去幾個月中,Environments Hub將基于Agent的強(qiáng)化學(xué)習(xí)訓(xùn)練擴(kuò)展到規(guī)模最大的開源模型,并取得了顯著進(jìn)展。
隨著眾多眾包環(huán)境被引入INTELLECT-3,訓(xùn)練出一個完全開放、最先進(jìn)的Agent模型將成為可能。
除此之外,Environments Hub關(guān)心的重點是,讓人人都能用上這套基礎(chǔ)設(shè)施,使研究人員和初創(chuàng)公司都能為自己的任務(wù)訓(xùn)練模型、集成工具、運行強(qiáng)化微調(diào),以及優(yōu)化Agent支撐框架。
prime-rl的整個技術(shù)棧都是開源的,正在擴(kuò)展到全球的計算資源上無縫運行。
強(qiáng)化學(xué)習(xí)不僅是通往AGI的必經(jīng)之路,也是構(gòu)建AI原生產(chǎn)品的基礎(chǔ)。
未來最成功的初創(chuàng)公司,將是那些能根據(jù)自身需求,創(chuàng)造出差異化環(huán)境的公司。
如今,最大的障礙并非獲取強(qiáng)大模型,而在于大規(guī)模訓(xùn)練和部署它們所需的基礎(chǔ)設(shè)施及成本。
通過降低這一門檻,Environments Hub旨在為所有AI構(gòu)建者提供廉價、無縫的計算、推理和訓(xùn)練資源,以及全套的強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施。
參考資料:
https://www.primeintellect.ai/blog/environments
https://x.com/karpathy/status/1960803117689397543
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.