到2030年,大語言模型有望在幾小時內解決人類需數月時間才能完成的任務。
對大語言模型進行基準測試會帶來一些不同尋常的挑戰(zhàn)。首先,許多大語言模型的主要目的都是提供與人類寫作并無二致且引人入勝的文本。而且,這種任務的成功可能與傳統(tǒng)上用于判斷處理器性能的指標(如指令執(zhí)行率等)無關。
不過,我們有充分的理由堅持嘗試衡量大語言模型的表現。否則,就不可能定量地了解大語言模型隨著時間的推移能有多大程度的改進,也不可能估算何時它們才能獨立完成實質性的有用項目。
這是模型評估與威脅研究(METR)工作背后的關鍵動機。該組織的總部位于加利福尼亞州伯克利,負責“研究、開發(fā)和評估前沿人工智能系統(tǒng)在沒有人類輸入的情況下完成復雜任務的能力”。2025年3月,該組織發(fā)表了一篇題為《衡量人工智能完成長期任務的能力》(Measuring AI Ability to Complete Long Tasks)的論文,該論文得出了一個驚人的結論,即根據其設計的一項指標來看,關鍵大語言模型的能力每7個月就會翻一番。這種認識也引出了第二個同樣令人震驚的結論:到2030年,最先進的大語言模型應該能夠以50%的可靠性完成一項基于軟件的任務,而人類完成這項任務需要以每周40個小時的強度工作1個月。大語言模型將能以比人類快得多的速完成這種任務,它們只需要幾天甚至幾個小時。
這類任務可能包括創(chuàng)辦一家公司、寫一本小說或大幅改進現有的大語言模型。人工智能研究員扎克·斯坦鉑爾曼(Zach Stein-Perlman)在一篇博客文章中寫道,具有這種能力的大語言模型“無論是從潛在的益處還是潛在的風險方面來說,都將帶來巨大的利益”。
METR工作的核心是研究人員設計的一個名為“任務完成時間范圍”的指標。該指標是指人類程序員平均完成一項任務所需的時間,而大語言模型能夠在一定程度上(比如50%)可靠地完成這項任務。左圖顯示,過去幾年里,一些通用大語言模型的這項指標明顯呈指數級增長,大約7個月就會翻一番。研究人員也考慮了任務的“混亂”因素,根據METR研究員梅根·金妮曼特(Megan Kinniment)的說法,“混亂”的任務是指那些與“現實世界”中的任務更相似的任務。對于大語言模型而言,更復雜的任務更具挑戰(zhàn)性(上圖)。
也許大語言模型自我提升的概念會讓你聯想到某種奇點末日的景象,金妮曼特也深以為然。但她提醒道:“其提升速度可能會相當快,這確實會讓事情變得更加難以控制,但不一定會導致這種大規(guī)模的爆炸式增長。”她補充說,各種因素很有可能會減緩實踐的速度?!凹词刮覀儞碛辛朔浅B斆鞯娜斯ぶ悄?,這種進步速度最終仍有可能在硬件和機器人等方面遇到瓶頸?!?/p>
文章來源于 悅智網 ,作者 Gwendolyn Rak
報名
注:本次研討會席位有限,因此暫停對院校學生開放報名,望理解。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.