夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

我們找到3位大學(xué)教授,聊了聊越來越嚴(yán)重的AI幻覺

0
分享至



最近,網(wǎng)上出現(xiàn)了一個(gè) AI 幻覺引發(fā)的鬧劇。

7 月 2 日,網(wǎng)上突然出現(xiàn)大量 “ DeepSeek 就 AI 模型違規(guī)關(guān)聯(lián)向王一博道歉 ” 相關(guān)內(nèi)容,最終被發(fā)現(xiàn)其實(shí)是 DeepSeek 在對話中虛構(gòu)了事件甚至引用了一份在中國裁判文書網(wǎng)上完全查不到的判決書。

而這場鬧劇,源于 DeepSeek 在與用戶對話過程中產(chǎn)生的幻覺。借此,知危編輯部認(rèn)為有必要探討一下 AI 大模型們激增的幻覺率了。

前段時(shí)間,OpenAI o3 模型剛發(fā)布不久,也因?yàn)榛糜X率 “ 不降反升 ” 的現(xiàn)象引發(fā)了廣泛關(guān)注。

OpenAI o3 模型會犯很多匪夷所思的錯(cuò)誤。比如,捏造從未運(yùn)行過的代碼,在編碼設(shè)置中使用無效的非 ASCII 破折號,甚至還會假裝自己在調(diào)用工具。

在 PersonQA 基準(zhǔn)測試中,o3 會在 33% 的問答中出現(xiàn)幻覺,幾乎是o1( 16% )的 2 倍,o4-mini 的幻覺率更是高達(dá) 48%,遠(yuǎn)高于此前發(fā)布的推理模型。

近期發(fā)布的其他深度思考模型也出現(xiàn)了類似的規(guī)律,即隨著推理能力增強(qiáng),其幻覺率也反而更高。

艾倫人工智能研究所科學(xué)家 Nathan Lambert 曾發(fā)文評論 o3 的推理幻覺,表示這一問題的出現(xiàn)是由于 RL( 強(qiáng)化學(xué)習(xí) )過度優(yōu)化。

比如典型的“ 獎(jiǎng)勵(lì)黑客 ” 現(xiàn)象,Nathan Lambert 舉了一個(gè)例子,他們曾在 MuJoCo 環(huán)境中讓一只獵豹學(xué)會快速奔跑,最終獵豹通過側(cè)手翻動(dòng)作而不是跑步實(shí)現(xiàn)了最大的前進(jìn)速度。類似地,o3 假裝使用工具很可能是由于 o3 在訓(xùn)練時(shí)若成功調(diào)用工具能使其獲得獎(jiǎng)勵(lì)。

對應(yīng)到推理模型,則表現(xiàn)為答案是正確的,但推理過程卻是錯(cuò)誤的,或者和答案無嚴(yán)密的邏輯關(guān)系。( 這是一種更新型的幻覺,和 DeepSeek 造謠給王一博道歉事件中的事實(shí)性幻覺有區(qū)別 )

斯坦福大學(xué)團(tuán)隊(duì)[1]總結(jié)了這些怪異行為的類型,包括跳過中間關(guān)鍵步驟,代入特殊數(shù)值來猜測一般規(guī)律,數(shù)值近似粗糙,邏輯推導(dǎo)沒有閉合,甚至未使用真正的數(shù)學(xué)語言等。研究團(tuán)隊(duì)通過系統(tǒng)評估還發(fā)現(xiàn),Grok3 mini 最終答案正確率達(dá) 71.5%,但推理過程正確率僅為 6.0% 。

上海交通大學(xué)計(jì)算機(jī)系教授、博士生導(dǎo)師、副系主任張偉楠( 主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、決策大模型等 )告訴知危,“ 說 o3 是被強(qiáng)化學(xué)習(xí)過度優(yōu)化導(dǎo)致幻覺增加,其實(shí)說明人類不知道自己想要什么。”

發(fā)展到這一階段其實(shí)很正常。強(qiáng)化學(xué)習(xí)可以優(yōu)化大模型在某些任務(wù)( 例如數(shù)學(xué)和代碼 )的性能。而這些能力提升后,人們又開始關(guān)注它的幻覺問題,覺得大模型吐出來的話不正常。這樣的情況在其它強(qiáng)化學(xué)習(xí)應(yīng)用場景中也經(jīng)常發(fā)現(xiàn),例如人們首先訓(xùn)練機(jī)器人要走得快,但后來又覺得機(jī)器人走得不漂亮。”

天津大學(xué)智算學(xué)部教授、華為諾亞決策推理實(shí)驗(yàn)室主任郝建業(yè)( 主要研究方向?yàn)樯疃葟?qiáng)化學(xué)習(xí)、多智能體系統(tǒng)等 )也同意問題根源在于強(qiáng)化學(xué)習(xí),他向知危表示:“ 強(qiáng)化學(xué)習(xí)的學(xué)習(xí)范式,主要的監(jiān)督信號就是最終結(jié)果是否正確。而大模型本身的推理過程,尤其是數(shù)學(xué)題那種多步推理,是一個(gè)非常長的多步?jīng)Q策過程。但強(qiáng)化學(xué)習(xí)比如 GRPO( 一種強(qiáng)化學(xué)習(xí)算法 )只在最后一步給出獎(jiǎng)勵(lì),就可能導(dǎo)致模型學(xué)到的最終結(jié)果是正確的,但中間的推理過程是錯(cuò)誤的。模型可能會發(fā)展出一些錯(cuò)誤但高效的策略,這就是所謂的 ‘ 幻覺 ’ 現(xiàn)象的來源。

“ 整體來看,現(xiàn)在大家用強(qiáng)化學(xué)習(xí)訓(xùn)練大模型來實(shí)現(xiàn)慢思考,其實(shí)還處于一個(gè)比較初級階段,基本上還是用比較標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)方法。特別是在線的訓(xùn)練方法,包括 GRPO 也只是 PPO 的一個(gè)變種,本質(zhì)上和 PPO 沒有區(qū)別。”

倫敦大學(xué)學(xué)院計(jì)算機(jī)系教授汪軍( 主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、多智能體等 )對此進(jìn)行了深入的實(shí)驗(yàn)研究,他向知危表示 “ 現(xiàn)在主流的強(qiáng)化學(xué)習(xí)方法比如 GRPO 等,或者通過提示來鼓勵(lì)模型在輸出結(jié)果之前先思考的方法,都有很多問題,其中一個(gè)問題是模型的思考過程沒有被 regularized( 正則化 )或規(guī)整、規(guī)范,這就導(dǎo)致它所謂的思考過程可能并不符合人的邏輯。

“ 具體來說,我們使用 DeepSeek R1 等模型在 AIME 基準(zhǔn)測試上進(jìn)行測試,并對所有 AIME 中的數(shù)學(xué)難題的錯(cuò)誤和正確案例都進(jìn)行了分析,發(fā)現(xiàn)當(dāng)模型嘗試最大化獎(jiǎng)勵(lì)而忽略思考過程的規(guī)范性時(shí),其推理的邏輯不一定是對的,存在大量的重復(fù)或冗余,但最后還是能給出正確答案。這類現(xiàn)象可以理解為走捷徑。”

“ 對此我是比較失望的。所以盡管人們相繼提出了 GRPO 等各種強(qiáng)化學(xué)習(xí)算法,但沒有一個(gè)算法真正抓住了問題的關(guān)鍵?!?/strong>

“ 人們也嘗試突破 GRPO 等算法的局限性。比如我們有一個(gè)方法是這樣的:假設(shè) x 是輸入,y 是輸出,我們讓模型具備這樣的能力 —— 在已知 x 的情況下,給定之前的 y,反過來推出 x。經(jīng)過這樣的訓(xùn)練,模型就可以不斷地提高它的輸出能力,對強(qiáng)化學(xué)習(xí)有很大的提升?!?/p>

“ 目前人們并沒有關(guān)注如何對思考過程做 regularized。我們會關(guān)注這個(gè)方向,是因?yàn)楸举|(zhì)上,大多數(shù)在線強(qiáng)化學(xué)習(xí)訓(xùn)練中,thinking( 推理 )階段是沒有正確答案的。因?yàn)闆]有任何事實(shí)來告訴模型思考過程應(yīng)該是怎樣的,所以本質(zhì)上它是隱性的。如果只在輸出結(jié)果的時(shí)候提供一個(gè)獎(jiǎng)勵(lì),那對于中間這個(gè)隱性的過程,如果不加 regularized,就可能是任何東西。”

“ 從另外一個(gè)維度,無論思維鏈?zhǔn)怯?token 的形式( 包含在輸出中 ),還是 latent 的形式( 不包含在輸出中 ),只是不同的方法。latent 形式可能效率更高或更快,在有實(shí)時(shí)性要求的任務(wù)中更合適,但可解釋性不強(qiáng)。當(dāng)然也可以做成混合的方式,訓(xùn)練時(shí)用顯式的 token 形式,但在執(zhí)行時(shí)如果不需要輸出這些 token,則用 latent 的形式執(zhí)行就可以。還有一個(gè)可能,在大模型和小模型之間,用 latent 的方式來傳遞信息,也是可以實(shí)現(xiàn)的?!?/p>

當(dāng)然,將這種現(xiàn)象稱作幻覺,不一定準(zhǔn)確,有一定誤導(dǎo)性。過去討論的大語言模型的幻覺主要屬于事實(shí)性錯(cuò)誤,是由于 AI 生成的概率性而導(dǎo)致的必然結(jié)果。而 AI 的推理過程和人類不同,答案卻是正確的,只是 GRPO 等算法的獎(jiǎng)勵(lì)設(shè)置對中間過程缺乏約束的結(jié)果。”

張偉楠教授進(jìn)一步解釋道,“ 這類推理模型的訓(xùn)練中使用的數(shù)據(jù),可能已經(jīng)包含了相當(dāng)一部分大模型( 或者智能體 )通過強(qiáng)化學(xué)習(xí)與環(huán)境交互得出的 CoT( Chain of Thought,思維鏈 )數(shù)據(jù)。也就是說,交互數(shù)據(jù)本身就是憑空生成的,不是完全來自人類的數(shù)據(jù)。

“ 這些 CoT 數(shù)據(jù)一般會經(jīng)過校驗(yàn),也就是通過校驗(yàn)器判斷思考過程最終確實(shí)導(dǎo)致了任務(wù)的完成,然后這條思維鏈就會被用作訓(xùn)練數(shù)據(jù)。”

但是這些思維鏈鏈的具體過程,在語句、語法、自然語言層面是否標(biāo)準(zhǔn)或優(yōu)雅,人們其實(shí)并不關(guān)注。于是,這勢必會讓后訓(xùn)練之后的大語言模型 ‘ 說人話 ’ 的能力出現(xiàn)一定偏移。但它在解決專業(yè)任務(wù)的能力上,比如解題,比如智能體的規(guī)劃、決策等,整體是變強(qiáng)了?!?/p>

“ 再深入一層,就涉及強(qiáng)化學(xué)習(xí)的核心組成 ‘ 獎(jiǎng)勵(lì)函數(shù) ’ 了。其實(shí)人類目前還不知道正確、完美的獎(jiǎng)勵(lì)函數(shù)該怎么設(shè)計(jì)。更本質(zhì)的原因則是上面說的,人類不知道自己真正要什么。

郝建業(yè)教授也強(qiáng)調(diào),“ 設(shè)計(jì)合理的獎(jiǎng)勵(lì)函數(shù)是強(qiáng)化學(xué)習(xí)方法中最關(guān)鍵的一點(diǎn),同時(shí)也是最痛的一個(gè)點(diǎn)。”

獎(jiǎng)勵(lì)模型可分為結(jié)果級( ORM )和過程級( PRM ),ORM 容易讓模型通過錯(cuò)誤的推理路徑得到正確答案,因此有必要引入 PRM 來監(jiān)督推理過程。但 PRM 方法本身實(shí)現(xiàn)很困難,比如訓(xùn)練數(shù)據(jù)收集成本高。

“ 不只是數(shù)據(jù)成本高,中間過程的 PRM 定義本身就非常困難。因此一種解決方式是通過手動(dòng)或者半自動(dòng)的方法,更好地定義中間過程的獎(jiǎng)勵(lì),用來引導(dǎo)模型,盡量減少中間推理過程中的幻覺問題?!?/p>

“ 另外也可以考慮借鑒過去強(qiáng)化學(xué)習(xí)中的一些技術(shù),比如如何進(jìn)行獎(jiǎng)勵(lì)分配——也就是說,怎么把最終的獎(jiǎng)勵(lì)合理地分配到中間的每一個(gè)步驟,從而為中間過程自動(dòng)設(shè)計(jì)出更準(zhǔn)確的獎(jiǎng)勵(lì)值。

然而問及近兩年獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方面的發(fā)展情況,張偉楠教授向知危直言道,“ 沒什么像樣的發(fā)展。”

獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)難在哪里?其實(shí)是源于大模型作為智能體,要實(shí)現(xiàn)持續(xù)進(jìn)步,甚至超越人類,需要與復(fù)雜度越來越大的環(huán)境進(jìn)行交互。

張偉楠教授解釋道,“ 將強(qiáng)化學(xué)習(xí)應(yīng)用到大模型,推動(dòng)了大模型和智能體之間邊界逐漸模糊的趨勢。比如 OpenAI 的 DeepResearch 也是一個(gè)模型,在 pretrain 階段完全用 next token 的方式,直接輸出調(diào)工具的命令( 憑空生成一個(gè)工具 token,這個(gè)工具 token 對應(yīng)的是一個(gè)可被調(diào)用的 API ),根本不需要像智能體那樣從 prompt 去選擇調(diào)用工具?!?/p>

“ 以前讓智能體模型能夠和環(huán)境交互的是可執(zhí)行框架,作用是把環(huán)境給的感知信號轉(zhuǎn)換成大語言模型能理解的語言 token,大語言模型輸出的 token 又可以轉(zhuǎn)化成對環(huán)境下達(dá)任務(wù)、下達(dá)動(dòng)作的控制指令。但這其實(shí)就是一層框架?,F(xiàn)在智能體模型本身就可以去做這件事。但問題在于,你就得把這些任務(wù)相關(guān)的數(shù)據(jù)在預(yù)訓(xùn)練的時(shí)候全都輸入大語言模型里?!?/p>

“ 可是這樣的任務(wù)種類是成千上萬種,不可窮盡的。不可能在一次訓(xùn)練中,對于每一種任務(wù),人們都能交互出適合完成它的數(shù)據(jù),然后再讓大語言模型用 next token decision 的方法統(tǒng)一進(jìn)行訓(xùn)練?!?/strong>

“ 所以,這是一個(gè)永遠(yuǎn)存在的主流任務(wù)和 outlier 或者數(shù)量多、范圍窄的邊緣任務(wù)之間的權(quán)衡關(guān)系。比如 DeepResearch 重點(diǎn)挑選的是一些專業(yè)任務(wù),比如調(diào)研、科學(xué)研究、市場調(diào)研、數(shù)學(xué)、編程等任務(wù)。但前提是,你必須在訓(xùn)練階段就選好這幾類任務(wù)。但如果我突然有一天想用大模型處理點(diǎn)外賣這種任務(wù),它可能就做不了,因?yàn)樗鼔焊鶝]見過點(diǎn)外賣的 API。

“ 所以要提高推理模型的泛化性,還是需要更多從外部去強(qiáng)化交互。接下來的發(fā)展,無論是智能體還是大模型,都需要和動(dòng)態(tài)環(huán)境進(jìn)行交互,產(chǎn)生出超越人類的數(shù)據(jù)。一個(gè)是數(shù)量上超越人類沉淀下來的所有文本數(shù)據(jù),另一個(gè)是從數(shù)據(jù)性能指標(biāo)上超越人類?!?/p>

如果永遠(yuǎn)只是模仿人類,比如模仿人類怎么寫文字,它最多只能在融會貫通這個(gè)維度上超過人類。而確實(shí),大語言模型在融會貫通上已經(jīng)超過人類了。”

如果它的發(fā)展上限被 ‘ 老師 ’( 也就是人類本身 )限制住了,那它的成長空間就很有限。比如 AlphaGo ,它必須通過與環(huán)境的交互,生成完成任務(wù)的數(shù)據(jù),再基于這些數(shù)據(jù)調(diào)整自身參數(shù),才能讓它真正擁有比人類更強(qiáng)的能力。AlphaGo 能通過自我博弈提升,主要是因?yàn)榄h(huán)境太簡單,可以用之前的某個(gè)版本作為對手。但現(xiàn)在的智能體需要和整個(gè)開放的互聯(lián)網(wǎng)中進(jìn)行交互,環(huán)境就是互聯(lián)網(wǎng),這個(gè)問題復(fù)雜得多。

隨著模型的強(qiáng)化,為了防止過度優(yōu)化,獎(jiǎng)勵(lì)模型一般也需要跟著進(jìn)步。所以這不僅要求交互環(huán)境要越來越開放和復(fù)雜,獎(jiǎng)勵(lì)模型也要越來越強(qiáng)大。

學(xué)界對獎(jiǎng)勵(lì)模型的研究發(fā)展緩慢。目前將獎(jiǎng)勵(lì)函數(shù)引入大模型甚至深度思考大模型只是非常初步的進(jìn)展,獎(jiǎng)勵(lì)模型長期以來都是標(biāo)量形式的輸出,這其實(shí)極大限制了其表達(dá)能力和場景適用性。

“ 實(shí)際上,強(qiáng)化學(xué)習(xí)并沒有真正地約束算法必須在一個(gè)標(biāo)量式的獎(jiǎng)勵(lì)信號上進(jìn)行最大化。強(qiáng)化學(xué)習(xí)真正的定義是:只要智能體能夠和環(huán)境進(jìn)行動(dòng)態(tài)交互,并且基于這些交互經(jīng)驗(yàn)數(shù)據(jù)來提升自己的策略性,就可以了。并沒有說一定要用 MDP( Markov decision process,馬爾可夫決策過程 ),一定要有 reward function,一定要用標(biāo)量式的 reward 等等,只需要環(huán)境的變化反饋。所以這種反饋完全可以是非標(biāo)量式的數(shù)據(jù),比如說一個(gè)視覺信號,或者自然語言、多模態(tài)數(shù)據(jù)等。就像人類一樣,人類的學(xué)習(xí)從來沒有完全明確的數(shù)值反饋。

所以,未來訓(xùn)練一個(gè)大語言模型,最終的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì),可能更像一個(gè)評論家,來給出相關(guān)的文字性、非結(jié)構(gòu)化的反饋。那么我們需要提出一種方法,讓模型能夠基于這些文字型的反饋繼續(xù)優(yōu)化,比如教練說:‘ 你剛剛那個(gè)球打得不是特別好,以后揮拍的時(shí)候右手上肢的力量要更足一點(diǎn) ’,基于這樣的 language feedback 來調(diào)整策略,是完全可以做到的,而且已經(jīng)有一些工作在做了?!?/p>

張偉楠教授補(bǔ)充道,“ 從商業(yè)競爭角度來說,現(xiàn)在大語言模型如果基于人類的真實(shí)數(shù)據(jù)做 next token prediction 訓(xùn)練,其實(shí)互相拉不開差距,只能比誰的模型更大或者在執(zhí)行上更細(xì)致等。這源于數(shù)據(jù)層面的差距非常有限,因?yàn)榇蠹沂褂玫娜祟悢?shù)據(jù)基本一樣。但是如果能夠自我生成全新的數(shù)據(jù),是可以持續(xù)推動(dòng)模型進(jìn)步的?!?/p>

另一方面,這也反映出,目前業(yè)內(nèi)測試大模型推理能力的基準(zhǔn),其實(shí)存在很大的局限。

“ 現(xiàn)在的基準(zhǔn)沒有辦法真正評估模型的能力。說白了,人們還是傾向在一些基于規(guī)則、基于固定數(shù)據(jù)的前提下,去評測一個(gè)非常靈活的大語言模型。這就像我們想用一張?jiān)嚲砣ピu判一個(gè)人的能力,這永遠(yuǎn)只能是片面的評判。真正判斷一個(gè)人靠不靠譜、各方面能力怎么樣,其實(shí)是需要通過合作,通過持續(xù)的、多維度的交流來評估?!?/strong>

從對獎(jiǎng)勵(lì)函數(shù)的探討中可以發(fā)現(xiàn),大模型的思維鏈在強(qiáng)化學(xué)習(xí)的框架下,更多被看作一種環(huán)境探索路徑,這提醒我們需要重新思考推理模型的本質(zhì)。

實(shí)際上,從實(shí)際效用層面,大模型的推理能力就一直受到不少質(zhì)疑。

不少學(xué)者都曾表示,AI 看起來像是在推理,但其實(shí)是依靠記憶力在 “ 套模板 ”。最重要的一個(gè)依據(jù),是它們的泛化能力非常脆弱。斯坦福大學(xué)團(tuán)隊(duì)[2]發(fā)現(xiàn)只是變換原題目的變量名、變量取值范圍,許多推理模型的成績就大幅下降。

Anthropic 團(tuán)隊(duì)還發(fā)現(xiàn)思維鏈可能不是給模型提供上下文,也不一定和最終答案完全相關(guān) [3]。比如,在提示中加入關(guān)于最終答案( 可能是正確的,也可能是錯(cuò)誤的 )的線索。結(jié)果模型接受了這樣的 “ 作弊小紙條 ”,并給出了正確( 或錯(cuò)誤 )的答案,卻在大多數(shù)情況下,其推理思維鏈中絲毫不提使用了這個(gè)線索。

這些種種怪象更加激發(fā)了人們探索大模型推理本質(zhì)的愿望。

近期,清華大學(xué)團(tuán)隊(duì)[4]提出了這樣的發(fā)現(xiàn):在足夠多的采樣次數(shù)下,深度思考模型和基礎(chǔ)模型的表現(xiàn)沒有區(qū)別。RLVR( 可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí) )并沒有給模型引入新知識,只是相比基礎(chǔ)模型,深度思考模型通過更少的采樣獲取正確的答案。但增加了采樣效率的同時(shí),模型的多樣性探索能力也相應(yīng)下降。這其實(shí)也契合了深度思考模型的用途,即直接解答專業(yè)問題,而不是探索型研究。

汪軍教授表示,“本質(zhì)上,推理可能只是提高了模型單次采樣的計(jì)算量。有點(diǎn)類似于一個(gè) Best of N 的過程,模型內(nèi)部采樣了很多次,反復(fù)嘗試,最后就提高了解題的概率?!?/p>

人們甚至能用更精巧的方式,從內(nèi)部機(jī)制來激發(fā)大模型的推理能力,而不需要外部獎(jiǎng)勵(lì)。

UC Berkeley 團(tuán)隊(duì)[5]指出通過鼓勵(lì)模型生成自認(rèn)為 “ 更有把握 ” 的回答,就能激發(fā)模型的推理能力。

通俗來說,在訓(xùn)練過程中,進(jìn)行多次采樣,每次采樣生成一串 token,對整串 token 計(jì)算每個(gè) token 預(yù)測下一個(gè) token 時(shí)的自我確定度( 下一個(gè) token 的所有候選詞的概率分布越不均勻,越集中在少量詞,自我確定度越大 )。

最后將每個(gè) token 的自我確定度相加,就是這串 token 的自我確定度,選擇自我確定度最大的采樣輸出,即可激發(fā)或強(qiáng)化模型的推理能力。

他們的方法借鑒了熵的思想。熵是衡量一個(gè)系統(tǒng)狀態(tài)的無序或均勻程度的變量,自我確定度越大,熵越小,系統(tǒng)狀態(tài)越有序,相當(dāng)于說,這個(gè)方法就是在 token 世界里尋找堅(jiān)實(shí)的高速公路來達(dá)到目的地,而不是在混沌的大海里盲目探索。

張偉楠教授解釋道,“ 這其實(shí)可以從強(qiáng)化學(xué)習(xí)的角度來理解,對熵的控制是很多機(jī)器學(xué)習(xí)訓(xùn)練的本質(zhì)現(xiàn)象。在訓(xùn)練過程中,如果保持較高的熵,可以有更多探索性。如果保持較低的熵,可以有更多專業(yè)性?!?/p>

“ 強(qiáng)化學(xué)習(xí)本身其實(shí)是建立在一個(gè)有探索能力的智能體基礎(chǔ)上,然后希望它能在某個(gè)任務(wù)上專業(yè)化。這個(gè)任務(wù)說到底,其實(shí)就是一套獎(jiǎng)勵(lì)函數(shù)。如果在每個(gè)狀態(tài)上、每個(gè)位置上 ‘ 好 ’ 或 ‘ 壞 ’ 的標(biāo)準(zhǔn)被定義清楚了,就可以通過強(qiáng)化學(xué)習(xí)把這個(gè)智能體訓(xùn)練得更擅長這個(gè)任務(wù)。但問題在于,一旦它專注于某一個(gè)任務(wù),就會忘卻其它任務(wù)的能力,需要從頭訓(xùn)練。”

推理模型還具有更令人困惑的行為,華盛頓大學(xué)團(tuán)隊(duì)[6]指出了這樣的怪異事實(shí),即便是使用和正確答案相關(guān)性極低甚至負(fù)相關(guān)的異常獎(jiǎng)勵(lì)信號,一些模型比如 Qwen2.5-Math 也能獲得顯著的數(shù)學(xué)推理能力的提升。

研究者通過實(shí)驗(yàn)觀察,提出了這樣的假設(shè),強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,如果缺乏有效的獎(jiǎng)勵(lì)信號,模型更傾向于在訓(xùn)練中進(jìn)行高頻率的探索行為,并激發(fā)和利用預(yù)訓(xùn)練階段習(xí)得的潛在推理模式。

比如,Qwen2.5-Math 通過預(yù)訓(xùn)練掌握了 Python 代碼推理的能力,而僅僅是多使用代碼推理本身就足以提升準(zhǔn)確率,因此異常獎(jiǎng)勵(lì)信號間接地提升了模型的性能。

綜上來看,訓(xùn)練大模型推理能力的結(jié)果,更多是形成了一種增大計(jì)算量的或者激活了預(yù)訓(xùn)練模型中已有的 token 探索的模式,而不是知識層面的能力。

盡管面臨很多質(zhì)疑,但大模型推理的未來潛力依然備受期待。

大語言模型或智能體要持續(xù)進(jìn)步,就需要與非常開放和復(fù)雜的外部空間進(jìn)行交互、探索和學(xué)習(xí)。但就目前基于 token 序列生成的方式,效率是比較受限的。

張偉楠教授表示,“ 現(xiàn)在的智能體訓(xùn)練確實(shí)比較費(fèi) token,也比較慢,但大家還是樂意等,原因在于它代表了一類未來技術(shù),在未來每個(gè)人都能擁有專屬自己的 AI 助手?!?/p>

“ 大家首先關(guān)注的重點(diǎn)是,它具備多大的能力或多高的天花板,其次才是 token 的時(shí)延和算力消耗。往前推三年,當(dāng)時(shí)推理 token 的價(jià)格偏高,現(xiàn)在多強(qiáng)競爭的局面下,真正受益的是用戶,大家能以更便宜的價(jià)格去使用這些模型?!?/p>

即便目前在邏輯推理方面還有很大局限性,但張偉楠教授也認(rèn)為,大語言模型是可以學(xué)會真正的邏輯推理的。

我對此是持樂觀態(tài)度的。第一點(diǎn),人腦在做邏輯推理的時(shí)候其實(shí)也存在一定的隨機(jī)性。只是有些人,比如專業(yè)老師、成績好的學(xué)生等,會強(qiáng)迫自己在推理過程中嚴(yán)格遵守邏輯規(guī)則。但從本質(zhì)上,人腦也是一個(gè)神經(jīng)網(wǎng)絡(luò),它的邏輯推理能力,是通過將自身的神經(jīng)活動(dòng)被嵌入到特定的邏輯規(guī)則中來實(shí)現(xiàn)的。

“ 其實(shí),現(xiàn)在的智能體之所以在邏輯推理上表現(xiàn)得比較擅長,甚至未來有可能超越邏輯學(xué)家,原因在于它已經(jīng)把 token 符號本身的前后關(guān)系運(yùn)算練得非常專業(yè)。我們?nèi)匀辉试S它保留一定的探索性和隨機(jī)性,是因?yàn)椋绻蛔鲞@些探索,就很難實(shí)現(xiàn)對人類的超越。”

原則上,我們需要更多關(guān)注推理模型的解決實(shí)際問題的能力,而不是與人類像不像。

邏輯類問題中存在大量離散程序搜索問題[7],比如給定一個(gè)無向圖,判斷是否可以用 3 種顏色給所有頂點(diǎn)著色,使得每條邊的兩個(gè)端點(diǎn)顏色不同。通常這類問題的嚴(yán)格求解極其困難,屬于 NP 問題。進(jìn)一步看,現(xiàn)在很多 NP 問題的求解,本質(zhì)上仍然是在一個(gè)非常大的空間中進(jìn)行樹搜索的過程。

“ 比如推理模型做一道邏輯題、編程題、數(shù)學(xué)題,甚至是規(guī)劃一個(gè)公司的運(yùn)營方案,其實(shí)本質(zhì)上都是在一個(gè)大的狀態(tài)空間中逐步進(jìn)行搜索的。就像一棵樹,從根節(jié)點(diǎn)出發(fā),不斷地探索、分支,最終找到某一個(gè)葉子節(jié)點(diǎn),而這個(gè)葉子節(jié)點(diǎn)就是一個(gè)可行的解?!?/p>

“ 在這個(gè)過程中,需要有一套基于符號、基于邏輯的校驗(yàn)器,能夠判斷某個(gè)解釋是不是正確的,從而讓大語言模型學(xué)會在全局空間中搜索出有效的解。”

NP 問題的定義是:驗(yàn)證一個(gè)解是否是這個(gè)問題的正確答案,如果驗(yàn)證過程是多項(xiàng)式時(shí)間內(nèi)完成的,那這個(gè)問題就被歸類為 NP 問題。所以,驗(yàn)證本質(zhì)上是通過一些比較簡單但精確的符號方法,在這棵巨大的樹的每一個(gè)葉子節(jié)點(diǎn)上,去做出直接的驗(yàn)證。

但關(guān)鍵在于,怎么去搜索那些符合要求的葉子節(jié)點(diǎn)?

NP 問題的搜索方法理論上都是指數(shù)時(shí)間的( 窮舉法 ),而要在實(shí)際中應(yīng)用,就必須尋找多項(xiàng)式時(shí)間的近似方法,手動(dòng)找到一個(gè)具體的顯式的多項(xiàng)式方法非常困難。

而從大語言模型的角度看,其實(shí)它構(gòu)建出了從樹的根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的概率分布路徑,整個(gè)搜索的過程,是在搜索空間中沿著更高概率的路徑進(jìn)行采樣,從而能以多項(xiàng)式時(shí)間在某些 NP 問題中找到葉子節(jié)點(diǎn),即近似解或可驗(yàn)證的解。

“ 要對這種分布進(jìn)行建模,最適合的就是神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)實(shí)際上變成了一個(gè)求解器。”

不僅是推理模型的本質(zhì)問題、實(shí)際效用方面,最后再返回到強(qiáng)化學(xué)習(xí)框架內(nèi)探討 o3 的推理幻覺,張偉楠教授的態(tài)度依然是積極的,“ 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)的困境只是暫時(shí)的,在未來肯定會得到改善,并且獎(jiǎng)勵(lì)函數(shù)會越來越全面有效?!?/strong>

郝建業(yè)教授表示,“ 未來的關(guān)鍵在于,如何將過去十年深度強(qiáng)化學(xué)習(xí)時(shí)代的技術(shù),融合進(jìn)大模型時(shí)代,來更好地解決大模型強(qiáng)化學(xué)習(xí)的高效訓(xùn)練問題。我相信因?yàn)榇蠹覍?qiáng)化學(xué)習(xí)已有很好的前期積累,所以肯定會朝這個(gè)方向繼續(xù)探索?!?/p>

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
羅布泊驚現(xiàn)神秘干尸,警方偵查后震驚:竟是失蹤58年的志愿功臣

羅布泊驚現(xiàn)神秘干尸,警方偵查后震驚:竟是失蹤58年的志愿功臣

浩渺青史
2025-11-10 16:19:39
張展碩退賽

張展碩退賽

新京報(bào)
2025-11-17 23:08:46
印軍官:當(dāng)中國武力解放臺灣,印度不僅要奪取西藏,還要吞噬新疆

印軍官:當(dāng)中國武力解放臺灣,印度不僅要奪取西藏,還要吞噬新疆

近史博覽
2025-09-22 15:47:35
涉及朝陽兩個(gè)鄉(xiāng)!這兩街區(qū)迎重大規(guī)劃!

涉及朝陽兩個(gè)鄉(xiāng)!這兩街區(qū)迎重大規(guī)劃!

家住朝陽
2025-11-17 18:13:44
她考上鄉(xiāng)鎮(zhèn)編就分手,兩年后我去調(diào)研,她作為擬提拔對象想敬我酒

她考上鄉(xiāng)鎮(zhèn)編就分手,兩年后我去調(diào)研,她作為擬提拔對象想敬我酒

凱裕說故事
2025-11-17 10:48:06
中國通告全球:黃海中部將連續(xù)三天進(jìn)行實(shí)彈射擊,不予準(zhǔn)入,引發(fā)日、美等國高度關(guān)注

中國通告全球:黃海中部將連續(xù)三天進(jìn)行實(shí)彈射擊,不予準(zhǔn)入,引發(fā)日、美等國高度關(guān)注

青風(fēng)點(diǎn)評
2025-11-16 11:05:11
“電詐惡魔”陳志在逃!起底他與四川網(wǎng)紅妻子的奢靡浮沉

“電詐惡魔”陳志在逃!起底他與四川網(wǎng)紅妻子的奢靡浮沉

阿燕姐說育兒
2025-11-17 13:36:56
人均600萬到欠400億,毀掉“天下第一村”的不是別人,是他們自己

人均600萬到欠400億,毀掉“天下第一村”的不是別人,是他們自己

一家說
2025-05-23 15:05:58
鐘嘉欣后悔了!放棄林峯嫁丑男的她,花十年時(shí)間看穿丈夫真面目

鐘嘉欣后悔了!放棄林峯嫁丑男的她,花十年時(shí)間看穿丈夫真面目

TVB的四小花
2025-11-17 15:46:31
難頂!南京芳草園,從9.2萬/平跌到2.7萬/平!

難頂!南京芳草園,從9.2萬/平跌到2.7萬/平!

黯泉
2025-11-12 12:19:33
G聯(lián)賽首秀的易建聯(lián),首秀的周琦,首秀的楊瀚森,對比之下看差距

G聯(lián)賽首秀的易建聯(lián),首秀的周琦,首秀的楊瀚森,對比之下看差距

籃球看比賽
2025-11-17 11:46:51
王珞丹 這腿,我酸了

王珞丹 這腿,我酸了

小椰的奶奶
2025-11-03 14:33:40
打工皇帝!英格蘭薪資公布:第1名意外,凱恩僅第2,第4踢不上球

打工皇帝!英格蘭薪資公布:第1名意外,凱恩僅第2,第4踢不上球

小金體壇大視野
2025-11-17 20:23:13
43歲王心凌的“括號臀”又辣又撩,彎腰那一刻,網(wǎng)友:這誰hold得??!

43歲王心凌的“括號臀”又辣又撩,彎腰那一刻,網(wǎng)友:這誰hold得住!

健身迷
2025-10-08 09:57:23
毛主席視察天津時(shí)想見李銀橋,得知他已經(jīng)入獄,偉人只說了2個(gè)字

毛主席視察天津時(shí)想見李銀橋,得知他已經(jīng)入獄,偉人只說了2個(gè)字

南書房
2025-09-28 23:01:03
現(xiàn)在的4S 店有多慘,午餐就能看出來

現(xiàn)在的4S 店有多慘,午餐就能看出來

autocarweekly
2025-11-17 14:16:49
晚旗報(bào):埃及就薩拉赫、馬爾穆什參加非洲杯時(shí)間與紅軍曼城談判

晚旗報(bào):埃及就薩拉赫、馬爾穆什參加非洲杯時(shí)間與紅軍曼城談判

懂球帝
2025-11-17 21:15:25
中方“正面痛撃”宣言震動(dòng)日本!國民不安爆棚,政黨內(nèi)斗添焦慮

中方“正面痛撃”宣言震動(dòng)日本!國民不安爆棚,政黨內(nèi)斗添焦慮

小影的娛樂
2025-11-18 01:36:22
連續(xù)兩場40+賽季第4人!馬卡47+7,喬治34分,雙加時(shí)送公牛5連敗

連續(xù)兩場40+賽季第4人!馬卡47+7,喬治34分,雙加時(shí)送公牛5連敗

無術(shù)不學(xué)
2025-11-17 12:49:48
機(jī)關(guān)算盡太聰明,離婚13年后再看車曉李兆會,勝者早就不言而喻

機(jī)關(guān)算盡太聰明,離婚13年后再看車曉李兆會,勝者早就不言而喻

小熊侃史
2025-11-18 00:15:46
2025-11-18 03:00:49
知危 incentive-icons
知危
投資不立危墻之下
498文章數(shù) 1826關(guān)注度
往期回顧 全部

科技要聞

京東外賣要“獨(dú)立” 劉強(qiáng)東還宣戰(zhàn)“點(diǎn)評”

頭條要聞

該聊聊琉球問題了 日本國內(nèi)集體破大防

頭條要聞

該聊聊琉球問題了 日本國內(nèi)集體破大防

體育要聞

當(dāng)家球星受傷后,球迷樂翻了天?

娛樂要聞

金雞獎(jiǎng)是“照妖鏡”,揭露人情冷暖?

財(cái)經(jīng)要聞

高市早苗的算計(jì),將讓日本割肉5000億

汽車要聞

新增CDC后變化大嗎? 試駕特斯拉model Y L

態(tài)度原創(chuàng)

時(shí)尚
旅游
健康
教育
手機(jī)

王妃精致到發(fā)絲,王子直接變禿子

旅游要聞

三亞發(fā)布“四張清單” 全場景守護(hù)旅游旺季玩海安全

血液科專家揭秘白血病七大誤區(qū)

教育要聞

課后延時(shí)服務(wù)引發(fā)諸多矛盾,該考慮取消了!

手機(jī)要聞

華為第一款Pro Max!華為Mate 80 Pro Max四色官圖公布

無障礙瀏覽 進(jìn)入關(guān)懷版 亚洲国产精品一区二区久久hs| yirentingting| 粉嫩97国产精品久久久男人白浆| 亚洲国产精品性Jk| 欧美色色亚洲| 人妻人人揉人人躁人人| 国产一区二区三区日韩精品| 精品999日本久久久影院| 欧美小说 乱小说| 天天日天天干天天操| 少妇 熟女 一区 二| 中文字幕精品亚洲无线码一区应用 | 亚洲V欧美V日韩V国产V| 亚洲综合日韩av无码毛片| 另类在线国产| 777奇米影视一区二区三区| 苍井空一区二区| 久久影院九九被窝爽爽| 色婷婷V∧三| 久久中文字日产乱幕18| 国产综合精品一区二区三区| 99视频有精品视频高清| 欧美xxxxxx黑人| 国产成人av一区二区三区不卡| 亚洲激情四射高清成人操B| 日本久久a级视频| 成年午夜性影院| 亚洲AV无码乱码国产精品色l| 开心六月丁香| 欧美黑人又粗又大久久久| 国产午夜精华液| se一区二区| 不卡无码AV一区二区三区| 中文字幕在线无码一区二区三区| 性欧美极度另类xxxl极端| 一中文字幕日产乱码VA| 农村老熟女一区二区三区| 亚洲激情文学| 欧美专区另类专区在线视频 | 老熟女老熟妇2吞精口爆| 久久人做人爽一区二区三区介绍|