henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
OpenAI好不容易發(fā)了篇新論文,還是給GPT-5挽尊?
最近,《語(yǔ)言模型為何會(huì)產(chǎn)生幻覺(jué)?》這篇論文火了。
它提出模型有幻覺(jué)是因?yàn)椋?strong>標(biāo)準(zhǔn)的訓(xùn)練和評(píng)估流程,更傾向于獎(jiǎng)勵(lì)“猜對(duì)”,而非承認(rèn)不確定
正因如此,模型在面對(duì)不確定的問(wèn)題時(shí),往往會(huì)選擇冒險(xiǎn)猜測(cè)以獲得更高評(píng)分。
所以,為了讓模型“老實(shí)說(shuō)不”,就應(yīng)該重新設(shè)計(jì)評(píng)估指標(biāo),從而鼓勵(lì)模型承認(rèn)自己不會(huì),懲罰隨意猜測(cè)
而好巧不巧的是,OpenAI自家的GPT-5就最不愛(ài)猜測(cè)
于是,眼尖的網(wǎng)友開(kāi)始“蝦仁豬心”地盤(pán)OpenAI的核心邏輯:
GPT-5表現(xiàn)不好?不是模型拉垮?是現(xiàn)有測(cè)試基準(zhǔn)出了問(wèn)題?GPT-5幻覺(jué)少刷不上分?所以應(yīng)該重新設(shè)定指標(biāo)。(完美閉環(huán))
- 您不會(huì)是為了給GPT-5挽尊,所以想找個(gè)新基準(zhǔn)吧?
所以,這究竟是OpenAI為了GPT-5這口醋才包的餃子,還是說(shuō)真的揭開(kāi)了大模型幻覺(jué)背后的更深層問(wèn)題?
要回答這個(gè)問(wèn)題,得先看這篇論文到底說(shuō)了什么。
OpenAI重新定義“幻覺(jué)”
在論文中,OpenAI將幻覺(jué)定義成:語(yǔ)言模型生成的看似合理卻錯(cuò)誤的答案。
例如,當(dāng)你問(wèn)一個(gè)聊天機(jī)器人:“Adam Tauman Kalai的博士論文題目是什么?”它可能自信滿(mǎn)滿(mǎn)地給出三個(gè)完全不同的答案——但沒(méi)有一個(gè)是正確的。
再比如,你問(wèn)它某人的生日,它也可能報(bào)出三個(gè)不同日期,全都錯(cuò)得離譜。
通俗點(diǎn)說(shuō),就是模型看起來(lái)很有底氣,但實(shí)際上在“瞎蒙”。
這種一本正經(jīng)的胡說(shuō)八道不光體現(xiàn)在復(fù)雜問(wèn)題上,也發(fā)生在簡(jiǎn)單的問(wèn)題上。
而就像開(kāi)頭提到的,GPT-5雖然在推理上幻覺(jué)更少,但仍無(wú)法徹底消除。
而無(wú)法消除的原因就是當(dāng)前的評(píng)估方法設(shè)置了錯(cuò)誤的激勵(lì)機(jī)制。
具體來(lái)說(shuō),當(dāng)前評(píng)估方法普遍以“準(zhǔn)確率”為唯一指標(biāo),鼓勵(lì)模型“大膽猜測(cè)”而不是誠(chéng)實(shí)地說(shuō)“我不知道”。
這就像選擇題考試?yán)铮姑煽赡艿梅?,留空必然為零?/p>
長(zhǎng)久以來(lái),這種類(lèi)似選擇題考試的排行榜就驅(qū)動(dòng)模型學(xué)會(huì)了“自信地錯(cuò)”。
而老實(shí)的GPT-5就由于不夠“自信”,在各大榜單上表現(xiàn)不佳。所以,我們要(換個(gè)榜單?。?/p>
此外,當(dāng)我們回顧語(yǔ)言模型的訓(xùn)練時(shí),就可以發(fā)現(xiàn),語(yǔ)言模型的預(yù)訓(xùn)練目標(biāo)是預(yù)測(cè)下一個(gè)詞,但沒(méi)有“真/假”標(biāo)簽來(lái)區(qū)分正確與錯(cuò)誤事實(shí)。
因此,模型只能看到流暢語(yǔ)言的正例,并近似這些語(yǔ)言數(shù)據(jù)的整體分布。
所以,對(duì)于語(yǔ)言模型來(lái)說(shuō),拼寫(xiě)等規(guī)律性強(qiáng)的模式可以學(xué)會(huì),但低頻、隨機(jī)的事實(shí)(如生日)卻無(wú)法僅靠預(yù)測(cè)獲得,因而幻覺(jué)在所難免。
最后,OpenAI 提出要更新評(píng)估機(jī)制:錯(cuò)誤應(yīng)比“放棄作答”受到更大懲罰,恰當(dāng)?shù)摹安淮_定表達(dá)”應(yīng)獲得部分分?jǐn)?shù)。
而這一更新的范圍不光是小范圍的測(cè)試,而應(yīng)該是一切被廣泛使用、基于準(zhǔn)確率的評(píng)估方式。
論文一經(jīng)發(fā)布,就立刻引起了網(wǎng)友們的廣泛討論。
當(dāng)我們談?wù)摶糜X(jué)時(shí),我們?cè)谠谡務(wù)撌裁矗?/p>
除了我們最開(kāi)頭的“動(dòng)機(jī)論”,網(wǎng)友們主要關(guān)注以下三個(gè)方向:
- 幻覺(jué)是否普遍——大語(yǔ)言模型生成的內(nèi)容是否全都是幻覺(jué);
- 幻覺(jué)產(chǎn)生的原因——包括模型的“做題策略”、語(yǔ)言知識(shí)的局限性,以及統(tǒng)計(jì)學(xué)習(xí)方法的內(nèi)在缺陷;
- 幻覺(jué)的應(yīng)用與應(yīng)對(duì)——例如在創(chuàng)意寫(xiě)作中如何利用幻覺(jué),以及當(dāng)模型總是回答“不知道”時(shí)該怎么辦。
接下來(lái),讓我們具體來(lái)看。
大模型生成的內(nèi)容是否都是幻覺(jué)?
對(duì)于模型的幻覺(jué)問(wèn)題,有網(wǎng)友提出了相當(dāng)激進(jìn)的觀點(diǎn):
- 大語(yǔ)言模型的所有輸出都是幻覺(jué),只不過(guò)其中一些幻覺(jué)是真實(shí)的。
這一觀點(diǎn)涉及到了大語(yǔ)言模型的核心:大語(yǔ)言模型能知道、理解、明白它所輸出的東西嗎
對(duì)此,有網(wǎng)友表示,如果過(guò)于形而上,我們無(wú)法討論具體工程意義上的問(wèn)題。
這就是說(shuō),雖然模型只是在預(yù)測(cè)下一個(gè)token——但這并不意味著所有輸出都是幻覺(jué)。
如果真是這樣,那么這個(gè)術(shù)語(yǔ)就毫無(wú)意義了,而且它忽略了一個(gè)事實(shí):由于規(guī)模、訓(xùn)練和微調(diào),有些模型產(chǎn)生的幻覺(jué)比其他模型少得多。
模型的做題策略
針對(duì)大模型的“投機(jī)蒙題技巧”,有網(wǎng)友做了分析。
大模型本質(zhì)上是基于概率分布做“詞語(yǔ)接龍”,所以我們往往用答題的準(zhǔn)確率來(lái)近似衡量模型的表現(xiàn)。
在選擇下一個(gè)概率token時(shí),如果模型不知道答案,但隨便猜一下,就可能碰巧答對(duì);
而如果選擇不答,就一定得零分。于是,模型就被“鼓勵(lì)”去猜,而不是說(shuō)“我不知道”。
語(yǔ)言知識(shí)的局限性
此外,還有網(wǎng)友把討論延伸到了語(yǔ)言本身的局限性上,討論相當(dāng)哲學(xué)。
首先,語(yǔ)言并不等于真理。所以,想完全消除LLM “不真實(shí)”的輸出,本身就有點(diǎn)奇怪。
其次,是關(guān)于“真值”的問(wèn)題。在計(jì)算機(jī)科學(xué)里,“一致性”常被用作判斷真假的指標(biāo)——只要輸出符合系統(tǒng)已有的真值,就算是真,即便它可能違背“常識(shí)”。
而確定一個(gè)陳述究竟是真是假,或者它是否超出了系統(tǒng)的知識(shí)范圍,是機(jī)器智能中的老大難問(wèn)題,涉及知識(shí)圖譜等整個(gè)子領(lǐng)域,這根本不是 LLM 最初要解決的目標(biāo)。
大語(yǔ)言模型本質(zhì)上是文本生成器,它非常擅長(zhǎng)根據(jù)提示和從訓(xùn)練語(yǔ)料中學(xué)到的模式撰寫(xiě)“讀書(shū)報(bào)告”,但要逐條分析報(bào)告中的每一句話(huà),判斷其真假或未知性,則完全是另一回事。
這個(gè)問(wèn)題在人工智能領(lǐng)域已經(jīng)研究了60年,因此指望在下個(gè)季度就把它徹底解決并整合到GPT-5中,未免有些自不量力。
最后,則涉及到知識(shí)的流動(dòng)性。
由于知識(shí)并非是一個(gè)線(xiàn)性增長(zhǎng)的累積過(guò)程,而是一個(gè)不斷質(zhì)疑,挑戰(zhàn),更新的過(guò)程。就像哥白尼挑戰(zhàn)地心說(shuō),而后來(lái)的天文學(xué)又更新日心說(shuō)一樣,知識(shí)自身就在不停地流動(dòng)。
所以,既然大語(yǔ)言模型的數(shù)據(jù)輸入就是固定的,你怎么能指望它一直對(duì)呢?
不過(guò),有網(wǎng)友指出這樣說(shuō)很蠢,因?yàn)樵谌斯ぶ悄茴I(lǐng)域沒(méi)有人企圖從哲學(xué)層面消除幻覺(jué),人們只是在努力降低錯(cuò)誤率,因?yàn)檫@會(huì)讓模型更有用。
統(tǒng)計(jì)模型的局限性
還有網(wǎng)友指出,我們用“幻覺(jué)”一詞描述模型的錯(cuò)誤,本身就帶有擬人的傾向。
如果停止擬人化,讓它回到它本來(lái)的本質(zhì)——一個(gè)預(yù)測(cè)模型——那么預(yù)測(cè)出錯(cuò)也就不是什么意外結(jié)果了。
因?yàn)?,大語(yǔ)言模型預(yù)測(cè)的是在給定上下文下最可能出現(xiàn)的詞,它們可能預(yù)測(cè)錯(cuò)誤,而當(dāng)預(yù)測(cè)錯(cuò)誤時(shí),人們就說(shuō)它“產(chǎn)生了幻覺(jué)”。
沒(méi)有人會(huì)質(zhì)疑天氣預(yù)測(cè)模型為什么不能百分百準(zhǔn)確,因?yàn)轭A(yù)測(cè)本身就可能出錯(cuò),這是可以理解的。
營(yíng)銷(xiāo)和宣傳試圖把LLM包裝成“邏輯理性的思考者”,等同于人類(lèi)的思維。但人類(lèi)在真正思考時(shí)知道自己什么時(shí)候在“編造”。如果一個(gè)人真心相信明顯錯(cuò)誤的事情,那通常是因?yàn)樗麄冊(cè)诋a(chǎn)生幻覺(jué)。他們的思維本身并沒(méi)有錯(cuò),只是失去了現(xiàn)實(shí)的支撐。
不過(guò),也有網(wǎng)友提出了相反意見(jiàn):語(yǔ)言和預(yù)測(cè)天氣的物理模型就不是一回事,由于文本本身就已經(jīng)編碼了數(shù)學(xué)、代碼和推理,所以將其輸出視為“僅僅預(yù)測(cè)單詞”忽略了一個(gè)事實(shí),即單詞分布編碼了信息豐富的知識(shí)表示。
這又引出了一個(gè)新的問(wèn)題——我們應(yīng)該如何看待預(yù)測(cè)單詞呢?
幻覺(jué)的應(yīng)用與應(yīng)對(duì)
拋開(kāi)上面哲學(xué)的討論,不少網(wǎng)友也提出了不少實(shí)際的問(wèn)題。
例如,當(dāng)我需要模型有“幻覺(jué)”幫我寫(xiě)作的時(shí)候,他不發(fā)散了怎么辦?
對(duì)此,有網(wǎng)友表示,即使是虛構(gòu),也需要一定程度的一致性和連貫性。
比如,如果我要求大語(yǔ)言模型生成一個(gè)以中世紀(jì)法國(guó)為背景的虛構(gòu)故事,它回應(yīng)的是一個(gè)以中世紀(jì)法國(guó)為背景的虛構(gòu)故事,那么這就是對(duì)我賦予它的任務(wù)的恰當(dāng)(“正確”)的回應(yīng)。
但如果它回應(yīng)的是一個(gè)以中世紀(jì)英格蘭為背景的故事,那就不正確了。
因此,這里的幻覺(jué)是不符合虛構(gòu)設(shè)定的輸出,而非相對(duì)于現(xiàn)實(shí)的“幻覺(jué)”。
最后,有網(wǎng)友直接發(fā)出靈魂拷問(wèn):要這么一來(lái),假如模型為了保底,一直拿不回答的獎(jiǎng)勵(lì),一直說(shuō)不知道怎么辦?
而且對(duì)于大多數(shù)人來(lái)說(shuō),相比聽(tīng)到一句不知道,可能更想聽(tīng)到一個(gè)看似合理的答案。
所以,你會(huì)更希望AI自信地亂答,還是老老實(shí)實(shí)地說(shuō)我不知道?
[1]https://openai.com/index/why-language-models-hallucinate/
[2]https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
[3]https://news.ycombinator.com/item?id=45147385
[4]https://www.reddit.com/r/singularity/comments/1n9fued/new_research_from_openai_why_language_models/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.