夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI新幻覺(jué)論文惹爭(zhēng)議!GPT-5拉胯是測(cè)試基準(zhǔn)有問(wèn)題??

0
分享至

henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

OpenAI好不容易發(fā)了篇新論文,還是給GPT-5挽尊?

最近,《語(yǔ)言模型為何會(huì)產(chǎn)生幻覺(jué)?》這篇論文火了。

它提出模型有幻覺(jué)是因?yàn)椋?strong>標(biāo)準(zhǔn)的訓(xùn)練和評(píng)估流程,更傾向于獎(jiǎng)勵(lì)“猜對(duì)”,而非承認(rèn)不確定

正因如此,模型在面對(duì)不確定的問(wèn)題時(shí),往往會(huì)選擇冒險(xiǎn)猜測(cè)以獲得更高評(píng)分。



所以,為了讓模型“老實(shí)說(shuō)不”,就應(yīng)該重新設(shè)計(jì)評(píng)估指標(biāo),從而鼓勵(lì)模型承認(rèn)自己不會(huì),懲罰隨意猜測(cè)

而好巧不巧的是,OpenAI自家的GPT-5就最不愛(ài)猜測(cè)



于是,眼尖的網(wǎng)友開(kāi)始“蝦仁豬心”地盤(pán)OpenAI的核心邏輯:

GPT-5表現(xiàn)不好?不是模型拉垮?是現(xiàn)有測(cè)試基準(zhǔn)出了問(wèn)題?GPT-5幻覺(jué)少刷不上分?所以應(yīng)該重新設(shè)定指標(biāo)。(完美閉環(huán))

  • 您不會(huì)是為了給GPT-5挽尊,所以想找個(gè)新基準(zhǔn)吧?



所以,這究竟是OpenAI為了GPT-5這口醋才包的餃子,還是說(shuō)真的揭開(kāi)了大模型幻覺(jué)背后的更深層問(wèn)題?

要回答這個(gè)問(wèn)題,得先看這篇論文到底說(shuō)了什么。

OpenAI重新定義“幻覺(jué)”

在論文中,OpenAI將幻覺(jué)定義成:語(yǔ)言模型生成的看似合理卻錯(cuò)誤的答案。

例如,當(dāng)你問(wèn)一個(gè)聊天機(jī)器人:“Adam Tauman Kalai的博士論文題目是什么?”它可能自信滿(mǎn)滿(mǎn)地給出三個(gè)完全不同的答案——但沒(méi)有一個(gè)是正確的。

再比如,你問(wèn)它某人的生日,它也可能報(bào)出三個(gè)不同日期,全都錯(cuò)得離譜。

通俗點(diǎn)說(shuō),就是模型看起來(lái)很有底氣,但實(shí)際上在“瞎蒙”。

這種一本正經(jīng)的胡說(shuō)八道不光體現(xiàn)在復(fù)雜問(wèn)題上,也發(fā)生在簡(jiǎn)單的問(wèn)題上。



而就像開(kāi)頭提到的,GPT-5雖然在推理上幻覺(jué)更少,但仍無(wú)法徹底消除。

而無(wú)法消除的原因就是當(dāng)前的評(píng)估方法設(shè)置了錯(cuò)誤的激勵(lì)機(jī)制。

具體來(lái)說(shuō),當(dāng)前評(píng)估方法普遍以“準(zhǔn)確率”為唯一指標(biāo),鼓勵(lì)模型“大膽猜測(cè)”而不是誠(chéng)實(shí)地說(shuō)“我不知道”。

這就像選擇題考試?yán)铮姑煽赡艿梅?,留空必然為零?/p>

長(zhǎng)久以來(lái),這種類(lèi)似選擇題考試的排行榜就驅(qū)動(dòng)模型學(xué)會(huì)了“自信地錯(cuò)”。



而老實(shí)的GPT-5就由于不夠“自信”,在各大榜單上表現(xiàn)不佳。所以,我們要(換個(gè)榜單?。?/p>

此外,當(dāng)我們回顧語(yǔ)言模型的訓(xùn)練時(shí),就可以發(fā)現(xiàn),語(yǔ)言模型的預(yù)訓(xùn)練目標(biāo)是預(yù)測(cè)下一個(gè)詞,但沒(méi)有“真/假”標(biāo)簽來(lái)區(qū)分正確與錯(cuò)誤事實(shí)。

因此,模型只能看到流暢語(yǔ)言的正例,并近似這些語(yǔ)言數(shù)據(jù)的整體分布。

所以,對(duì)于語(yǔ)言模型來(lái)說(shuō),拼寫(xiě)等規(guī)律性強(qiáng)的模式可以學(xué)會(huì),但低頻、隨機(jī)的事實(shí)(如生日)卻無(wú)法僅靠預(yù)測(cè)獲得,因而幻覺(jué)在所難免。

最后,OpenAI 提出要更新評(píng)估機(jī)制:錯(cuò)誤應(yīng)比“放棄作答”受到更大懲罰,恰當(dāng)?shù)摹安淮_定表達(dá)”應(yīng)獲得部分分?jǐn)?shù)。

而這一更新的范圍不光是小范圍的測(cè)試,而應(yīng)該是一切被廣泛使用、基于準(zhǔn)確率的評(píng)估方式。

論文一經(jīng)發(fā)布,就立刻引起了網(wǎng)友們的廣泛討論。

當(dāng)我們談?wù)摶糜X(jué)時(shí),我們?cè)谠谡務(wù)撌裁矗?/p>

除了我們最開(kāi)頭的“動(dòng)機(jī)論”,網(wǎng)友們主要關(guān)注以下三個(gè)方向:

  • 幻覺(jué)是否普遍——大語(yǔ)言模型生成的內(nèi)容是否全都是幻覺(jué);
  • 幻覺(jué)產(chǎn)生的原因——包括模型的“做題策略”、語(yǔ)言知識(shí)的局限性,以及統(tǒng)計(jì)學(xué)習(xí)方法的內(nèi)在缺陷;
  • 幻覺(jué)的應(yīng)用與應(yīng)對(duì)——例如在創(chuàng)意寫(xiě)作中如何利用幻覺(jué),以及當(dāng)模型總是回答“不知道”時(shí)該怎么辦。

接下來(lái),讓我們具體來(lái)看。

大模型生成的內(nèi)容是否都是幻覺(jué)?

對(duì)于模型的幻覺(jué)問(wèn)題,有網(wǎng)友提出了相當(dāng)激進(jìn)的觀點(diǎn):

  • 大語(yǔ)言模型的所有輸出都是幻覺(jué),只不過(guò)其中一些幻覺(jué)是真實(shí)的。



這一觀點(diǎn)涉及到了大語(yǔ)言模型的核心:大語(yǔ)言模型能知道、理解、明白它所輸出的東西嗎

對(duì)此,有網(wǎng)友表示,如果過(guò)于形而上,我們無(wú)法討論具體工程意義上的問(wèn)題。

這就是說(shuō),雖然模型只是在預(yù)測(cè)下一個(gè)token——但這并不意味著所有輸出都是幻覺(jué)。

如果真是這樣,那么這個(gè)術(shù)語(yǔ)就毫無(wú)意義了,而且它忽略了一個(gè)事實(shí):由于規(guī)模、訓(xùn)練和微調(diào),有些模型產(chǎn)生的幻覺(jué)比其他模型少得多。



模型的做題策略

針對(duì)大模型的“投機(jī)蒙題技巧”,有網(wǎng)友做了分析。



大模型本質(zhì)上是基于概率分布做“詞語(yǔ)接龍”,所以我們往往用答題的準(zhǔn)確率來(lái)近似衡量模型的表現(xiàn)。

在選擇下一個(gè)概率token時(shí),如果模型不知道答案,但隨便猜一下,就可能碰巧答對(duì);

而如果選擇不答,就一定得零分。于是,模型就被“鼓勵(lì)”去猜,而不是說(shuō)“我不知道”。

語(yǔ)言知識(shí)的局限性

此外,還有網(wǎng)友把討論延伸到了語(yǔ)言本身的局限性上,討論相當(dāng)哲學(xué)。

首先,語(yǔ)言并不等于真理。所以,想完全消除LLM “不真實(shí)”的輸出,本身就有點(diǎn)奇怪。



其次,是關(guān)于“真值”的問(wèn)題。在計(jì)算機(jī)科學(xué)里,“一致性”常被用作判斷真假的指標(biāo)——只要輸出符合系統(tǒng)已有的真值,就算是真,即便它可能違背“常識(shí)”。



而確定一個(gè)陳述究竟是真是假,或者它是否超出了系統(tǒng)的知識(shí)范圍,是機(jī)器智能中的老大難問(wèn)題,涉及知識(shí)圖譜等整個(gè)子領(lǐng)域,這根本不是 LLM 最初要解決的目標(biāo)。

大語(yǔ)言模型本質(zhì)上是文本生成器,它非常擅長(zhǎng)根據(jù)提示和從訓(xùn)練語(yǔ)料中學(xué)到的模式撰寫(xiě)“讀書(shū)報(bào)告”,但要逐條分析報(bào)告中的每一句話(huà),判斷其真假或未知性,則完全是另一回事。

這個(gè)問(wèn)題在人工智能領(lǐng)域已經(jīng)研究了60年,因此指望在下個(gè)季度就把它徹底解決并整合到GPT-5中,未免有些自不量力。

最后,則涉及到知識(shí)的流動(dòng)性。

由于知識(shí)并非是一個(gè)線(xiàn)性增長(zhǎng)的累積過(guò)程,而是一個(gè)不斷質(zhì)疑,挑戰(zhàn),更新的過(guò)程。就像哥白尼挑戰(zhàn)地心說(shuō),而后來(lái)的天文學(xué)又更新日心說(shuō)一樣,知識(shí)自身就在不停地流動(dòng)。



所以,既然大語(yǔ)言模型的數(shù)據(jù)輸入就是固定的,你怎么能指望它一直對(duì)呢?

不過(guò),有網(wǎng)友指出這樣說(shuō)很蠢,因?yàn)樵谌斯ぶ悄茴I(lǐng)域沒(méi)有人企圖從哲學(xué)層面消除幻覺(jué),人們只是在努力降低錯(cuò)誤率,因?yàn)檫@會(huì)讓模型更有用。



統(tǒng)計(jì)模型的局限性

還有網(wǎng)友指出,我們用“幻覺(jué)”一詞描述模型的錯(cuò)誤,本身就帶有擬人的傾向。



如果停止擬人化,讓它回到它本來(lái)的本質(zhì)——一個(gè)預(yù)測(cè)模型——那么預(yù)測(cè)出錯(cuò)也就不是什么意外結(jié)果了。

因?yàn)?,大語(yǔ)言模型預(yù)測(cè)的是在給定上下文下最可能出現(xiàn)的詞,它們可能預(yù)測(cè)錯(cuò)誤,而當(dāng)預(yù)測(cè)錯(cuò)誤時(shí),人們就說(shuō)它“產(chǎn)生了幻覺(jué)”。

沒(méi)有人會(huì)質(zhì)疑天氣預(yù)測(cè)模型為什么不能百分百準(zhǔn)確,因?yàn)轭A(yù)測(cè)本身就可能出錯(cuò),這是可以理解的。

營(yíng)銷(xiāo)和宣傳試圖把LLM包裝成“邏輯理性的思考者”,等同于人類(lèi)的思維。但人類(lèi)在真正思考時(shí)知道自己什么時(shí)候在“編造”。如果一個(gè)人真心相信明顯錯(cuò)誤的事情,那通常是因?yàn)樗麄冊(cè)诋a(chǎn)生幻覺(jué)。他們的思維本身并沒(méi)有錯(cuò),只是失去了現(xiàn)實(shí)的支撐。

不過(guò),也有網(wǎng)友提出了相反意見(jiàn):語(yǔ)言和預(yù)測(cè)天氣的物理模型就不是一回事,由于文本本身就已經(jīng)編碼了數(shù)學(xué)、代碼和推理,所以將其輸出視為“僅僅預(yù)測(cè)單詞”忽略了一個(gè)事實(shí),即單詞分布編碼了信息豐富的知識(shí)表示。



這又引出了一個(gè)新的問(wèn)題——我們應(yīng)該如何看待預(yù)測(cè)單詞呢?

幻覺(jué)的應(yīng)用與應(yīng)對(duì)

拋開(kāi)上面哲學(xué)的討論,不少網(wǎng)友也提出了不少實(shí)際的問(wèn)題。

例如,當(dāng)我需要模型有“幻覺(jué)”幫我寫(xiě)作的時(shí)候,他不發(fā)散了怎么辦?



對(duì)此,有網(wǎng)友表示,即使是虛構(gòu),也需要一定程度的一致性和連貫性。

比如,如果我要求大語(yǔ)言模型生成一個(gè)以中世紀(jì)法國(guó)為背景的虛構(gòu)故事,它回應(yīng)的是一個(gè)以中世紀(jì)法國(guó)為背景的虛構(gòu)故事,那么這就是對(duì)我賦予它的任務(wù)的恰當(dāng)(“正確”)的回應(yīng)。

但如果它回應(yīng)的是一個(gè)以中世紀(jì)英格蘭為背景的故事,那就不正確了。



因此,這里的幻覺(jué)是不符合虛構(gòu)設(shè)定的輸出,而非相對(duì)于現(xiàn)實(shí)的“幻覺(jué)”。

最后,有網(wǎng)友直接發(fā)出靈魂拷問(wèn):要這么一來(lái),假如模型為了保底,一直拿不回答的獎(jiǎng)勵(lì),一直說(shuō)不知道怎么辦?



而且對(duì)于大多數(shù)人來(lái)說(shuō),相比聽(tīng)到一句不知道,可能更想聽(tīng)到一個(gè)看似合理的答案。

所以,你會(huì)更希望AI自信地亂答,還是老老實(shí)實(shí)地說(shuō)我不知道?

[1]https://openai.com/index/why-language-models-hallucinate/

[2]https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

[3]https://news.ycombinator.com/item?id=45147385

[4]https://www.reddit.com/r/singularity/comments/1n9fued/new_research_from_openai_why_language_models/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
徐匯這塊地:吵得不可開(kāi)交

徐匯這塊地:吵得不可開(kāi)交

靚仔情感
2025-09-19 09:00:59
15年后《斯巴達(dá)克斯》演員現(xiàn)狀,蛇蝎美人變導(dǎo)演,誰(shuí)是人生贏家?

15年后《斯巴達(dá)克斯》演員現(xiàn)狀,蛇蝎美人變導(dǎo)演,誰(shuí)是人生贏家?

半糖甜而不膩
2025-09-16 09:25:54
母親將老屋500塊賣(mài)給老舅,前年老屋拆遷,老舅給母親寄一個(gè)快遞

母親將老屋500塊賣(mài)給老舅,前年老屋拆遷,老舅給母親寄一個(gè)快遞

人間百態(tài)大全
2025-09-02 20:33:11
農(nóng)村老光棍,留守少婦,他們的秘密藏在鄉(xiāng)村歌舞團(tuán)的后臺(tái)

農(nóng)村老光棍,留守少婦,他們的秘密藏在鄉(xiāng)村歌舞團(tuán)的后臺(tái)

牛城王小帥
2024-06-23 16:25:10
金正恩:讓朝鮮人民每天都能吃到肉!

金正恩:讓朝鮮人民每天都能吃到肉!

微微熱評(píng)
2025-09-16 11:34:57
21天賣(mài)光倆月產(chǎn)能,特斯拉等來(lái)救命稻草

21天賣(mài)光倆月產(chǎn)能,特斯拉等來(lái)救命稻草

Tech星球
2025-09-18 12:32:13
衛(wèi)健委的這組數(shù)據(jù),耐人尋味

衛(wèi)健委的這組數(shù)據(jù),耐人尋味

小蘿卜絲
2025-09-17 09:54:40
災(zāi)難級(jí)數(shù)據(jù)!首發(fā)23分鐘隱身2分,宮魯鳴終于忍不住點(diǎn)名批評(píng)了!

災(zāi)難級(jí)數(shù)據(jù)!首發(fā)23分鐘隱身2分,宮魯鳴終于忍不住點(diǎn)名批評(píng)了!

體育圈內(nèi)參
2025-09-19 09:43:17
美媒曬姚明新秀年在飛機(jī)上玩過(guò)山車(chē)大亨 隊(duì)友:他玩的是戰(zhàn)火英雄

美媒曬姚明新秀年在飛機(jī)上玩過(guò)山車(chē)大亨 隊(duì)友:他玩的是戰(zhàn)火英雄

直播吧
2025-09-18 23:48:03
電影《731》上映僅一天 總票房破4億 已有1100萬(wàn)人觀影

電影《731》上映僅一天 總票房破4億 已有1100萬(wàn)人觀影

陳意小可愛(ài)
2025-09-19 11:51:33
林彪的秘書(shū)們,談林彪的5個(gè)記憶:私下從不議論彭德懷

林彪的秘書(shū)們,談林彪的5個(gè)記憶:私下從不議論彭德懷

體識(shí)
2024-09-21 11:14:25
沒(méi)有發(fā)財(cái)?shù)拿?!這些創(chuàng)業(yè)者當(dāng)年不賣(mài)公司,如今身家已超百億美元

沒(méi)有發(fā)財(cái)?shù)拿?!這些創(chuàng)業(yè)者當(dāng)年不賣(mài)公司,如今身家已超百億美元

蔡蔡說(shuō)史
2025-09-19 11:37:33
小米集團(tuán)跌幅擴(kuò)大至2%

小米集團(tuán)跌幅擴(kuò)大至2%

每日經(jīng)濟(jì)新聞
2025-09-19 09:56:24
不裝了,荷蘭就光刻機(jī)對(duì)中國(guó)亮明態(tài)度,日媒:我們“上當(dāng)”了

不裝了,荷蘭就光刻機(jī)對(duì)中國(guó)亮明態(tài)度,日媒:我們“上當(dāng)”了

元爸體育
2025-09-19 10:15:37
為什么大家都很現(xiàn)實(shí)了,大多數(shù)人沒(méi)錢(qián),裝不下去了

為什么大家都很現(xiàn)實(shí)了,大多數(shù)人沒(méi)錢(qián),裝不下去了

布衣粗食68
2025-09-17 14:26:51
貴州省人民政府關(guān)于金必煌等任免職的通知

貴州省人民政府關(guān)于金必煌等任免職的通知

知知貴陽(yáng)
2025-09-19 12:20:16
陜西哪個(gè)行業(yè)工資最高?

陜西哪個(gè)行業(yè)工資最高?

鎬媒體
2025-09-19 09:20:34
越鬧越大!賈國(guó)龍回應(yīng)爭(zhēng)議犯了三個(gè)嚴(yán)重錯(cuò)誤,聲譽(yù)無(wú)法挽回

越鬧越大!賈國(guó)龍回應(yīng)爭(zhēng)議犯了三個(gè)嚴(yán)重錯(cuò)誤,聲譽(yù)無(wú)法挽回

千言?shī)蕵?lè)記
2025-09-13 18:57:38
騰訊員工回應(yīng)微信去重瘦身代碼:不建議使用,可能帶來(lái)不好后果

騰訊員工回應(yīng)微信去重瘦身代碼:不建議使用,可能帶來(lái)不好后果

PChome電腦之家
2025-09-18 15:50:21
ATP杭州站中國(guó)德比:張之臻2-1險(xiǎn)勝布云朝克特,取傷愈復(fù)出首勝

ATP杭州站中國(guó)德比:張之臻2-1險(xiǎn)勝布云朝克特,取傷愈復(fù)出首勝

直播吧
2025-09-19 00:52:03
2025-09-19 13:23:00
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
11348文章數(shù) 176280關(guān)注度
往期回顧 全部

科技要聞

黃仁勛親口確認(rèn):正評(píng)估英特爾代工

頭條要聞

男子朋友圈稱(chēng)教育局長(zhǎng)因輿情被免職遭行拘:很冤枉

頭條要聞

男子朋友圈稱(chēng)教育局長(zhǎng)因輿情被免職遭行拘:很冤枉

體育要聞

不會(huì)短跑的牙買(mǎi)加人,集體跳槽土耳其

娛樂(lè)要聞

關(guān)曉彤生日 僅閆妮和化妝師撐場(chǎng)祝福?

財(cái)經(jīng)要聞

青海一"礦霸"非法填埋萬(wàn)噸危廢

汽車(chē)要聞

對(duì)話(huà)周光:一個(gè)技術(shù)理想主義者的“蛻變”

態(tài)度原創(chuàng)

本地
游戲
家居
時(shí)尚
藝術(shù)

本地新聞

云游中國(guó)|誰(shuí)懂!在天下第一關(guān)拍到史詩(shī)感大片

《鳴潮》官方整活 新角色尤諾曾在2.6版本前消失

家居要聞

公共藝術(shù) 限時(shí)體驗(yàn)打造

秋冬穿對(duì)紅黃橙,溫暖又高級(jí)

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 337p日本欧洲亚洲大胆色噜噜| 爽快AV少妇丰满顶级| 日本美熟妇视频在线| 激情另类小说| 久久大香伊蕉在人线国产h| 55bbbbb| 少妇人妻偷人精品视频| 日韩av 丝袜人妻| 日韩AV麻豆| 非洲黑人吊巨大VS亚洲女| 男人av天堂资源网| 中文字幕乱码免费| 91大屁股人妻| 爆乳中文国产诱惑内射| 成人A级毛片免费观看AV一区| 老熟女日逼视频| 亚洲国产精品精华夜999| 伊人久久大香线蕉av色婷婷色| 欧洲女人与公拘交酡视频| 国产精品久久久久久人妻无| 九九热在线精品视频| 在线精品自拍亚洲第一区| 淫荡少妇人妻视频| 国产在线精品一区二区三区不卡| 人人妻什人人操| 婬妇BBXBBXBBxBBX印| 美州久久久毛片| 骚小妹影院| 国产精品岛国久久久久| 内射欧美老妇wbb| 香蕉在线 亚洲 欧美 专区| 亚洲国产日韩在线人成蜜芽| 欧美成av人一区优播免| 毛茸茸富婆XXXX乱大交| 蜜芽AV人妻久久无码精品| 亚洲成人AV一区| 成人av亚洲男人色丁香| 黄色毛片俄罗斯版| 国模无码视频一区| 欧美美女午夜激情| 国产精品av免费观看|