夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI的新論文,為什么被業(yè)內(nèi)嘲諷是營銷?

0
分享至



近期,OpenAI 發(fā)布了一篇新論文《 Why Language Models Hallucinate 》,指出當(dāng)前大模型幻覺的主要來源,引發(fā)了廣泛關(guān)注。

他們給出了一個(gè)簡潔卻顛覆性的解釋:大模型之所以出現(xiàn)幻覺,并非由于模型架構(gòu)的失靈,而是當(dāng)前技術(shù)社區(qū)的訓(xùn)練與評(píng)測機(jī)制傾向于獎(jiǎng)勵(lì)猜測,并且懲罰承認(rèn)不確定的行為,迫使模型在高度不確定時(shí),也傾向猜測性作答以博取準(zhǔn)確率分?jǐn)?shù)。

換句話說,大多數(shù)評(píng)估基準(zhǔn)采用一種 “ 應(yīng)試考試 ” 的方式,迫使大語言模型成為 “ 應(yīng)試者 ”,不管是選擇題、填空題還是解答題,如果不知道正確答案,那就猜一個(gè)甚至蒙一個(gè),這樣在概率上也比不答分?jǐn)?shù)高。

預(yù)訓(xùn)練層面上,大模型通常只接觸正面示例,也就是給定提示詞,然后接著輸出完整的回答,沒有在這個(gè)過程中接觸任何拒絕回答的示例,所以自然學(xué)不會(huì)這種拒絕回答的行為。

OpenAI 拿自家模型舉了一個(gè)例子,在 SimpleQA 基準(zhǔn)中,舊模型 o4-mini 相比新模型 GPT-5-thinking-mini 準(zhǔn)確率略高( 22% vs. 24% ),但也有高得多的錯(cuò)誤率( 75% vs. 26% ),因?yàn)樗?“ 棄答 ”。



OpenAI據(jù)此主張:在往后的評(píng)估基準(zhǔn)中,應(yīng)對(duì)高自信的錯(cuò)誤施以懲罰,并為恰當(dāng)?shù)牟淮_定表達(dá)給出適當(dāng)分?jǐn)?shù),使激勵(lì)從 “ 大膽猜 ” 轉(zhuǎn)向 “ 知之為知之 ”,改變主流排行榜長期以 “ 準(zhǔn)確率 ” 一項(xiàng)稱王的局面。

可以說,這篇研究是在把 “ 幻覺 ” 從工程缺陷轉(zhuǎn)化為技術(shù)社區(qū)的 “ 激勵(lì)設(shè)計(jì) ” 問題。

如果真的往這個(gè)方向發(fā)展,以后真正值得關(guān)注的,將不再是誰的準(zhǔn)確率小幅上漲,而是誰愿意重寫評(píng)測與產(chǎn)品規(guī)則,讓模型在不確定時(shí)自然地說:“ 我不知道 ”。

技術(shù)社區(qū)對(duì)該話題討論熱烈,其中對(duì)論文的詬病也不少。

有人認(rèn)為這篇論文既不新穎,水平也不高,即相關(guān)研究早已經(jīng)出現(xiàn),并且這篇論文的技術(shù)水平更像是初級(jí)研究人員寫出來的。

紐約大學(xué)數(shù)據(jù)中心助理教授 Ravid Shwartz Ziv 直言這篇論文更像是一場營銷,而不是研究。



有人指出,問題的核心其實(shí)在于,幻覺的概念實(shí)際上到現(xiàn)在為止都還沒有被嚴(yán)格地定義。

雖然已有不少研究指出了幻覺的可能原因,例如模型過度自信、解碼隨機(jī)性、滾雪球效應(yīng)、長尾訓(xùn)練樣本、誤導(dǎo)性對(duì)齊訓(xùn)練、虛假相關(guān)性、曝光偏差、逆轉(zhuǎn)詛咒以及上下文劫持等,但這些方法毋寧說是一種幻覺的分類。

幻覺的本質(zhì),或許可以用一個(gè)很簡單的例子來說明。

以機(jī)器學(xué)習(xí)中的曲線擬合為例,假設(shè)下圖的數(shù)據(jù)點(diǎn)是被用于訓(xùn)練的事實(shí),我們需要擬合一條曲線來對(duì)數(shù)據(jù)進(jìn)行回歸,使其能夠準(zhǔn)確地預(yù)測新數(shù)據(jù)。這條曲線,代表的就是模型。



圖源:網(wǎng)絡(luò)

嚴(yán)格意義上來講,不存在唯一正確的模型。因?yàn)槊恳环N模型都具備不同的擬合度和泛化性,也都有各自的適用場景。

比如上圖中最右邊的復(fù)雜曲線擬合度更強(qiáng)甚至過擬合( 訓(xùn)練數(shù)據(jù)準(zhǔn)確率高 ),但泛化性弱( 測試數(shù)據(jù)準(zhǔn)確率低 );最左邊的簡單曲線擬合度更弱甚至欠擬合( 訓(xùn)練數(shù)據(jù)準(zhǔn)確率低 ),但泛化性強(qiáng)( 測試數(shù)據(jù)準(zhǔn)確率高 )。

不同曲線,可以生成不同的新數(shù)據(jù)。而任何曲線,生成的不同于訓(xùn)練數(shù)據(jù)的新數(shù)據(jù),都有可能是錯(cuò)的,也就是都有可能是幻覺。至于幻覺的確認(rèn),原則是只能與現(xiàn)實(shí)進(jìn)行直接對(duì)比校驗(yàn),其它方式都是間接性的。

而且,機(jī)器學(xué)習(xí)或大語言模型其實(shí)都不擅長分布外泛化,也就是其泛化能力更多是在已有觀測點(diǎn)的范圍內(nèi)估計(jì)未知值。

近期的理論研究比如 2024 年發(fā)表的論文《On the Limits of Language Generation: Trade-Offs Between Hallucination and Mode Collapse 》形式化地闡述了一致性( 避免無效輸出 )和廣度( 生成多樣化、語言豐富的內(nèi)容 )之間的內(nèi)在權(quán)衡。這些研究表明,對(duì)于廣泛的語言類別,任何在其訓(xùn)練數(shù)據(jù)之外進(jìn)行泛化的模型,要么會(huì)產(chǎn)生幻覺,要么會(huì)遭遇模式崩潰,無法生成所有有效的響應(yīng)。

所以,如果保證訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)( 或?qū)嶋H應(yīng)用數(shù)據(jù) )在大致相同的數(shù)據(jù)分布范圍內(nèi),并且模型是過擬合的,基本能保證很低的錯(cuò)誤率或幻覺率。

假設(shè) “ 低幻覺 ” 大模型發(fā)展成了這個(gè)樣子,那其實(shí)它基本上就是更高效地串聯(lián)已知事實(shí)點(diǎn)、知識(shí)點(diǎn)的自然語言搜索引擎而已。

這會(huì)是OpenAI希望的結(jié)果嗎?我們假設(shè)是,然后繼續(xù)推測一下。

回過頭看《 Why Language Models Hallucinate 》這篇論文,幻覺表現(xiàn)方面,OpenAI 指出,大模型在拼寫和括號(hào)等細(xì)節(jié)基本不會(huì)出錯(cuò),但在低頻任意事實(shí)上很容易出錯(cuò)。

他們引用了一個(gè)有趣的研究成果,論文 《 Calibrated Language Models Must Hallucinate 》表明即使訓(xùn)練數(shù)據(jù)沒有錯(cuò)誤,產(chǎn)生幻覺的概率也接近于訓(xùn)練數(shù)據(jù)中恰好出現(xiàn)一次的事實(shí)的比例( “ Good-Turing ” 估計(jì) )。相比之下,大型語言模型很少會(huì)在經(jīng)常引用的事實(shí)上出錯(cuò),例如愛因斯坦的生日或論文標(biāo)題。

并且,該論文還指出,沒有統(tǒng)計(jì)學(xué)理由表明預(yù)訓(xùn)練會(huì)導(dǎo)致對(duì)訓(xùn)練數(shù)據(jù)中可能出現(xiàn)多次的事實(shí)( 例如對(duì)文章、書籍的引用 )或系統(tǒng)性事實(shí)( 例如算術(shù)計(jì)算 )產(chǎn)生幻覺。

所以,盡管這個(gè)自然語言搜索引擎很死板,但在使用時(shí),對(duì)于查詢提示詞的拼寫、標(biāo)點(diǎn)符號(hào)、語言表達(dá)習(xí)慣等還是能做出靈活的響應(yīng),并且對(duì)于人類多次引用或應(yīng)用的知識(shí)、事實(shí),基本能保證準(zhǔn)確。如果是涉及單次出現(xiàn)的事實(shí),則很可能出錯(cuò),這時(shí)候大模型會(huì)選擇拒絕回答。

這樣的大模型自然會(huì)變得很安全、可靠。對(duì)于 AI Agent 產(chǎn)品的構(gòu)建或企業(yè) AI( 企業(yè) AI 將主要以 Agent 的形式交付 )的落地,都是非常好的底座。因?yàn)橐l(fā)揮AI Agent 的最大限度的能力,首先要保證低幻覺,避免錯(cuò)誤累積的乘積效應(yīng)。

而且,企業(yè)數(shù)據(jù)通常領(lǐng)域獨(dú)立、長尾、稀疏,訓(xùn)練出來的大模型潛在的幻覺點(diǎn)會(huì)很多,增加拒答率,其實(shí)類似于在代碼里增加了 Bug 日志,可以幫助企業(yè)更好地優(yōu)化模型。

但另一方面,我們能信任這個(gè)死板的自然語言搜索引擎的泛化能力嗎?也就是應(yīng)對(duì)實(shí)際新問題的能力?

當(dāng)然,這只是一種對(duì) OpenAI 描繪的設(shè)想在經(jīng)典概念上的理解。對(duì)于泛化能力這一部分,其實(shí)目前沒有很好的量化方法。

這個(gè) “ 低幻覺 ” 大模型將不會(huì)只能解決已知場景下的問題。至于在解決一個(gè)具體問題時(shí),是否保證準(zhǔn)確,還是需要一些間接指標(biāo)來判斷。

當(dāng)前并沒有很好地自動(dòng)化檢測幻覺的方法,很多復(fù)雜的檢測方法,甚至只和分析響應(yīng)長度方法效果相當(dāng)。

最簡單粗暴的方法,就是讓 LLM 生成多個(gè)獨(dú)立答案,然后比較這些答案的一致性,但計(jì)算成本高昂,因?yàn)槊總€(gè)查詢都需要生成多個(gè)答案。

后續(xù)研究則在這個(gè)基礎(chǔ)上,利用多個(gè)答案之間的重復(fù)部分的緩存來節(jié)省計(jì)算成本。另一些方法則是比較不同模型對(duì)同一個(gè)查詢的輸出差異來分析幻覺。

目前可能最高效的方法,是在推理過程中,一邊推理,一邊計(jì)算模型內(nèi)部的置信度信號(hào),在推理過程中或推理結(jié)束后動(dòng)態(tài)過濾掉低質(zhì)量的推理路徑。該方法無需額外的模型訓(xùn)練或超參數(shù)調(diào)整。比如論文《 DEEP THINK WITH CONFIDENCE 》依靠這種方法,基于開源模型在 AIME 2025 達(dá)到了 99.9% 的 “ @512 準(zhǔn)確率 ”( Best-of-512 sampling ),生成的文本長度也比全并行推理方法減少了 84.7% 。



圖源:DEEP THINK WITH CONFIDENCE

置信度是非常典型的度量大模型自信程度的信號(hào),這也是 OpenAI 指出的大模型拒絕回答時(shí)的依據(jù)。

如何理解置信度呢?簡單來說,有一種簡單的定義是,大模型推理生成下一個(gè) token 時(shí),下一個(gè) token 的所有候選詞的概率分布越不均勻,越集中在少量詞,置信度越大。比如下圖中的下一個(gè) token 的概率分布就比較符合高置信度的特點(diǎn)。



圖源:網(wǎng)絡(luò)

客觀來講,關(guān)于置信度的相關(guān)研究確實(shí)已經(jīng)出現(xiàn),而且還不少,概念定義和方法也非常多樣。上述提到的讓 LLM 生成多個(gè)獨(dú)立答案再分析一致性的方式,也是一種度量置信度的方法。

甚至,你可以直接讓大模型在輸出時(shí),附加一句 “ 我有約80%的把握 ” 之類的話,或使用詞語如 “ 可能 ”、“ 不確定 ”來表達(dá)置信度。這就有點(diǎn) “ 玄學(xué) ” 的味道了,但確實(shí)實(shí)驗(yàn)統(tǒng)計(jì)上有效。論文《 Just Ask for Calibration 》通過實(shí)驗(yàn)發(fā)現(xiàn),在提示詞中加入不確定性表達(dá),可以顯著提高 GPT-3 答案的準(zhǔn)確性和模型校準(zhǔn)度。

OpenAI 這篇論文的創(chuàng)新之處不在于提出的方法,更像是一種面向大模型技術(shù)社區(qū)的倡議,如果社區(qū)集體能夠認(rèn)同其觀點(diǎn),后續(xù)大模型將會(huì)朝著不鼓勵(lì)猜測答案的方向發(fā)展。

在論文中,OpenAI 也確實(shí)指出,“ 這種懲罰不確定答案的 ‘ 流行病 ’ 只能通過社會(huì)技術(shù)緩解措施來解決 ”。

而作為大模型時(shí)代的奠基者,OpenAI 確實(shí)具備這樣的號(hào)召力。

那么,OpenAI 如此倡導(dǎo),背后有沒有更深層次的理由?

結(jié)合 GPT-5 的低幻覺招牌,低幻覺率對(duì) AI Agent、企業(yè)AI的重要性,企業(yè)數(shù)據(jù)的稀疏性,以及 OpenAI 近期的關(guān)鍵舉措,包括收購并合并 io Products 推進(jìn)硬件布局、成立 “ 應(yīng)用 ” 板塊并任命 Fidji Simo 為 Applications CEO 等。

只能猜測,OpenAI 希望社區(qū)認(rèn)可 GPT-5的 成就,強(qiáng)調(diào) GPT-5 或后續(xù)模型( 如果有的話 )對(duì)AI Agent、企業(yè)應(yīng)用的優(yōu)勢所在。

以及,他們自己也要認(rèn)真做應(yīng)用了。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
特朗普竟然給克林頓吹過簫?!美國官方公開文件無意間泄露天機(jī),特朗普被玩壞了

特朗普竟然給克林頓吹過簫?!美國官方公開文件無意間泄露天機(jī),特朗普被玩壞了

西虹市閑話
2025-11-17 23:38:26
又走了一家外企

又走了一家外企

曹多魚的財(cái)經(jīng)世界
2025-11-17 15:03:31
丈夫出軌8年時(shí)間向大8歲情人轉(zhuǎn)賬超125萬,妻子起訴全額返還!二審判決來了

丈夫出軌8年時(shí)間向大8歲情人轉(zhuǎn)賬超125萬,妻子起訴全額返還!二審判決來了

紅星新聞
2025-11-18 00:02:11
NBA傷情更新:詹姆斯首秀倒計(jì)時(shí),文班小腿拉傷,快船一喜一悲

NBA傷情更新:詹姆斯首秀倒計(jì)時(shí),文班小腿拉傷,快船一喜一悲

體壇小李
2025-11-18 09:45:54
單項(xiàng)第4金+總第5金!全運(yùn)會(huì)男子1500米自由泳:張展碩再奪一冠

單項(xiàng)第4金+總第5金!全運(yùn)會(huì)男子1500米自由泳:張展碩再奪一冠

全景體育V
2025-11-17 19:46:08
日本議員:受降的是中華民國,新中國沒資格說話!網(wǎng)友:那更好了

日本議員:受降的是中華民國,新中國沒資格說話!網(wǎng)友:那更好了

青青子衿
2025-11-15 15:51:35
國產(chǎn)豪門撕逼天花板:300個(gè)娃,八億轉(zhuǎn)賬!

國產(chǎn)豪門撕逼天花板:300個(gè)娃,八億轉(zhuǎn)賬!

不正確
2025-11-17 15:44:53
韓老先生,最后做件人事吧!

韓老先生,最后做件人事吧!

賓語觀世
2025-11-17 13:53:49
僅因“沒證據(jù)證明死者帶兇器”,申大爺竟被判防衛(wèi)過當(dāng),全網(wǎng)怒了

僅因“沒證據(jù)證明死者帶兇器”,申大爺竟被判防衛(wèi)過當(dāng),全網(wǎng)怒了

熱點(diǎn)菌本君
2025-11-17 15:49:25
血跡太空可見,蘇丹這場大屠殺何以發(fā)生?

血跡太空可見,蘇丹這場大屠殺何以發(fā)生?

新京報(bào)
2025-11-17 13:13:52
為什么說臺(tái)海戰(zhàn)爭爆發(fā),日本的介入比美國支持臺(tái)灣還要可怕?

為什么說臺(tái)海戰(zhàn)爭爆發(fā),日本的介入比美國支持臺(tái)灣還要可怕?

細(xì)語
2025-11-17 10:23:19
雷軍罕見硬剛回應(yīng)!同日公關(guān)負(fù)責(zé)人被曝調(diào)整

雷軍罕見硬剛回應(yīng)!同日公關(guān)負(fù)責(zé)人被曝調(diào)整

智能車參考
2025-11-17 14:52:45
日本航空自衛(wèi)隊(duì)參謀長稱,中國不讓中國人去日本,正中日本下懷

日本航空自衛(wèi)隊(duì)參謀長稱,中國不讓中國人去日本,正中日本下懷

我心縱橫天地間
2025-11-17 12:59:24
卓偉回應(yīng):上周爆料的離婚男明星是喻恩泰,拋妻棄子

卓偉回應(yīng):上周爆料的離婚男明星是喻恩泰,拋妻棄子

天涯社區(qū)
2025-11-17 18:10:03
俞敏洪在南極給員工寫信翻車上熱搜!員工:23點(diǎn)我還在打電話續(xù)費(fèi)

俞敏洪在南極給員工寫信翻車上熱搜!員工:23點(diǎn)我還在打電話續(xù)費(fèi)

柴狗夫斯基
2025-11-17 21:16:32
解放軍開始算總賬,艦隊(duì)已起航,不到24小時(shí),高市早苗求見金正恩

解放軍開始算總賬,艦隊(duì)已起航,不到24小時(shí),高市早苗求見金正恩

現(xiàn)代小青青慕慕
2025-11-17 13:06:04
荒誕!雷軍再遭小米產(chǎn)品反噬:40米潛水手表,小字免責(zé)又引火燒身

荒誕!雷軍再遭小米產(chǎn)品反噬:40米潛水手表,小字免責(zé)又引火燒身

娜烏和西卡
2025-11-17 16:22:27
吃瓜!網(wǎng)傳某大學(xué)首席教授、俄羅斯工程院外籍院士,實(shí)為高中畢業(yè)

吃瓜!網(wǎng)傳某大學(xué)首席教授、俄羅斯工程院外籍院士,實(shí)為高中畢業(yè)

TOP大學(xué)來了
2025-11-17 20:54:47
俞敏洪翻車現(xiàn)場!內(nèi)部信被員工懟上熱搜,評(píng)論區(qū)炸鍋了

俞敏洪翻車現(xiàn)場!內(nèi)部信被員工懟上熱搜,評(píng)論區(qū)炸鍋了

雷科技
2025-11-17 22:44:50
高市早苗一手炮制日本外交天崩開局:同時(shí)得罪四國,制造罕見被動(dòng)局面

高市早苗一手炮制日本外交天崩開局:同時(shí)得罪四國,制造罕見被動(dòng)局面

上觀新聞
2025-11-18 00:28:13
2025-11-18 09:56:50
知危 incentive-icons
知危
投資不立危墻之下
498文章數(shù) 1826關(guān)注度
往期回顧 全部

科技要聞

京東外賣要“獨(dú)立” 劉強(qiáng)東還宣戰(zhàn)“點(diǎn)評(píng)”

頭條要聞

牛彈琴:中國的憤怒還在繼續(xù) 對(duì)日反制有三個(gè)新特點(diǎn)

頭條要聞

牛彈琴:中國的憤怒還在繼續(xù) 對(duì)日反制有三個(gè)新特點(diǎn)

體育要聞

直到退役那天,“海灣梅西”也沒去歐洲踢球

娛樂要聞

金雞獎(jiǎng)是“照妖鏡”,揭露人情冷暖?

財(cái)經(jīng)要聞

青云租陷兌付危機(jī) 集資與放貸的雙面生意

汽車要聞

更加豪華 更加全地形 極石ADAMAS

態(tài)度原創(chuàng)

本地
親子
教育
公開課
軍事航空

本地新聞

這檔古早綜藝,怎么就成了年輕人的哆啦A夢?

親子要聞

你以為的營養(yǎng)早餐,可能會(huì)影響A娃專注力!

教育要聞

報(bào)告顯示美高校國際學(xué)生今年秋季入學(xué)人數(shù)減少17%

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

韓國提議舉行朝韓軍事會(huì)談

無障礙瀏覽 進(jìn)入關(guān)懷版 人妻厨房出轨上司HD院线波| 国产精品久久久久高潮| 777米奇视频| 亚洲VA中文字幕无码久久| 午夜dj高清免费观看视频| 国产成人国产在线观看| 精品人妻一区二区三区三区四区 | 蜜桃在线最新这里| 亚洲va中文在线播放免费| 成 人 黄 色 免费 网站| 免费无遮挡在线观看网站| 人妻少妇3P欧美| a级毛片无码免费真人| 久久99日韩国产精品久久99| 中文AV一区二区三区| 一区二区三区中文字幕| 亚洲AV无码一,区二区二三区j| 亚洲大胆视频| 少妇av无码喷水| 亚洲人成电影在线观看天堂色| 欧美黑人性爱网| av最新资源在线天堂网www| 北条麻妃在线一区二区| 亚洲日韩一区二区三区中文字幕| 国产精品乱人一区二| 无码人妻久久1区2区3区| 99精品A∨片| 免费精品久久天干天干| 国产粉嫩美女一区二区三| 成人综合区一区| 国产精品看久久| 日韩精品一区二区三区免费在线观看| 日韩不卡AV| 国产av一区二区精品| 99国产精品久久久蜜芽| 亚洲AV无码午夜嘿嘿嘿| 色婷婷天天综合在线| 欧美日韩精品suv| av永久天堂一区二区三区| 欲妇荡岳丰满少妇岳| YSL蜜桃色13569|