夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

為什么大模型要騙你?

0
分享至

本文開始前,「象先志」先問大家三個問題,大家可以一起思考下

1. 1. AI為什么要騙你?

2. 2. 幻覺是大語言模型的bug還是feature?

3. 3. 為什么AI總是一本正經(jīng)地胡說八道?

OpenAI前段時間發(fā)了篇論文,題目叫 《Why language models hallucinate》,解釋為什么大語言模型會產(chǎn)生幻覺?!赶笙戎尽箷冉榻B下論文內(nèi)容,然后「象先志」再聊聊對這個問題一些不一樣的看法。



稍微有點硬核,希望大家耐心看到最后。這篇論文的基本結(jié)論,是大模型產(chǎn)生幻覺,原因是開發(fā)人員在訓(xùn)練它的時候鼓勵它這么做。就是說大模型天性是好的,是跟錯了人,后面路才走歪的。

為什么這么說呢?在訓(xùn)練大模型的時候,廠商內(nèi)部會跑很多的測試,來評價和校準(zhǔn)大模型的好壞。這些測試只看準(zhǔn)確率,不看錯誤率,所以哪怕模型不知道答案是什么,它還是會傾向猜一個答案。就跟我們考試的時候,哪怕不會做,答題卡上也要涂滿是一個道理。

要解決這個問題,那就對癥下藥嘛,論文作者呼吁大家要改變評測基準(zhǔn),不要再搞那套基于準(zhǔn)確率的評估方法了,要鼓勵大模型承認自己的無知,而不是一本正經(jīng)的瞎咧咧。

論文主要說的就是這事,「象先志」想邏輯大家應(yīng)該很容易理解。坦白講,雖然說論文是OpenAI發(fā)的,但「象先志」覺得沒有什么新東西。當(dāng)然OpenAI出來發(fā)有個好處,人家行業(yè)地位擺著這,出來吼兩嗓子,有助于從業(yè)者更快地認識到問題,然后去針對性地解決。

聊完論文,「象先志」再聊下對模型幻覺問題的理解?!赶笙戎尽拐J為語言模型本質(zhì)上沒有幻覺不幻覺的概念,它們只是基于已有的信息,去預(yù)測下一個token。你訓(xùn)練數(shù)據(jù)里是什么樣的概率分布,它就會盡量去擬合這個分布,僅此而已。不管你怎樣去調(diào)整模型評估的方式方法,它其實仍然是在迎合新的評價指標(biāo)。

比如說,原來答錯不扣分,現(xiàn)在答錯要扣分,那模型肯定更謹(jǐn)慎,不確定的事實,不知道的答案,它就更多承認自己不確定或者不知道。

但這樣還是存在兩個問題。

第一,模型仍然是沒有事實和非事實的概念區(qū)分,它不是因為這個東西是幻覺,它才不輸出;它是因為這個輸出會扣分,它才不輸出。

這就引出了第二個問題。按照這個理解角度,要減少模型的幻覺,就是要合理設(shè)置模型的評估模式,去盡可能引導(dǎo)模型的輸出跟人類認知上的事實陳述重合。

這顯然是一種治標(biāo)不治本的方式,因為模型的輸出結(jié)果跟人類認為的事實是兩個語言集合,我們現(xiàn)在等于沒辦法,直接瞄準(zhǔn)后面這個集合做優(yōu)化,所以只能退而求其次,對前一個集合做間接的限制。

但這樣搞有多大效果?上限在哪里?都是不知道的。

打個比方吧。人發(fā)燒是因為身體內(nèi)的免疫系統(tǒng)在劇烈反應(yīng),這個反應(yīng)是有一個根本的誘發(fā)因素的,比如說病毒感染。那現(xiàn)在要解決發(fā)燒的問題,一種辦法是直接對病毒做處理,上一些抗病毒的藥物,病毒解決了,身體自然就不發(fā)燒了。

還有一種辦法是什么呢?就是把體溫當(dāng)做優(yōu)化指標(biāo),用藥物把免疫反應(yīng)按下去,或者在頭上敷冰塊,反正要達到降體溫的目的。

現(xiàn)在OpenAI提的解決方案就類似于后者。這個方法有沒有用?當(dāng)然有用,就像人如果一直發(fā)燒發(fā)高燒,腦子就燒壞掉了,先把體溫降下來、緩解癥狀,是治療步驟中必要的環(huán)節(jié)。

OpenAI新的GPT-5的確也比之前模型要好很多,幻覺癥狀有明顯的緩解。但這能不能解決根本問題呢?我覺得很難,你最后還是需要找到發(fā)燒的原因才行。

只不過跟生病不一樣,人發(fā)燒是有客觀原因的,可能受限于醫(yī)學(xué)發(fā)展程度醫(yī)生找不到,但我們知道這個原因是客觀存在的。而語言模型的幻覺問題有可能是與生俱來的,發(fā)燒就是它身體正常新陳代謝的一部分,你解決不了。沒那個能力,知道吧?

順便說一句 ,剛才「象先志」又被AI給騙了?!赶笙戎尽乖儐柨聺崼@得過幾個世界冠軍時,ChatGPT非常篤定地回答,“截止2025年9月,柯潔共獲得9個世界冠軍,還列出了是哪幾次以及哪一年?!?/strong>



本來以為是GPT語料被污染了,因為年初LG杯決賽時柯潔因不服裁判棄賽,隨后把微博簽名改為“九冠王”。但「象先志」定睛一看,發(fā)現(xiàn)情況并沒有那么復(fù)雜,因為ChatGPT回答里并沒有列出2025年的LG杯。

九冠的柯潔,只是它單純的幻覺。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
70歲米雪國慶跑步素顏狀態(tài)驚艷網(wǎng)民 手臂肌肉線條清晰可見

70歲米雪國慶跑步素顏狀態(tài)驚艷網(wǎng)民 手臂肌肉線條清晰可見

廣西阿妹香香
2025-10-04 19:17:25
不是玄學(xué)!明日八月十五中秋,最旺自己的5件事,別忘了告訴家人

不是玄學(xué)!明日八月十五中秋,最旺自己的5件事,別忘了告訴家人

書中自有顏如玉
2025-10-05 11:28:13
陳俊菘一戰(zhàn)成名!國乒教練組立即為他更換陪練,此人大有來頭

陳俊菘一戰(zhàn)成名!國乒教練組立即為他更換陪練,此人大有來頭

十點街球體育
2025-10-04 23:10:13
吳艷妮穿緊身三角褲太窄被批“露骨”,到底礙了誰的眼?

吳艷妮穿緊身三角褲太窄被批“露骨”,到底礙了誰的眼?

傲嬌的馬甲線
2025-09-17 18:06:44
王朔:適當(dāng)?shù)膹妱荩悴艜蛔鹬?;適當(dāng)?shù)木芙^,你才不會被欺負

王朔:適當(dāng)?shù)膹妱?,你才會被尊重;適當(dāng)?shù)木芙^,你才不會被欺負

清風(fēng)拂心
2025-09-11 16:15:09
霍英東二姨太96歲去世:住百平高層領(lǐng)生活費,葬禮低調(diào)卻贏盡尊重

霍英東二姨太96歲去世:住百平高層領(lǐng)生活費,葬禮低調(diào)卻贏盡尊重

熱風(fēng)追逐者
2025-09-26 19:05:15
36歲瞿秋白慷慨赴死,建國后毛主席卻說:以后少紀(jì)念他!有何隱情

36歲瞿秋白慷慨赴死,建國后毛主席卻說:以后少紀(jì)念他!有何隱情

浩舞默畫
2025-09-05 08:26:07
女游客被海陵島一燒烤店“上課了”,發(fā)視頻曝光后,店家愿退三倍

女游客被海陵島一燒烤店“上課了”,發(fā)視頻曝光后,店家愿退三倍

小彭聊社會
2025-10-04 12:37:39
怪不得我們這個時候報道殲16驅(qū)逐五代機,原來美日澳有大動作了!

怪不得我們這個時候報道殲16驅(qū)逐五代機,原來美日澳有大動作了!

阿龍聊軍事
2025-10-04 14:30:24
澳大利亞慌了,中國不買美元計價的鐵礦了,總理喊話中國求訂單

澳大利亞慌了,中國不買美元計價的鐵礦了,總理喊話中國求訂單

愛下廚的阿釃
2025-10-04 10:32:39
邱貽可為何缺席場外指導(dǎo)?孫穎莎說出真相!球迷:馬琳去哪了?

邱貽可為何缺席場外指導(dǎo)?孫穎莎說出真相!球迷:馬琳去哪了?

最愛乒乓球
2025-10-05 07:47:42
1979年,葉飛調(diào)任海軍政委,要一人做幫手,中央:行,但有個條件

1979年,葉飛調(diào)任海軍政委,要一人做幫手,中央:行,但有個條件

史閣
2025-10-05 07:35:13
《沉默的榮耀》藏最深的竟是阿菊!朱楓吳石接頭,昌誠才知她多狠

《沉默的榮耀》藏最深的竟是阿菊!朱楓吳石接頭,昌誠才知她多狠

小娛樂悠悠
2025-10-05 00:01:38
范仲淹的智慧:家族財富傳承,從來不是留錢,而是建體系

范仲淹的智慧:家族財富傳承,從來不是留錢,而是建體系

金沛的國學(xué)筆記
2025-10-04 14:12:48
65年毛主席在武漢接見韓先楚,期間問:洪學(xué)智哪去了?好久沒見他

65年毛主席在武漢接見韓先楚,期間問:洪學(xué)智哪去了?好久沒見他

微野談寫作
2025-10-03 23:10:07
收手吧“資本家的丑孩子”,沒顏值沒演技,請不要出來禍害觀眾!

收手吧“資本家的丑孩子”,沒顏值沒演技,請不要出來禍害觀眾!

老呶侃史
2025-08-06 11:01:37
山東泰山丟球權(quán)24次,韓鵬指出最大“水貨”并非洛佩斯。

山東泰山丟球權(quán)24次,韓鵬指出最大“水貨”并非洛佩斯。

吳蛛旅行ing
2025-10-05 09:07:19
馬科斯緊急對中國“交底”,美國密謀政變,絕不讓南海局勢改變

馬科斯緊急對中國“交底”,美國密謀政變,絕不讓南海局勢改變

天氣觀察站
2025-10-05 11:01:46
“陪睡上位、知三當(dāng)三、風(fēng)流成性”,44歲的宋佳究竟是什么樣的人

“陪睡上位、知三當(dāng)三、風(fēng)流成性”,44歲的宋佳究竟是什么樣的人

混沌錄
2025-09-18 21:23:05
稻盛和夫:錢沒了可以再掙,工作沒了可以再找,朋友沒了可以再交

稻盛和夫:錢沒了可以再掙,工作沒了可以再找,朋友沒了可以再交

清風(fēng)拂心
2025-09-13 13:15:04
2025-10-05 12:43:00
象先志 incentive-icons
象先志
專注互聯(lián)網(wǎng)、電商,聚焦產(chǎn)業(yè)、核心,洞察前沿、趨勢
33文章數(shù) 1關(guān)注度
往期回顧 全部

科技要聞

特斯拉:擎天柱機器人開始練中國功夫了!

頭條要聞

牛彈琴:日本大變局開始 中方回應(yīng)中有一個詞意味深長

頭條要聞

牛彈琴:日本大變局開始 中方回應(yīng)中有一個詞意味深長

體育要聞

黃潛仿效馬競未竟,友愛姆總溫暖熊皇成全皇馬

娛樂要聞

裴秀智新劇又辱華?反派做壞事說中文

財經(jīng)要聞

日本大變局開始,接下來更有看頭

汽車要聞

密集攻勢 寶馬將在2年內(nèi)推40款新平臺新車

態(tài)度原創(chuàng)

家居
房產(chǎn)
手機
旅游
教育

家居要聞

潮流地標(biāo) 引領(lǐng)Z世代風(fēng)尚

房產(chǎn)要聞

十一直擊,三亞這個熱盤,又火了!

手機要聞

小米之家 10 月 5 日-6 日免費送 30 萬份月餅

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

新任校長念好“九字訣”

無障礙瀏覽 進入關(guān)懷版 人妻人人做人碰人人添户外| 乱中年女人伦av| 五月天国产精品| 欧美a在线视频| 男女生啪啪视频| 永久免费精品性爱网站| 97成人资源站| 一区二区在线手机观看| 日本精品视频一二区| 免费久久人人爽人人爽av| 中文字幕AV一区二区| 久久少妇洗澡| 天堂av无码av日韩av| 漂亮人妻被中出中文字幕久久| 免费AV在线网址| 激情综合婷婷丁香五月情| 99视频在线精品国自产拍| 领导边摸边吃奶边做爽在线观看| 成 人色 网 站 欧美大片| 在线激情国产| 蜜桃成熟色综合久久av| 黑人一天弄我10次| 18禁黄久久久aaa片| 你懂的一区二区福利视频 | 伊人久久精品无码麻豆一区| 色婷婷综合久久久中文字幕| 水蜜桃av无码| 精品无码一区二区三区| 一本一道人妻少妇AV免费久久| 狂野欧美性猛交XXXX巴西| 日本中文字幕强奸乱伦三级片视频| 麻豆成人精品国产免费| 亚洲gv在线免费观看| 国语对白国产av天堂| 99精品欧美一区二区三区| 操东北女人在线| 无码大屁股丰满高潮大叫| 98亚洲无码在线观看| 色综合久久久久综合体桃花网| 好看的日韩av| 综合久久给合久久狠狠狠97色|