本文內(nèi)容均是根據(jù)權(quán)威資料,結(jié)合個(gè)人觀點(diǎn)撰寫的原創(chuàng)內(nèi)容,文中標(biāo)注文獻(xiàn)來源及截圖,請(qǐng)知悉。
你有沒有過這種又氣又笑的經(jīng)歷?問AI“十年前某部小眾紀(jì)錄片的制片人”,它立馬甩出一個(gè)名字,還附帶“曾參與XX項(xiàng)目”的細(xì)節(jié),說得跟真的一樣。
結(jié)果你翻遍老新聞、查遍行業(yè)數(shù)據(jù)庫(kù),壓根沒這人!這就是AI讓人頭疼的“幻覺”,也就是造謠。
但是最可怕的是有人竟然趁機(jī)鉆了空子,利用AI的幻覺形成產(chǎn)業(yè)鏈,生產(chǎn)造謠的文章,從中來獲取關(guān)注度和流量獲取利益!而這件事也開始讓我們思考“AI幻覺”這個(gè)讓人頭痛的問題。
之前有個(gè)扎心的觀點(diǎn),AI之所以愛“一本正經(jīng)胡說八道”,是因?yàn)槲覀儼阉坛闪恕皯?yīng)試學(xué)生”,為了“得分”,哪怕不會(huì)也得蒙一個(gè),總比說“不知道”得零分強(qiáng)。
或許有人會(huì)說,AI連主觀意識(shí)都沒有,學(xué)生可是有主動(dòng)思考能力的,把AI幻覺歸為應(yīng)試教育式訓(xùn)練,是不是有點(diǎn)硬湊比喻?
這個(gè)疑問確實(shí)有道理,畢竟學(xué)生考試猜答案,是知道自己“不會(huì)才蒙”,還可能心里打鼓,但AI生成錯(cuò)誤內(nèi)容時(shí),它根本意識(shí)不到自己在“胡說”,只是按概率輸出文字而已,兩者的“動(dòng)機(jī)”完全不一樣。
不過換個(gè)角度看,兩者的核心矛盾其實(shí)是相通的,都是訓(xùn)練/考核機(jī)制把“得分”放在了“求真”前面。
他們的測(cè)評(píng)基準(zhǔn)都是“對(duì)得1分,錯(cuò)或說不知道得0分”,這種規(guī)則下,AI選“蒙一個(gè)”的收益比“認(rèn)不會(huì)”高,就像學(xué)生碰到不會(huì)的選擇題,蒙還有機(jī)會(huì)對(duì),空著肯定沒分。
雖然AI沒有“主動(dòng)蒙題”的意識(shí),但訓(xùn)練機(jī)制間接逼它養(yǎng)成了“優(yōu)先輸出而非核查”的習(xí)慣。
這和應(yīng)試教育里,有些學(xué)生為了分?jǐn)?shù)放棄深度思考、專攻答題套路,本質(zhì)上是同一類機(jī)制問題,不是說AI和學(xué)生“一樣有想法”,而是兩者都被規(guī)則導(dǎo)向了“重結(jié)果輕過程”。
從另一個(gè)角度看,可能有人會(huì)質(zhì)疑,讓AI查資料、設(shè)置信度閾值讓AI少亂說話,這些方法會(huì)不會(huì)只是補(bǔ)???
畢竟模型本身還是應(yīng)試思維,就算有工具輔助,會(huì)不會(huì)還是會(huì)亂引用、亂判斷?
這個(gè)擔(dān)心并非多余,比如要是檢索到的資料本身有誤差,AI照樣可能基于錯(cuò)誤資料“一本正經(jīng)胡說”。
就算設(shè)了置信度閾值,要是模型對(duì)“自己會(huì)不會(huì)”的判斷不準(zhǔn),也可能該說的不說、不該說的亂說。
但這些方法的核心不是“根治”,而是“對(duì)齊”,讓AI的輸出邏輯和真實(shí)世界的“求真需求”對(duì)齊。
比如置信度閾值,本質(zhì)是改了“評(píng)分規(guī)則”,以前是“蒙對(duì)得分、認(rèn)不會(huì)零分”,現(xiàn)在是“錯(cuò)了扣分、認(rèn)不會(huì)零分、對(duì)了得分”,相當(dāng)于把應(yīng)試?yán)锏摹拔ǚ謹(jǐn)?shù)論”調(diào)整為“分?jǐn)?shù)與準(zhǔn)確性綁定”。
而給AI補(bǔ)上“查資料驗(yàn)證”的步驟就像讓應(yīng)試學(xué)生不再只靠死記硬背答題,而是允許查參考書再寫答案,雖然不能保證100%對(duì),但能大幅減少“憑感覺胡說”的概率。
這些方法確實(shí)不是“一勞永逸”,但卻是從“機(jī)制”和“工具”兩方面,逐步修正“應(yīng)試訓(xùn)練”帶來的偏差,比單純罵AI“不思考”更實(shí)際。
還有人可能會(huì)覺得,“我用AI就是想讓它幫我解決問題,要是它老說我不知道,那我還不如自己查資料,AI的實(shí)用性不就沒了?
這個(gè)顧慮很貼近日常使用場(chǎng)景,比如問AI一個(gè)冷門知識(shí),要是它直接說“不會(huì)”,確實(shí)會(huì)讓人覺得“沒幫上忙”。
但這里需要平衡“實(shí)用性”和“可靠性”,在醫(yī)學(xué)、金融這些專業(yè)領(lǐng)域,“準(zhǔn)確”比“能說”重要得多,比如AI給錯(cuò)一個(gè)用藥建議,后果可能很嚴(yán)重,這時(shí)候讓AI在不確定時(shí)說“不知道”,反而比亂給建議更有用。
這條假消息很快被大量轉(zhuǎn)發(fā),不少市民看到后慌了神,給當(dāng)?shù)厣鐣?huì)秩序帶來不小干擾。
警方接到群眾反映后迅速核查,確認(rèn)消息純屬編造,隨即依法將鐘某拘留,經(jīng)過調(diào)查發(fā)現(xiàn)他們背后已經(jīng)形成了“黑產(chǎn)”,產(chǎn)生了利益鏈,一天就能掙一萬以上,批量生產(chǎn)虛假文章,一篇簡(jiǎn)直讓人深惡痛絕!
長(zhǎng)遠(yuǎn)來看,減少“胡說八道”帶來的誤導(dǎo),比讓AI“啥都敢接”更能體現(xiàn)它的價(jià)值,“認(rèn)不會(huì)”反而會(huì)成為AI“主動(dòng)找辦法驗(yàn)證”的起點(diǎn),而不是終點(diǎn)。
其實(shí)這些質(zhì)疑的核心,都是在追問“AI幻覺的本質(zhì)到底是機(jī)制問題,還是技術(shù)局限”。
我們也要知道,AI本身的運(yùn)作原理是“預(yù)測(cè)概率”,而應(yīng)試式的評(píng)分規(guī)則,讓這種“概率優(yōu)先”的邏輯偏離了“事實(shí)優(yōu)先”的需求。
無論是質(zhì)疑比喻牽強(qiáng),還是擔(dān)心方法治標(biāo),本質(zhì)都是在提醒我們,解決AI幻覺,既要改訓(xùn)練規(guī)則,也要補(bǔ)技術(shù)短板,更要明確“AI不是用來考高分的,而是用來幫人做對(duì)事的”。
而作為用戶,保留驗(yàn)證習(xí)慣、不盲目相信“說得頭頭是道”的回答,也是這個(gè)過程里很重要的一環(huán)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.