夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

GPT-4o 見 AV 女優(yōu)的次數(shù)比「您好」還多 2.6 倍,AI 正在被中文互聯(lián)網(wǎng)瘋狂污染

0
分享至

好家伙,我直呼好家伙。

號稱「賽博白月光」的 GPT-4o,在它的知識體系里,對日本女優(yōu)「波多野結(jié)衣」的熟悉程度,竟然比中文日常問候語「您好」還要高出 2.6 倍。

是不是瞬間就下頭了?

這可不是我瞎編的。一篇來自清華、螞蟻和南洋理工的最新研究直接揭了老底:我們天天在用的大語言模型,有一個算一個,都存在不同程度的數(shù)據(jù)污染。


論文:從模型 Token 列表推測大語言模型的中文訓練數(shù)據(jù)污染( https://arxiv.org/abs/2508.17771)

論文中把這些污染數(shù)據(jù)定義為 「污染中文詞元」(Polluted Chinese Tokens,簡稱 PoC Tokens)。它們大多指向色情、網(wǎng)絡賭博等灰色地帶,像病毒一樣寄生在 AI 的詞匯庫深處。

這些中文污染詞元的存在,不僅對 AI 來說是一種隱患,更是直接影響到我們的日常體驗,被迫接受 AI 各種各樣的胡言亂語。


要求 ChatGPT 重復「給主人留下些什么吧」,ChatGPT 根本不知道在回答什么。

中文互聯(lián)網(wǎng)的色情賭博信息,怎么「污染」AI

我們可能都曾遇到過這樣的情況:

想讓 ChatGPT 推薦幾部經(jīng)典電影、相關的論文等,它突然回了一堆奇怪的亂碼網(wǎng)站名、打不開的鏈接、或者根本不存在的論文。

輸入一個看似普通的詞語,比如「大神推薦」之類的,它有時候卻吐出不相關的符號,甚至生成一些讓人摸不著頭腦的句子。

研究團隊的解釋是:這背后很可能就是污染詞元在作怪。

我們都知道大語言模型的訓練需要大量的語料,這些海量數(shù)據(jù)大多是從網(wǎng)絡上進行爬取收集。

但 AI 注意不到的是,它閱讀的網(wǎng)頁中,竟然充斥著無數(shù)「性感荷官,在線發(fā)牌」的彈窗廣告和「點擊就送屠龍寶刀」的垃圾鏈接。久而久之,這些內(nèi)容也成了它知識體系的一部分,并變得混亂。


就跟前段時間 DeepSeek 鬧出的幾起烏龍事件一樣,先是莫名其妙的一封道歉信,然后再自己編造一個 R2 的發(fā)布日期。這些沒有營養(yǎng)的營銷內(nèi)容,一旦被模型吸收,就很容易出現(xiàn)幻覺。

如果說,DeepSeek 出現(xiàn)這些幻覺,需要我們?nèi)ヒ龑P?;但「污染詞元」,甚至不需要引導,AI 自己就亂了套。

什么是「污染詞元」,它遵循「3U 原則」:即從主流中文語言學的角度看,這些詞元是不受歡迎的(Undesirable)、不常見的(Uncommon),或是無用的(Useless)

目前主要包括成人內(nèi)容、在線賭博、在線游戲(特指私服等灰色服務)、在線視頻(常與盜版和色情內(nèi)容關聯(lián))以及其他難以歸類的異常內(nèi)容。


大語言模型分詞過程

那「詞元」又是什么東西?和我們理解一段話不同,AI 會把一個句子分成多個「詞元」,也叫 Token。你可以把它想象成 AI 專屬的一本《新華字典》,而詞元(Token)就是這本字典里的一個個「詞條」。

AI 在理解我們說的話時,一開始就需要先去翻這本字典。而字典的編纂者,是一種叫 BPE(字節(jié)對編碼技術) 的分詞算法。它判斷一個詞組,是否有資格被收錄為獨立詞條的唯一標準,就是出現(xiàn)頻率

這意味著這個詞組越常見,就越有資格成為一個獨立詞元。

你或許能理解,這兩年大語言模型流量正攀升的時候,豆包和稀土掘金曾經(jīng)像是「瘋了」一樣,把自己平臺 AI 生成的大量內(nèi)容放到互聯(lián)網(wǎng)上,提高自己的出現(xiàn)頻率。以至于那段時間,用谷歌搜索,還有 AI 總結(jié),引用的來源都是豆包和掘金。

現(xiàn)在,我們再來看研究人員的發(fā)現(xiàn)。他們通過 OpenAI 官方開源的 tiktoken 庫,獲取了 GPT-4o 的詞匯庫,結(jié)果發(fā)現(xiàn),里面塞滿了大量的污染詞條。


長中文詞元,全是需要打碼的內(nèi)容。

超過 23% 的長中文詞元(即包含兩個以上漢字的詞元)都與色情或網(wǎng)絡賭博有關。這些詞元不僅僅是「波*野結(jié)衣」,還包括了大量普通人一眼就能認出的灰色詞匯,例如:

在線賭博類:「大*快三」、「菲律賓申*」、「天天中*票」。在線游戲(私服)類:「傳奇*服」。隱蔽的成人內(nèi)容類:除了名人,還有像「青*草」這樣表面正常,實則指向色情軟件的詞匯。

這些詞元,因為在訓練數(shù)據(jù)中出現(xiàn)頻率極高,被算法自動識別并固化為模型的基本構(gòu)成單位。

AI 吃了垃圾食品但不能消化

按理說,既然這些污染詞元,它們的語料庫是如此豐富,應該也能正常訓練。

怎么就現(xiàn)在只要一跟 ChatGPT 聊到這些污染詞元,ChatGPT 就 100% 出現(xiàn)幻覺呢?

像是下面我們測試的這個例子,要 ChatGPT 5 翻譯這句話,它完全沒有辦法正確理解,這個北京賽車群也是無中生有。


其實不難理解,回到我們之前提到的「詞元 Token」,我們說 AI 從互聯(lián)網(wǎng)上讀取數(shù)萬億詞元的海量數(shù)據(jù),一些集中、且反復地一起出現(xiàn)(頻率高)的詞語就能成為一個單獨的詞元。

AI 通過這些詞元,來建立對文本理解的基礎。它知道了這些 Token 是出現(xiàn)頻繁、有可能相關,但不知道它們是什么意思。繼續(xù)拿字典舉例子,這些高頻污染詞在字典里,但是字典給不出解釋。

因為 AI 在這個階段,學到的只是一種原始的、強烈的「肌肉記憶」,它記住了 A 詞元總是和 B 詞元、C 詞元一起登場,在它們之間建立了緊密的統(tǒng)計關聯(lián)。

等到正式的訓練階段,大部分 AI 都會經(jīng)過清洗 + 對齊(alignment)。這時,污染內(nèi)容往往被過濾掉,或者被安全策略壓制,不會進入強化學習/微調(diào)。

不良內(nèi)容的過濾,就導致了污染詞元沒有機會被正式、正確地訓練。它們因此成了「欠訓練」(under-trained)的詞元。

另一方面,這些詞元雖然「高頻」,但它們大多出現(xiàn)在語境單一、重復的垃圾信息中(例如一些廣告網(wǎng)頁頭尾橫幅),模型根本學習不到任何有意義的「語義網(wǎng)絡」。

最終的結(jié)果就是,當我們輸入一個污染詞元時,AI 的語義模塊是空白的,因為它在正式訓練階段沒學過這個詞。于是,它只能求助于第一階段學到的「肌肉記憶」,直接輸出與之關聯(lián)的其他污染詞元。


論文中案例:當輸入涉及 PoC 詞語時,GPT-4.5、4.1 和 4o 的輸出。GPT 無法解釋或重復 PoC 標記。

這就解釋了開頭,當被要求一個可能是色情的詞元「給主人留下些什么吧」時,GPT 可能會回復一個不相關的類似污染內(nèi)容詞元「黑*戰(zhàn)」、以及一些看不懂的符號。在用戶看來,這就是莫名其妙的幻覺。

以及下面這個要求 ChatGPT 解釋「大發(fā)展有限公司官網(wǎng)」,回復的內(nèi)容根本是亂來。


總結(jié)一下,污染 Token 出現(xiàn)頻繁 ≠ 有效學習。它們集中在臟網(wǎng)頁的角落、缺乏正常上下文,而在后續(xù)訓練和對齊階段又被壓制,結(jié)果就是 詞表固化了垃圾,但語義訓練缺失。

這也導致了我們?nèi)粘T谑褂?AI 的時候,如果意外有涉及到相關的詞語,AI 會沒有辦法正確處理,甚至還有人通過這種方法,繞過了 AI 的安全監(jiān)管機制。

這是可以被量化的幻覺原因

既然如此,為什么不在預訓練的時候就把這些臟東西篩掉呢?

道理都懂,但做起來太難了。互聯(lián)網(wǎng)的原始數(shù)據(jù)量級之大,現(xiàn)有的清理技術根本不可能把它們一網(wǎng)打盡。

而且很多污染內(nèi)容非常隱蔽。就像「青*草」這個詞,本身看起來完全綠色健康小清新,任何簡單的關鍵詞過濾系統(tǒng)都會放過它。只有通過搜索引擎,才會發(fā)現(xiàn)它指向的是什么。

連 Google 這種搜索引擎巨頭都搞不定這些「內(nèi)容農(nóng)場」,更別說 OpenAI 了。

我前段時間想用 AI 整理一下廣州有哪些好玩的地方,然后發(fā)現(xiàn) AI 引用的一篇文章來源,是另一個 AI 賬號生成的文章。

一時間,我都有點分不清,究竟是我們每天搜索「波多野結(jié)衣」搞臟了 AI,還是 AI 生成的垃圾正在污染我們的內(nèi)容環(huán)境。這簡直就是個先有雞還是先有蛋的問題。


標記方法

為了搞清楚這盆水到底有多渾,研究團隊開發(fā)了兩個工具:

1.POCDETECT:一個 AI 污染檢測工具。它不只看字面意思,還會自己上網(wǎng) Google,分析上下文,堪稱 AI 界的「鑒黃師」。

利用這個工具,研究團隊對 9 個系列、共 23 個主流 LLM 進行了檢測,結(jié)果發(fā)現(xiàn)污染問題普遍存在,但程度各不相同。除了 GPT 系列以 46.6% 的長中文詞元污染率遙遙領先外,其他模型的表現(xiàn)如下:


不同大語言模型中,中文詞匯表中 PoC 詞元的數(shù)量(比例 %)(一個詞元包含超過兩個漢字)。Qwen 系列 為 1.00%。GLM4 和 DeepSeek-V3 的表現(xiàn)則相當不錯,分別只有 0.25% 和 0.17%。

最值得關注的是,GPT-4、GPT-4-turbo 和 GPT-3.5 這些模型的詞匯庫中,污染詞元數(shù)量為 0。這可能意味著它們的訓練語料經(jīng)過了更徹底的清理。

所以當我們拿著前面那些,讓 ChatGPT 開啟了胡編亂造模式的問題,給這些模型再問一遍時,確實沒再出現(xiàn)幻覺,但是直接忽略了。


2.POCTRACE:一個能通過詞元 ID 反推其出現(xiàn)頻率的工具。原理很簡單,在分詞算法里,詞元的 ID 號越靠前,說明它在訓練數(shù)據(jù)里出現(xiàn)得越多。

關于文章開頭我們提到的 2.6 倍,就是通過這個工具進行計算得到的。

在 GPT 的海量詞匯庫中,能夠被完整收錄為一個獨立詞元的人名鳳毛麟角,除了「特朗普」(Donald Trump)這樣的世界級公眾人物,就剩下極少數(shù)特例,而「波*野結(jié)衣」就是其中之一。

更令人驚訝的是,不僅是全名,甚至連它的子序列,如「野結(jié)衣」、「野結(jié)」也都被單獨做成了詞元。這在語言學上是一個極強的信號,表明這個詞組在訓練數(shù)據(jù)中的出現(xiàn)頻率達到了一個恐怖的量級。


將與「波*野結(jié)衣」相關的網(wǎng)頁以及作者估計的比例(0.5%)混合,可以重現(xiàn) GPT-4o 中「波*野結(jié)衣」的標記 ID 及其子序列。

他們輸入「波*野結(jié)衣」(Token ID 185,946)和「您好」(Token ID 188,633)的 ID 號,最終得出了那個驚人的結(jié)論,前者的頻率估算值約為后者的 2.6 倍。

研究人員推斷,與「波*野結(jié)衣」相關的中文網(wǎng)頁,可能占據(jù)了整個中文訓練數(shù)據(jù)集的 0.5%。

為了驗證,他們真的按這個比例「投毒」了一個干凈的數(shù)據(jù)集,結(jié)果生成的詞元ID和 GPT-4o的驚人地接近。

這幾乎是實錘了。

但很顯然不是每個污染詞源都需要出現(xiàn)這么多次,有些時候,幾篇文章(甚至可能是 AI 寫的),反反復復地提到,AI 就記住了,然后在下次我們問他的時候,給出一個根本不知道真假的答案。


添加一個對抗樣本,AI 能把雪山識別成一只狗

當我們和 AI ,都在「垃圾堆」里沖浪

為了應對數(shù)據(jù)污染,大家也確實都想了很多辦法。

財新網(wǎng)就很聰明,在自己的文章頁面里用代碼「偷偷」藏了一句話,好讓 AI 在搬運內(nèi)容時,能老老實實保留原文鏈接。Reddit、Quora 等社區(qū)也曾嘗試限制 AI 內(nèi)容。


但面對數(shù)據(jù)污染的汪洋大海,這些行為顯然都只是螳臂當車。

就連奧特曼自己都發(fā)文感慨,X(推特)上的 AI 賬號泛濫成災,我們得認真思考「互聯(lián)網(wǎng)已死」這種論調(diào)了。


而我們這些普通用戶,看起來更是別無他法,每天被迫接受著垃圾信息的輪番攻擊。馬斯克老說 AI 是個無所不知的「博士」,沒想到它背地里天天都在「垃圾堆」里翻東西吃。

有人說,這是中文語料庫的問題,用英文 Prompt 模型就會變聰明。Medium 上有作者統(tǒng)計過統(tǒng)計了每種語言的 100 個最長 token,中文全是我們今天聊的這些色情、賭博網(wǎng)站的廣告詞。

而英文的分詞和中文不同,它只能統(tǒng)計單詞,所以都是一些較長的專業(yè)性、技術類單詞;日文和韓文都是禮貌性、商業(yè)服務類詞語。





向左滑動查看更多內(nèi)容

這十分令人感慨。AI 的能力,除了靠算力和模型堆砌,更深層次的,還是它吃進去的數(shù)據(jù)。如果喂給 AI 的是垃圾,那無論它的算力多強、記憶力多好,最終也只會變成一個「會說人話的垃圾桶」。

我們總說,希望 AI 越來越像人類。現(xiàn)在看來,某種程度上確實是實現(xiàn)了:我們把互聯(lián)網(wǎng)這個大垃圾場里的東西源源不斷投喂給它,它也開始原封不動地回敬給我們。

如果我們給一個 AI 造一個信息繭房,讓它在「無菌環(huán)境」中長大,它的智能也是脆弱的、經(jīng)不起考驗的。一個孩子如果只被允許接觸教科書里的經(jīng)典課文,他永遠無法應對生活里五花八門的口語和俚語。


說到底,當 AI 對「波多野結(jié)衣」比對「您好」更熟悉時,它不是在墮落,而是提醒了我們:它的智能,依然只是統(tǒng)計學上的概率,而非文明意義上的認知。

這些污染詞元就像一面放大鏡,它將 AI 在語義理解上的缺失,以一種荒誕方式呈現(xiàn)在我們面前。AI 離「像人一樣思考」,還差著最關鍵的一步。

所以,我們真正應該害怕的,不是 AI 被污染,而是害怕在 AI 這面過于清晰的鏡子里,看到了我們自己創(chuàng)造的、卻又不愿承認的那個骯臟的數(shù)字倒影。

歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
我在工地和女子做了3年臨時夫妻,分別那天她拉住我:可以留下嗎

我在工地和女子做了3年臨時夫妻,分別那天她拉住我:可以留下嗎

農(nóng)村情感故事
2025-09-04 19:58:46
中方放行,菲軍方成功完成補給之際,小馬科斯猝不及防的哭了

中方放行,菲軍方成功完成補給之際,小馬科斯猝不及防的哭了

荷蘭豆愛健康
2025-09-08 04:11:34
1945年日本戰(zhàn)敗,蔣介石放過岡村寧次,為何卻非殺酒井隆不可?

1945年日本戰(zhàn)敗,蔣介石放過岡村寧次,為何卻非殺酒井隆不可?

朝夕說史
2025-09-03 09:52:38
街頭無規(guī)則限制,散打高手打得過身經(jīng)百戰(zhàn)的地痞流氓嗎?網(wǎng)友解密

街頭無規(guī)則限制,散打高手打得過身經(jīng)百戰(zhàn)的地痞流氓嗎?網(wǎng)友解密

帶你感受人間冷暖
2025-08-30 00:20:05
3K屏!華為新機官宣:9月12日,重磅開售!

3K屏!華為新機官宣:9月12日,重磅開售!

科技堡壘
2025-09-07 09:16:30
姜某澤再次發(fā)聲,父親的財產(chǎn)要重新分配,他要公道,圖的不是房產(chǎn)

姜某澤再次發(fā)聲,父親的財產(chǎn)要重新分配,他要公道,圖的不是房產(chǎn)

子芫伴你成長
2025-09-07 22:09:16
央視點名!閱兵女機長身份曝光,私生活被扒犧牲太大,夫妻倆都是機長

央視點名!閱兵女機長身份曝光,私生活被扒犧牲太大,夫妻倆都是機長

荷蘭豆愛健康
2025-09-06 09:32:27
家庭令人痛心的地方,不是沒錢花,是子女三十歲了還在做這些事情

家庭令人痛心的地方,不是沒錢花,是子女三十歲了還在做這些事情

AGINightingale
2025-09-08 07:00:21
8年斂財14個億,一頓飯吃82萬,“金融才女”朱麗麗今下場如何?

8年斂財14個億,一頓飯吃82萬,“金融才女”朱麗麗今下場如何?

時尚的弄潮
2025-08-26 18:54:14
俄方失算!西安430廠如何讓AL-31F技術轉(zhuǎn)讓成克里姆林宮的戰(zhàn)略反噬?

俄方失算!西安430廠如何讓AL-31F技術轉(zhuǎn)讓成克里姆林宮的戰(zhàn)略反噬?

音樂時光的娛樂
2025-09-07 10:33:56
金剛750外賣神車實測:續(xù)航182公里,騎手日賺80元只需3260元!

金剛750外賣神車實測:續(xù)航182公里,騎手日賺80元只需3260元!

劉哥談體育
2025-09-08 00:20:58
已婚少婦出軌小14歲男模,七夕節(jié)又和其他人睡,被男模找上家

已婚少婦出軌小14歲男模,七夕節(jié)又和其他人睡,被男模找上家

社會醬
2025-09-07 16:18:52
3-0!前北京國安超新星梅開二度贏賽點,漢超江漢將與江岸爭第一

3-0!前北京國安超新星梅開二度贏賽點,漢超江漢將與江岸爭第一

體育世界
2025-09-08 01:47:19
發(fā)現(xiàn)俄軍無人機是廣東貨,烏克蘭人氣瘋了,威脅要把仗打到廣深去

發(fā)現(xiàn)俄軍無人機是廣東貨,烏克蘭人氣瘋了,威脅要把仗打到廣深去

華山穹劍
2025-09-05 21:21:54
廣州的廖一帆爸爸火了,因為他揭開了家委會的真相

廣州的廖一帆爸爸火了,因為他揭開了家委會的真相

清暉有墨
2025-09-05 19:24:18
娛記:亞馬爾私下非常放縱,以至僅13天就和女友感情破裂

娛記:亞馬爾私下非常放縱,以至僅13天就和女友感情破裂

雷速體育
2025-09-07 17:49:56
趙麗穎兒子上小學啦!麗穎親自陪想想報到馮紹峰也在,都好愛兒子

趙麗穎兒子上小學啦!麗穎親自陪想想報到馮紹峰也在,都好愛兒子

小欣欣聊體育
2025-09-07 12:18:52
難以相信!她已經(jīng)61歲了,看起來竟然像三四十歲的樣子!

難以相信!她已經(jīng)61歲了,看起來竟然像三四十歲的樣子!

草莓解說體育
2025-08-29 05:54:09
納達爾:阿爾卡拉斯能打出辛納無法達到的水平,但也更容易犯錯

納達爾:阿爾卡拉斯能打出辛納無法達到的水平,但也更容易犯錯

直播吧
2025-09-07 09:00:01
去羨慕吧!孫楊是婚姻上的大贏家,國內(nèi)體壇明星沒有誰比他娶得好

去羨慕吧!孫楊是婚姻上的大贏家,國內(nèi)體壇明星沒有誰比他娶得好

科學發(fā)掘
2025-09-07 12:35:52
2025-09-08 07:39:00
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
5649文章數(shù) 26641關注度
往期回顧 全部

科技要聞

特斯拉開通TeslaAI官方微博,展示人形機器人

頭條要聞

石破茂上任不到一年即宣布辭職 透露自己的"最大遺憾"

頭條要聞

石破茂上任不到一年即宣布辭職 透露自己的"最大遺憾"

體育要聞

千帆過盡,薩巴倫卡終于成為水泥叢林女王

娛樂要聞

辛芷蕾奪得威尼斯影后打臉了五個人

財經(jīng)要聞

曾負債超200億元,知名車企宣布:馬上復產(chǎn)!

汽車要聞

又一批造車者蠢蠢欲動 “幸存者游戲”有何魔力

態(tài)度原創(chuàng)

藝術
房產(chǎn)
健康
游戲
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產(chǎn)要聞

實景驚艷+名校護航!這個項目,正在重新定義白云改善新高度!

內(nèi)分泌科專家破解身高八大謠言

《絲之歌》現(xiàn)象級發(fā)售只是"前菜" GTA6將引爆行業(yè)

軍事要聞

防御"利刃"出鞘:反無人機強大"鐵三角"

無障礙瀏覽 進入關懷版 亚洲高潮喷水无码AV电影| 欧美性xxxxx极品少妇| 99精品久久| 北京少妇和黑人久精品| 国产无码av一二三区| av永久免费网站在线观看| 18禁成人免费无码网站| 亚洲国产美女精品久久久| 国产99在线 | 免费| 美女又黄又免费的视频| 日韩内射美女人妻一区二区三区| 国产乱久久亚洲国产精品| 久久中文字幕人妻熟av女| 亚洲精品入口一区二区乱麻豆精品| 亚洲欧洲韩国精品午夜在线观看| 亚洲精品有限| www.99热国产粉嫩| AV网站在线播放| 无码一区在线观看| 精品国产一区二区三区久久久狼| 亚洲AVXXXX在线观看| 玩弄放荡人妻少妇系列| 成人毛片一区二区三区无码| 爱网站不卡一本久久| 青青草原国产一区二区| 密桃AV无码狠狠干一区二区| A黄色亚洲成人內褲被發 現上門來懲亚洲 无码 | 亚洲无码蜜乳| 丰满少妇被粗大猛进人高清| 美腿丝袜亚洲综合第一页| 狠狠干性爱影院第一页| 国产激情小说| 国产精品成人免费视频网站| 亚洲av网页| 美女黄片视频在线播放| 欲色影视天天一区二区三区色香欲 | 久久久久亚洲AV成人人电影按摩| 色人妻超碰| 国产精品久久久裸体| 国产精品尹人在线观看| 久久久久久婷婷|