聞樂 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
AI還在想盡辦法搜刮互聯(lián)網(wǎng)數(shù)據(jù),這一回是偷偷利用互聯(lián)網(wǎng)檔案館?!
最近,Reddit平臺發(fā)現(xiàn),AI公司正利用Wayback Machine的存檔,巧妙繞過常規(guī)的數(shù)據(jù)獲取限制,偷偷扒取大量數(shù)據(jù)用于模型訓練
互聯(lián)網(wǎng)檔案館的Wayback Machine是公益性的數(shù)字存檔工具,旨在保存網(wǎng)頁歷史版本。
AI公司發(fā)現(xiàn)通過借助Wayback Machine開放性的特點抓取Reddit的歷史數(shù)據(jù),既無需遵守Reddit的付費、合規(guī)協(xié)議等政策,又能獲取訓練所需的大量內(nèi)容。
于是,互聯(lián)網(wǎng)檔案館就成了AI公司的“最佳數(shù)據(jù)后門”。
Reddit堅決抵制數(shù)據(jù)濫用
前情提要,此前Reddit為保護數(shù)據(jù)權(quán)益,對AI公司的直接抓取數(shù)據(jù)行為設(shè)置了嚴格限制。
若公司愿意付費則愿意提供數(shù)據(jù),比如Reddit與谷歌達成數(shù)據(jù)交易,僅向這種付費合作方開放數(shù)據(jù),還對搜索引擎爬取數(shù)據(jù)設(shè)置付費門檻。
但對于未經(jīng)許可的數(shù)據(jù)抓取行為,尤其是AI訓練濫用的情況,Reddit堅決抵制。
這也是其2023年進行API更改的原因:由于AI公司濫用API進行數(shù)據(jù)抓取用于模型訓練,于是它們調(diào)整了API政策導致部分第三方應(yīng)用關(guān)閉。
此外,Reddit還與OpenAI有合作,然而在6月,Reddit卻起訴了Anthropic。
原因是Anthropic在宣稱停止抓取數(shù)據(jù)后仍在Reddit上抓取。
這正是為啥AI公司開始想歪招了——
Internet Archive即互聯(lián)網(wǎng)檔案館,它是一個非營利性數(shù)字圖書館,致力于提供數(shù)字資料的永久性免費存儲及獲取服務(wù)。
它的數(shù)據(jù)一部分由公眾上傳,大部分由自帶的網(wǎng)絡(luò)爬蟲自動搜集,盡可能保存公開的網(wǎng)頁信息。
Wayback Machine是Internet Archive最廣為人知的服務(wù),能抓取并保存大量網(wǎng)頁,用戶借助它可查看網(wǎng)頁的歷史快照。
它自1996年開始緩存網(wǎng)頁,在2001年推出時已存檔超100億個頁面。
Wayback Machine作為一個公益性的數(shù)字存檔工具,本身就具有開放性,但這也給了部分AI公司可乘之機。
AI公司發(fā)現(xiàn)通過Wayback Machine抓取Reddit的歷史數(shù)據(jù),既無需遵守Reddit的平臺政策(如付費、合規(guī)協(xié)議),又能獲取訓練所需的大量內(nèi)容,于是就利用這一漏洞開始了違規(guī)“曲線獲取數(shù)據(jù)”的行為。
這些AI公司的爬蟲程序在Wayback Machine的存檔中肆意穿梭,抓取Reddit上的帖子、評論、用戶資料等關(guān)鍵信息。
這種“曲線抓取數(shù)據(jù)”的行為,不僅侵犯了平臺的權(quán)益和用戶的隱私,還打破了數(shù)據(jù)獲取與使用的規(guī)則平衡。
Reddit發(fā)言人Tim Rathschmidt透露,盡管互聯(lián)網(wǎng)檔案館旨在開放網(wǎng)絡(luò),但AI公司的此類抓取行為嚴重違反了平臺政策,危及用戶隱私,還可能導致已刪除內(nèi)容的泄露。
Reddit并非唯一受害者,F(xiàn)acebook(現(xiàn)Meta)、Twitter(現(xiàn)X)等均曾明確限制第三方爬蟲抓取用戶內(nèi)容,尤其禁止將數(shù)據(jù)用于AI訓練,但仍有AI公司試圖通過緩存站點、鏡像網(wǎng)站等間接渠道獲取數(shù)據(jù)。
面對這一亂象,Reddit已經(jīng)宣布限制Wayback Machine對其內(nèi)容進行索引,僅允許抓取主頁,帖子詳情、評論及用戶資料等頁面均被禁止訪問
為此,Wayback Machine的負責人Mark Graham在接受采訪時表示:
我們與Reddit有著長期的合作關(guān)系,并且將繼續(xù)就此事進行討論。
實際上不只Wayback Machine,有網(wǎng)友發(fā)現(xiàn)Reddit對任何非住宅IP都有數(shù)據(jù)封鎖。
但也有人認為這是Reddit是試圖通過數(shù)據(jù)交易獲取利益,但一手交錢一手交數(shù)據(jù)看上去也挺公平的……
不管怎么說,數(shù)據(jù)所有權(quán)、使用邊界與AI訓練需求之間的沖突正在悄悄升級。
[1]https://www.theverge.com/news/757538/reddit-internet-archive-wayback-machine-block-limit
[2]https://news.ycombinator.com/item?id=44866698
— 完 —
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.