作者 | 王詩棋 何苗
采訪 | 王啟隆 Eric Wang
出品丨GOSIM 開源創(chuàng)新匯
從語言學(xué)跨界到自然語言處理(NLP),Catherine Arnett 深刻體會到,多語言背景帶來的思維多樣性,正在為多語言模型的構(gòu)建開辟全新路徑。
作為 EleutherAI 的 NLP 研究員,Catherine 起初在愛丁堡大學(xué)主修中文與語言學(xué)。一次偶然的導(dǎo)師更替,引導(dǎo)她從傳統(tǒng)語言學(xué)研究轉(zhuǎn)向語言模型的計算探索,由此踏上了跨越語言與技術(shù)邊界的研究之路。
她精通英語、西班牙語、法語和漢語,對語言的結(jié)構(gòu)差異與共性有著敏銳的感知。在深入多語言自然語言處理的過程中,Catherine 提出了一個具有啟發(fā)性的重要概念——“字節(jié)溢價”(byte premium)。她發(fā)現(xiàn):即使是字節(jié)數(shù)相同的文本,不同語言中所承載的“有效信息密度”卻可能差異顯著。這一現(xiàn)象揭示了語言結(jié)構(gòu)對模型輸入效率的深層影響,并為多語言模型性能優(yōu)化提供了新的理論視角。
圍繞這一發(fā)現(xiàn),Catherine 及其團隊于去年訓(xùn)練了名為“Goldfish”的小型語言模型系列,參數(shù)量約為 1 億,覆蓋多達 350 種語言進行預(yù)訓(xùn)練。令人驚訝的是,這些輕量級模型在部分基準測試中,表現(xiàn)甚至超越了如 Llama-8B 等參數(shù)規(guī)模高達數(shù)十億的主流多語言大模型。
另一方面,Catherine 一直秉持著知識開放共享的信念。她深信,只有在開放協(xié)作的環(huán)境下,結(jié)合對語言和文化多樣性的尊重,才能培育出真正公平而強大的語言模型。帶著這樣的熱忱和洞見,在本期 Open AGI Forum 訪談中,Catherine 與我們分享了她在語言領(lǐng)域跨界求索的心路歷程,以及對多語言模型未來發(fā)展的獨到見解。
“多語言的詛咒”本質(zhì)上源于模型容量受限。當單一架構(gòu)試圖覆蓋所有語言時,反而可能影響效果。與其如此,不如為每種語言量身打造小而精的模型,將“詛咒”轉(zhuǎn)化為優(yōu)勢。
多語言模型評估缺乏有效基準是當前最大的障礙之一,必須開發(fā)真正具備文化敏感度的高質(zhì)量評估體系。
高層次的語法結(jié)構(gòu)是否會影響語言模型的學(xué)習(xí)效果?實驗結(jié)果顯示,模型性能的差距并不主要由這些特征造成,更可能取決于數(shù)據(jù)集的規(guī)模。
科學(xué)本應(yīng)是開放的。如果無法獲取模型權(quán)重和訓(xùn)練數(shù)據(jù),所做的就不能稱之為真正的科學(xué)。
以下為訪談實錄:
跨越語言邊界:從語言學(xué)到 NLP 的探索之路
Eric Wang:非常感謝 Catherine 接受 GOSIM 的采訪。能否先請你做一個簡要自我介紹?
Catherine Arnett:大家好,我是 Catherine Arnett,目前在 EleutherAI 擔(dān)任自然語言處理研究員。最近我剛從加州大學(xué)圣地亞哥分校獲得語言學(xué)博士學(xué)位,研究方向聚焦在多語言自然語言處理。
Eric Wang:你擁有非常獨特的學(xué)術(shù)背景——最初在愛丁堡大學(xué)攻讀的是中國研究與語言學(xué)雙學(xué)位,和現(xiàn)在從事的 NLP 工作看似相距甚遠。能否談?wù)劗敵跏鞘裁次阕哌M語言學(xué)的世界?又是什么促使你選擇學(xué)習(xí)漢語這樣一門語言?
Catherine Arnett:我從小就對語言很感興趣。小時候曾在一所西班牙語學(xué)校就讀,后來又學(xué)習(xí)了拉丁語等其他語言,這些經(jīng)歷讓我對語言本身產(chǎn)生了濃厚的興趣。上大學(xué)時,我希望挑戰(zhàn)自己學(xué)習(xí)一種完全陌生的語言,最后選擇了漢語。我覺得漢語非常有趣,這一選擇也無意間為未來的發(fā)展指明了方向。
Eric Wang:也就是說,你當時已經(jīng)掌握了西班牙語、法語和漢語。在學(xué)習(xí)漢語的過程中,有沒有遇到哪些特別的挑戰(zhàn)或讓你印象深刻的趣事?
Catherine Arnett:最吸引我的是漢語獨特的書寫系統(tǒng)。我最初花了大量時間練習(xí)讀寫,一筆一畫地臨摹和記憶漢字。這種學(xué)習(xí)體驗對我而言既新鮮又充滿挑戰(zhàn)。
Eric Wang:你精通多種語言的背景是否在潛移默化中影響了你對語言本質(zhì)的理解?
Catherine Arnett:當然。學(xué)習(xí)多種語言讓我逐步建立起“多語言視角”。像漢語這樣與英語差異極大的語言,讓我不禁思考語言之間的結(jié)構(gòu)差異,以及這些差異如何影響語言學(xué)習(xí)、語言技術(shù)開發(fā)和語言模型的構(gòu)建。
Eric Wang:你在個人主頁上提到自己曾在中國旅行,是否可以分享一下當時的經(jīng)歷?這些旅行是短期的,還是較為長期的生活體驗?
Catherine Arnett:我曾在杭州生活過一個學(xué)年。在沒有課程安排的時間,就利用空余時間去全國各地旅行,體驗不同城市的文化和風(fēng)貌。中國地大物博、歷史悠久,這段生活經(jīng)歷讓我對語言和文化有了更深層次的理解,也成為我人生中非常寶貴的一段回憶。
Eric Wang:后來你選擇赴加州大學(xué)圣地亞哥分校攻讀語言學(xué)博士,并轉(zhuǎn)向計算社會科學(xué)方向。從傳統(tǒng)語言研究轉(zhuǎn)向計算方法的轉(zhuǎn)變,是如何發(fā)生的?
Catherine Arnett:其實這個轉(zhuǎn)變并非一蹴而就。最初我研究的是心理語言學(xué),關(guān)注人類如何處理和產(chǎn)出語言。通過行為實驗研究語言理解機制,我當時具體研究的是漢語中的“重疊”現(xiàn)象。隨著研究深入,我開始思考是否能將心理語言學(xué)的研究方法運用到語言模型的研究中去,并從漢語擴展到其他語言,這也逐漸引導(dǎo)我走入了計算語言學(xué)的世界。
Eric Wang:那么,真正促使你進入 NLP 領(lǐng)域的契機是什么?
Catherine Arnett:當時由于導(dǎo)師更替,我的研究方向也發(fā)生了一些調(diào)整。之后我去參觀了學(xué)校認知科學(xué)系的幾個實驗室,其中一個實驗室每周會組織論文研討,討論的內(nèi)容多與語言模型相關(guān)。我努力跟上他們的閱讀節(jié)奏,漸漸地我對模型的內(nèi)部機制產(chǎn)生了濃厚興趣,很多問題也隨之浮現(xiàn)。這些經(jīng)歷推動我逐步投身于 NLP 研究。
Eric Wang:我最初接觸 NLP 時正值“AI 寒冬”,當時業(yè)內(nèi)普遍認為“NLP 已死,沒有未來”。在你的觀察中,NLP 是如何一步步發(fā)展至今天這個階段的?
Catherine Arnett:我真正開始關(guān)注 NLP 是在 2021 年。當時 GPT-3 已經(jīng)發(fā)布,但 ChatGPT 尚未出現(xiàn),尚未引發(fā)如今的巨大影響力。盡管那時的模型在自然性和說服力上還存在明顯差距,但它們已經(jīng)顯現(xiàn)出強大的潛力。這也讓我們開始提出諸如“這些系統(tǒng)如何理解語言”“它們是如何學(xué)習(xí)語言”的基礎(chǔ)性問題。
Eric Wang:你扎實的語言學(xué)理論背景是否幫你在自然語言處理領(lǐng)域解決過一些關(guān)鍵問題?
Catherine Arnett:是的。今年早些時候我在國際計算語言學(xué)會議(COLING)上發(fā)表了一篇論文,研究語言類型學(xué)中的一些關(guān)鍵特征,例如高層語法結(jié)構(gòu)是否會影響語言模型的學(xué)習(xí)效果。之前已有研究提出這些特征可能對模型表現(xiàn)產(chǎn)生影響,這是我一直關(guān)注的方向。因此我設(shè)計了一系列系統(tǒng)實驗。最終結(jié)果顯示,盡管語言特征間確實存在差異,但模型表現(xiàn)的差距主要還是受數(shù)據(jù)規(guī)模影響,而非語言本身的類型特征。
“字節(jié)溢價”:多語言模型訓(xùn)練中的隱性瓶頸與新視角
Eric Wang:你在研究中提出了“字節(jié)溢價”(Byte Premium)這一非常關(guān)鍵且具有新意的概念。能否用通俗的方式向我們的觀眾解釋一下?
Catherine Arnett:我們最初的研究目標,是想找到一種方法,讓不同語言的數(shù)據(jù)集規(guī)??梢栽跇藴驶那疤嵯逻M行比較。這個概念的提出,源于我們在觀察中發(fā)現(xiàn):在 UTF-8 編碼下,不同語言的字符所占用的字節(jié)數(shù)存在明顯差異。舉例來說,拉丁字母的字符通常只占用 1 個字節(jié),而中文字符則需要 2 至 3 個字節(jié),像緬甸文、高棉文等語言的字符甚至可能需要 3 到 4 個字節(jié)。 這意味著,同樣大?。ò醋止?jié)計)的文本,在不同語言中所包含的“有效語言信息”并不一致。我們稱這種差異為“字節(jié)溢價”(Byte Premium)。具體來說,比如用 1GB 的中文文本訓(xùn)練模型,由于每個字符占用更多字節(jié),模型實際接收到的有效信息可能只有原始量的一半甚至更少。這一現(xiàn)象在超大規(guī)模的多語言模型中尤為明顯,也在一定程度上解釋了我們觀察到的性能瓶頸。
Eric Wang:在你提出“字節(jié)溢價”之前,學(xué)術(shù)界通常是如何衡量多語言數(shù)據(jù)集規(guī)模的?
Catherine Arnett:過去,大多數(shù)研究者都是以 token 數(shù)量來衡量數(shù)據(jù)集規(guī)模的。在像 XGLM 這樣的多語言模型技術(shù)報告中,雖然偶爾也會使用字節(jié)數(shù)或 GB 作為單位,但主流做法仍是以 token 總數(shù)為基準。畢竟 token 數(shù)不僅直接關(guān)系到訓(xùn)練過程中的步數(shù),也便于調(diào)控訓(xùn)練參數(shù)。
不過我們后來決定放棄這一做法,主要原因是我們當時需要在訓(xùn)練分詞器之前就確定各語言的數(shù)據(jù)量,而在分詞器還未生成的情況下,token 數(shù)是無法準確統(tǒng)計的。這個起初看似只是個技術(shù)細節(jié),沒想到最后竟成為一個完整的研究課題。
Eric Wang:在實際模型開發(fā)中引入“字節(jié)溢價”概念時,你認為最大的挑戰(zhàn)是什么?
Catherine Arnett:與其說是挑戰(zhàn),不如說是我們?nèi)栽谂獯鸬囊恍﹩栴}。比如,在訓(xùn)練時會根據(jù)不同語言的“字節(jié)溢價”調(diào)整數(shù)據(jù)的規(guī)模,但這又帶來了新的矛盾:隨著數(shù)據(jù)量的上調(diào),計算資源的消耗也會同步增長。
如果我們希望在計算資源不變的前提下進行跨語言的數(shù)據(jù)量調(diào)節(jié),那么如何在各語言間實現(xiàn)資源分配的公平性和實驗設(shè)置的一致性?目前這在工程層面上仍較難實現(xiàn),也是我們下一階段要重點解決的方向之一。
圖|Open AGI Forum 現(xiàn)場對談實錄(左:主持人王啟隆,右:嘉賓 Catherine Arnett)
數(shù)據(jù)稀缺與基準缺失,是多語言模型訓(xùn)練的真正瓶頸
Eric Wang:你在 GOSIM 大會上的演講主題,聚焦于尋找開放多語言大語言模型評估的最佳實踐。目前評估多語言大語言模型時,最迫切需要解決的問題是什么?
Catherine Arnett:整體而言,基準測試數(shù)據(jù)的缺乏確實是我眼下最大的挑戰(zhàn),所以我會更關(guān)注如何根據(jù)一些重要指標謹慎地挑選合適的評估基準。在評估的過程中,我經(jīng)常發(fā)現(xiàn)要么根本找不到可用的基準,要么現(xiàn)有的基準不符合最佳實踐標準。因此,目前在 EleutherAI,我的重要工作之一就是建立多語言評估體系,以幫助解決這個問題。
Eric Wang:那么關(guān)于基準測試,我們該如何確保評估指標真正反映出模型在現(xiàn)實世界中多語言情境下的實際能力,而不是讓模型只是鉆評測方法的空子,或針對特定的基準進行“作弊”呢?
Catherine Arnett:我認為關(guān)鍵在于采用多樣化的基準測試。我想強調(diào)的一點,是避免使用機器翻譯生成的基準測試,這非常重要,因為這會將機器翻譯中的噪音帶入評測過程。特別是對于那些低資源語言而言,機器翻譯的質(zhì)量通常很差,這種基準測試容易產(chǎn)生誤導(dǎo)。另外,還要確保實驗細節(jié)和結(jié)果報告盡可能精確,這樣在進行模型對比(例如模型選型)時,才能確保評測指標真實反映出你所關(guān)注的性能,并且能正確理解評測結(jié)果。
Eric Wang:明白了。那么對于那些低資源語言,在創(chuàng)建高質(zhì)量且具有文化敏感性的評估基準時存在哪些具體困難?社區(qū)又該如何協(xié)作來克服這些挑戰(zhàn)?
Catherine Arnett:這正是我們當前致力于攻克的核心問題。EleutherAI 擁有一個對所有人開放的 Discord 社區(qū),目前已有約三萬名成員。項目的關(guān)鍵在于推動大規(guī)模、跨機構(gòu)的國際合作。試想,如果我們要構(gòu)建一個覆蓋 10 種語言的數(shù)據(jù)集或評估體系,至少需要 10 位語言專家分別負責(zé)對應(yīng)語言,理想情況下還需要更多人參與。我們必須組建一支涵蓋多語言、多文化背景的專家團隊,才能真正理解在不同文化語境下什么才是“相關(guān)”或“重要”的內(nèi)容。如果缺乏與這些專家的深入合作,我個人其實很難掌握各類文化中的細微差異。
Eric Wang:這里提到的專家指的是 MoE(混合專家模型)還是真正的人類專家?
Catherine Arnett:我指的是人類專家。人類專家可以幫助我們理解現(xiàn)有的評估體系,判斷哪些內(nèi)容適合直接翻譯,哪些需要進行本地化調(diào)整。
Eric Wang:你研究的另一個重要課題探討了“多語言的詛咒”。這種“詛咒”具體體現(xiàn)在哪些方面呢?
Catherine Arnett:“多語言詛咒”指的是這樣一種現(xiàn)象:當模型加入了大量其他語言的數(shù)據(jù)后,目標語言的性能不但沒有提高,反而可能會變差。這通常是因為模型的容量已經(jīng)達到上限,無法同時有效地學(xué)習(xí)并表示所有語言的信息。我們在 GOSIM 會議上也反復(fù)討論過,比如像 Llama 這類大型多語言模型,其訓(xùn)練數(shù)據(jù)大約 95%都是英語,那么剩下的容量還能分配給其他語言多少呢?這些語言在數(shù)據(jù)集中本來就占比較少,模型能分配給它們的資源自然也有限。因此,這些都是在訓(xùn)練多語言模型時需要認真考慮的問題。
Eric Wang:模型容量在這個問題中起到什么作用?
Catherine Arnett:從根本上講,我們不可能用一個模型完美覆蓋所有語言。我甚至覺得,或許我們根本沒有足夠的數(shù)據(jù)支撐這樣的模型,而且即使不斷增大模型的規(guī)模,也未必能真正解決問題。相反,我們應(yīng)該專注于針對特定語言或小語種群體,設(shè)計更專門化的小模型,而不是試圖讓單個大模型同時兼顧所有語言。說到底,通過無限增大模型來解決所有語言問題是不現(xiàn)實的。
Eric Wang:也就是說各個國家可能都需要各自建立專門的語言模型和數(shù)據(jù)集,就像這次 GOSIM 提到的波蘭語數(shù)據(jù)集那樣?
Catherine Arnett:沒錯。我們的確需要針對每種語言開發(fā)專門的模型。不過這不一定意味著模型只能支持單一語言,但核心目標一定是最大化特定語言的表現(xiàn)。因為,雖然像 Llama 這樣的大模型也能生成波蘭語等非英語文本,但效果其實并不理想。
Eric Wang:那有沒有可能將這種“詛咒”變成一種優(yōu)勢?比如,通過某些特定的訓(xùn)練策略,在不同語言之間實現(xiàn)積極的知識遷移?
Catherine Arnett:當然可以。我們?nèi)ツ暝?EMNLP 大會上發(fā)表的一篇論文明確證實了這一點:對于低資源語言而言,多語言訓(xùn)練通常能帶來明顯的性能提升,我們將這種現(xiàn)象稱之為“多語言的祝?!?。具體來說,這些語言能夠有效地借助其他語言(尤其是與之接近的語言)的知識實現(xiàn)遷移學(xué)習(xí),從而改善模型的表現(xiàn)。而且,這種遷移并非必須依賴于英語,事實上,從與目標語言更相似的語言遷移,效果通常更為明顯。因此,我現(xiàn)在的一個研究重點,就是探索如何創(chuàng)造最佳條件,最大程度地發(fā)揮這種遷移的優(yōu)勢,以更好地解決許多語言面臨的數(shù)據(jù)不足問題。
Eric Wang:如果我們希望擴大模型覆蓋的語言種類,應(yīng)該如何避免或減輕“多語言詛咒”對特定語言,尤其是那些資源豐富或結(jié)構(gòu)獨特的語言帶來的負面影響?
Catherine Arnett:我認為,解決這個問題的關(guān)鍵是擺脫“用單一模型覆蓋所有語言”的思路。與其在像 Llama 這樣的大型模型基礎(chǔ)上做微調(diào),不如針對不同語言分別訓(xùn)練專門的模型,從頭開始優(yōu)化小模型的架構(gòu)與參數(shù),可能更為有效。事實上,我們?nèi)ツ昃陀?xùn)練了一系列參數(shù)量約一億的小模型,這些“小而精”的模型在某些任務(wù)上的表現(xiàn)甚至超過了參數(shù)規(guī)模大 80 倍的 Llama-8B,這充分證明了“小模型定制化”的潛力。
Eric Wang:“金魚”模型(Goldfish)?
Catherine Arnett:對,就是“金魚”模型。這種現(xiàn)象啟發(fā)我們重新思考:究竟在什么條件下才能真正讓模型達到最佳表現(xiàn)?也許我們應(yīng)該從規(guī)模更小的模型入手,從頭開始預(yù)訓(xùn)練,并以更高效的方式設(shè)置分詞器,而不是一開始就依賴現(xiàn)有的大型模型。
Eric Wang:在如今這個越來越被大型模型主導(dǎo)的時代,“金魚模型”這樣“小而美”的模型在研究和實際應(yīng)用中扮演了怎樣的角色呢?
Catherine Arnett:首先,小模型的出現(xiàn)極大降低了研究的門檻。最近我用“金魚模型”做實驗,僅用筆記本電腦不到兩小時就跑完了整個流程。這種體驗對于缺乏大型超算資源的研究者而言意義重大,說明即使在有限的計算條件下,我們依然可以做出非常有價值的研究。盡管小模型不是唯一的研究方向,但它很好地補充了大模型的研究,為我們提供了一種經(jīng)濟實用的實驗環(huán)境,既能避免高額計算資源的浪費,也能為未來更大規(guī)模的探索積累經(jīng)驗。
Eric Wang:在處理海量多語言數(shù)據(jù)時,你認為識別并消除偏見及有害信息的最大挑戰(zhàn)是什么?
Catherine Arnett:我認為多語言數(shù)據(jù)目前最大的問題主要體現(xiàn)在兩個方面:數(shù)據(jù)質(zhì)量和有害內(nèi)容。首先,語言識別的準確性問題至今依然沒有得到徹底解決,這也是我希望能有所貢獻的領(lǐng)域,目前 Common Crawl 項目就正在努力提升語言識別的準確性。其次,有害內(nèi)容(toxicity)的識別也是個巨大的挑戰(zhàn)。我們?nèi)ツ暝鴩L試通過合成數(shù)據(jù)來訓(xùn)練專門的有害內(nèi)容分類模型,但當時只針對歐洲語言進行了實驗。如果要將這種方法擴展到更多低資源語言,效果如何尚不得而知。實際上,語言資源越是匱乏,我們能用的有效工具也就越少。坦率地說,我暫時也沒有非常完美的解決方案。最終,我們需要的是更完善、更可靠的工具。在英語主導(dǎo)的 NLP 研究領(lǐng)域,有些問題看似已經(jīng)解決或不再重要,但在多語言環(huán)境下,這些問題依然遠未得到有效解決。
多語言模型研究依然處于上半場
Eric Wang:當前學(xué)術(shù)界對 AI 對齊、大型語言模型的社會影響(如就業(yè)和教育)、以及潛在監(jiān)管挑戰(zhàn)等話題都有許多討論。從你關(guān)注的多語言研究視角來看,有哪些議題是值得特別關(guān)注的?
Catherine Arnett:坦白講,我常常覺得多語言領(lǐng)域比主流研究晚了好幾年。以預(yù)訓(xùn)練為例,我們領(lǐng)域還有許多關(guān)鍵問題并未得到妥善解決,而主流的 NLP 研究已經(jīng)越過了基礎(chǔ)預(yù)訓(xùn)練階段,進入了更先進的后訓(xùn)練和智能體階段。然而,對我所研究的很多語言來說,我們目前的模型性能還很初級,甚至連基礎(chǔ)的預(yù)訓(xùn)練工作都尚未完善,更遑論考慮智能體或強化學(xué)習(xí)這些更前沿的問題。因此,在某種意義上,我們與主流前沿還有一定的距離。不過我也一直關(guān)注這些最新的發(fā)展動態(tài),目前我的主要精力集中于構(gòu)建高質(zhì)量的數(shù)據(jù)集、設(shè)計更有效的評估方法以及訓(xùn)練精巧的小模型。雖然研究進度存在一定落差,但這樣的節(jié)奏讓我能更加穩(wěn)扎穩(wěn)打地推進研究。雖然多語言 NLP 領(lǐng)域目前規(guī)模有限,但我們的社區(qū)卻充滿活力,成員之間的凝聚力也非常強。
Eric Wang:最近有篇熱門文章提出:“我們已進入 AI 時代的下半場”,但對許多語言而言可能還遠未達到這個階段,你怎么看?
Catherine Arnett:確實如此。對大部分語言而言,AI 的發(fā)展仍處于“上半場”。不少語言當前擁有的數(shù)據(jù)量甚至比不上 1970 年代的英語資源水平。盡管我們在這些語言上的研究還相對落后,但這也意味著還有廣闊的空間值得我們持續(xù)努力追趕,這個過程本身就充滿挑戰(zhàn)和機遇。
Eric Wang:在多語言環(huán)境中,AI 的倫理問題和價值觀對齊會不會變得更加復(fù)雜?我們應(yīng)如何確保 AI 系統(tǒng)尊重不同文化的價值觀?
Catherine Arnett:最近,EleutherAI 的 Discord 社區(qū)里也展開了熱烈的討論,我自己也正與社區(qū)成員合作研究這個問題。在過去半年里,我們已經(jīng)看到越來越多專門用于評估文化適配性的基準數(shù)據(jù)。我認為,目前一些最前沿的模型已經(jīng)具備了討論文化敏感性的條件。但必須承認,在多語言環(huán)境下,模型性能本身較弱,數(shù)據(jù)資源也更匱乏,能使用的工具相當有限。這是我們需要積極解決的問題。實際上,這對不同語言社群的成員來說也是一次寶貴的機遇,他們可以利用自己的文化經(jīng)驗與獨特視角,參與構(gòu)建真正具有文化敏感性的基準測試和數(shù)據(jù)集,幫助 AI 系統(tǒng)更好地理解和尊重不同文化的價值觀。
Eric Wang:目前全球存在如此眾多的語言,而每種語言都需要大量資源去支持。你覺得 AI 的能耗問題給開發(fā)公平和包容的多語言 AI 帶來了哪些挑戰(zhàn)?
Catherine Arnett:從我自身的研究經(jīng)驗來看,由于處理的數(shù)據(jù)集規(guī)模本就有限,我們也無法訓(xùn)練規(guī)模龐大的模型,只能相應(yīng)地減少模型大小。然而這反倒促使我們長期以來專注于開發(fā)資源高效的小模型,也算是在無意中解決了部分計算資源和能耗方面的挑戰(zhàn)。我也參與過一些項目,探索如何讓模型更高效地運行在邊緣設(shè)備上。坦率地講,我對此沒有特別深刻的見解,但確實感受到,資源的局限性迫使我們更積極地探索高效和節(jié)能的方案,這在一定程度上緩解了能耗帶來的問題。
AI 心智起源的二向探討
Eric Wang:對你個人而言,開放科學(xué)意味著什么?
Catherine Arnett:GOSIM 昨天有位演講者說得很好:根本不存在所謂的“開放科學(xué)”,因為科學(xué)本來就應(yīng)該是開放的。如果研究是封閉的,那就根本不算是真正的科學(xué)。我經(jīng)常跟同事討論:如果我們無法獲取模型的權(quán)重,無法了解訓(xùn)練數(shù)據(jù),我們怎么能夠確定自己觀察到的現(xiàn)象不是由于隱藏的系統(tǒng)提示、或訓(xùn)練數(shù)據(jù)污染所導(dǎo)致的呢?我認為,只有當我們能完全掌握整個技術(shù)棧,包括訓(xùn)練代碼、強化學(xué)習(xí)過程等各個環(huán)節(jié)時,才真正能夠從實驗中獲取有效知識。如果缺乏開放,我們做的根本不算科學(xué)研究。
Eric Wang:你認為在開放數(shù)據(jù)和負責(zé)任 AI 之間,我們該如何找到平衡點?
Catherine Arnett:過去一年,無論是在我此前所在的初創(chuàng)公司 Play Us,還是現(xiàn)在的 EleutherAI,我一直在探索如何構(gòu)建既開放又負責(zé)任的數(shù)據(jù)集,并讓這些數(shù)據(jù)集具備規(guī)?;瘧?yīng)用的可能。盡管我們選擇的數(shù)據(jù)集整體規(guī)??赡懿凰闾?,但我相信這樣的數(shù)據(jù)集能夠成為穩(wěn)固的研究基礎(chǔ)。我們或許會犧牲一些數(shù)據(jù)規(guī)模上的優(yōu)勢,但這樣做的好處是能更好地滿足倫理要求,并實現(xiàn)長期可持續(xù)發(fā)展。此外,這種方式還能避免潛在的法律風(fēng)險,并有助于維護與不同語言社區(qū)之間良好的合作關(guān)系。我認為,這種負責(zé)任且開放的研究模式才是正確的發(fā)展方向,這也是我一直以來致力推動的事情。
Eric Wang:隨著模型能力不斷提高,關(guān)于 AI 是否可能產(chǎn)生類似人類心智、意識或自我認知的討論越來越多,但這些概念常常難以界定,你怎么看?
Catherine Arnett:坦率地說,我對一些關(guān)于 AGI(通用人工智能)和 ASI(超級人工智能)的宏大觀點或憂慮一直保持謹慎態(tài)度。在我看來,一個真正的 AGI 或 ASI,至少應(yīng)該能夠流暢地掌握所有語言,這或許才是我們真正追求的目標。但很明顯,我們距離這個目標仍然很遙遠,因此我并不認為短期內(nèi)會出現(xiàn)任何系統(tǒng)能夠完全達到這種水準。
Eric Wang:在 AI 領(lǐng)域,有兩種不同的看法:一種認為人的心智源于視覺感知,比如李飛飛開發(fā)的 ImageNet,以及后來的 AlexNet 所代表的路徑,強調(diào)嬰兒出生后通過觀察世界逐漸形成理解;另一種則認為心智主要源于語言和文本,認為人類和動物最大的區(qū)別就是語言。你認為我們更應(yīng)該關(guān)注哪條路徑,視覺還是語言?
Catherine Arnett:作為一名語言學(xué)家,我自然更傾向于強調(diào)語言對 AI 發(fā)展的作用。但如果想讓 AI 更“像人類”,我認為最終的方向一定是多模態(tài)的。目前多模態(tài)研究的進展很令人興奮,包括具身智能(embodied AI)也是一個非常值得期待的方向。當然,這些領(lǐng)域也引發(fā)了不少新的問題和擔(dān)憂。坦白地說,作為語言學(xué)家,我不確定自己能在多模態(tài)或具身智能上貢獻多少。然而,人類的智能顯然不僅僅依賴于語言,也不僅僅依賴于視覺或其他多模態(tài)體驗——實際上,這些因素缺一不可。所以我覺得語言和視覺這兩個方面對 AI 的發(fā)展來說都是必不可少的。
Eric Wang:回到意識、思維和認知的哲學(xué)問題上。你認為人類的意識或心智能力到底源于哪里?
Catherine Arnett:我個人也傾向于認為,人類和動物之間的關(guān)鍵差異就在于語言。當然動物也有非常復(fù)雜的交流系統(tǒng)——目前甚至有一些有趣的研究正嘗試破譯鯨魚和海豚的交流方式,它們的溝通系統(tǒng)其實非常復(fù)雜。但我想強調(diào)的是,人類甚至在出生前就已經(jīng)開始接觸語言——胎兒在母體內(nèi)就能聽到聲音,所以我們剛出生時對于語言的接觸并非是 0。因此,要嚴格區(qū)分視覺體驗和語言在意識中的具體作用是非常困難的。但作為語言學(xué)家,我必須指出,語言具有獨特且至關(guān)重要的作用。語言讓我們能夠合作、交流和共享想法,更重要的是,它塑造了我們的思維方式,讓我們能夠構(gòu)建復(fù)雜的觀念。如果沒有語言,這一切都是無法實現(xiàn)的。
一位 NLP 研究者眼中的 GOSIM 與歐洲開源生態(tài)
Eric Wang:這是你第一次來巴黎參加 GOSIM 大會嗎?能談?wù)勀銓@座城市以及本次大會氛圍的初步感受嗎?
Catherine Arnett:我之前已經(jīng)來過幾次巴黎,所以對這里并不陌生。不過,這次參加 GOSIM 大會帶給我的體驗仍然很新鮮。與我以往參加的學(xué)術(shù)類 NLP 會議相比,這次最大的不同是能夠接觸到來自更多不同領(lǐng)域的同行,大家關(guān)注的問題也更加多元化,包括基礎(chǔ)設(shè)施、實際應(yīng)用場景等等。這種跨領(lǐng)域的交流給了我更廣闊的視角,也讓我了解到了其他領(lǐng)域同行的研究現(xiàn)狀以及他們所面臨的挑戰(zhàn)。
Eric Wang:從你的角度來看,歐洲的 AI 開源社區(qū)有哪些特別的地方?與北美或其他地區(qū)相比,這里的開發(fā)者生態(tài)有什么不同嗎?
Catherine Arnett:我們之前也在一些討論中提到過這個問題。舉個例子,歐洲有 EuroHPC 這樣的項目,它集合了歐盟各國乃至整個歐洲的資源,建立大型的超級計算中心,并根據(jù)需求統(tǒng)一分配計算資源。我覺得,這種公共共享設(shè)施的存在更容易引導(dǎo)研究人員主動走向開源,而不像美國那樣更多依賴私有的計算集群。因此在基礎(chǔ)設(shè)施層面上,歐洲天然地更傾向于開源模式。當然,另一方面來看,我自己的合作者其實遍布全球,包括歐洲、北美、亞洲等地,從這個意義上來說,我所處的社區(qū)本身就是全球化的。從整體來看,歐洲社區(qū)與其他地區(qū)并沒有非常明顯的差異,尤其考慮到我很多合作者本身就在歐洲。
Eric Wang:關(guān)于 GOSIM 未來的發(fā)展,以及和全球開源 AI 社區(qū)的合作,你有什么期望或建議?
Catherine Arnett:我相信隨著 GOSIM 不斷發(fā)展壯大,會有更多的人加入其中。每一次大會都會吸引到來自不同領(lǐng)域和背景的參與者,這種多元化的參與本身就能夠為社區(qū)帶來新的視角和創(chuàng)新活力。希望 GOSIM 能繼續(xù)保持這種開放性,積極吸引更多不同組織、領(lǐng)域的人參與進來,給大家提供交流和分享經(jīng)驗的平臺。
Eric Wang:好的,非常感謝 Catherine 的分享,謝謝你和 Open AGI Forum 交流你的經(jīng)驗和見解。
限量早鳥票搶先購!
9 月 13- 14 日,
GOSIM HANGZHOU 2025
1500 +全球一線開源開發(fā)者
100 +海內(nèi)外資深專家
100 +優(yōu)質(zhì)技術(shù)分享
5大技術(shù)論壇
9場主題Workshop
3場Hackathon創(chuàng)新競賽
1場GOSIM Spotlight
特別聯(lián)動Rust 十周年精彩活動
RustGlobal + RustChinaConf
大咖云集,內(nèi)容豐富
歡迎親臨現(xiàn)場
與全球開源資深大咖面對面交流!
早鳥觀眾票數(shù)量有限,先到先得!
立即打開鏈接或掃碼搶購:
https://hangzhou2025.gosim.org/tickets/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.