亞洲擁有全球三分之一的語言,卻在數(shù)字世界里”失聲”了!
最新數(shù)據(jù)顯示,亞洲大陸上存在著超過2300種本土語言,占全球現(xiàn)存語言的32%。然而這些語言在數(shù)字化呈現(xiàn)方面卻存在著巨大的鴻溝。谷歌正在通過一系列AI項(xiàng)目改變這一現(xiàn)狀,從印度的773個(gè)地區(qū)到東南亞的1200種語言,再到日本喜劇的全球化傳播,一場覆蓋整個(gè)亞洲的語言數(shù)字化革命正在展開。
21500小時(shí)語音數(shù)據(jù):Project Vaani深入印度腹地
三年前,谷歌與印度科學(xué)研究所聯(lián)手啟動(dòng)了Project Vaani項(xiàng)目。這個(gè)項(xiàng)目的野心相當(dāng)大:要覆蓋印度全部773個(gè)地區(qū)的語言變體。
目前的成果已經(jīng)相當(dāng)驚人。項(xiàng)目已經(jīng)收集了近21500小時(shí)的語音音頻和835小時(shí)的轉(zhuǎn)錄語音數(shù)據(jù),涵蓋86種獨(dú)特語言。這些數(shù)據(jù)來自印度22個(gè)邦120個(gè)地區(qū)的112000多名發(fā)言者。更重要的是,這些數(shù)據(jù)已經(jīng)通過印度國家語言任務(wù)Bhashini和開源平臺(tái)HuggingFace向公眾免費(fèi)開放。
為什么要覆蓋所有773個(gè)地區(qū)?項(xiàng)目負(fù)責(zé)人在問答環(huán)節(jié)解釋道:”人們通常認(rèn)為一個(gè)邦內(nèi)的語言是統(tǒng)一的,但事實(shí)并非如此。以比哈爾邦為例,那里就有超過100種不同的語言及變體。”印度人口流動(dòng)頻繁,當(dāng)一個(gè)人從一個(gè)邦遷移到另一個(gè)邦,他們說母語的方式會(huì)產(chǎn)生變體和細(xì)微差異。要讓技術(shù)真正服務(wù)于全國所有人,捕捉這些自然存在的變體就成了必要條件。
目前項(xiàng)目正在發(fā)布第一階段和第二階段的數(shù)據(jù),已經(jīng)覆蓋了160個(gè)區(qū)縣。谷歌正在與Megdap、Karya等合作伙伴攜手,繼續(xù)推進(jìn)這項(xiàng)龐大的工程。
Aquarium平臺(tái):為東南亞1200種語言建立數(shù)據(jù)庫
東南亞的語言環(huán)境復(fù)雜程度不亞于印度。這個(gè)擁有11個(gè)國家、6.5億人口的地區(qū),四大不同語系涵蓋了約1200種語言。僅印度尼西亞一國就有超過700種語言。
谷歌與AI Singapore合作推出的Project SEALD,專門應(yīng)對(duì)這種復(fù)雜性。項(xiàng)目的核心是Aquarium平臺(tái)——一個(gè)面向東南亞語言數(shù)據(jù)集的綜合性資源庫。
Aquarium的目標(biāo)很明確:構(gòu)建一個(gè)全面的東南亞數(shù)據(jù)集目錄,讓社區(qū)中的任何人都能獲取和貢獻(xiàn)數(shù)據(jù),助力開發(fā)出能真正反映地區(qū)生態(tài)的AI模型。最終目標(biāo)是打造出更出色的工具和解決方案,以當(dāng)?shù)卣Z言滿足東南亞的特定應(yīng)用場景需求。
面對(duì)低資源或?yàn)l危語言的挑戰(zhàn),SEALD團(tuán)隊(duì)采取了獨(dú)特的策略。項(xiàng)目負(fù)責(zé)人William介紹:”我們始終與當(dāng)?shù)貦C(jī)構(gòu)合作,通過他們找到這些鮮為人知的方言?!边@些資料通常是非數(shù)字化的,需要轉(zhuǎn)化為可用數(shù)字格式并請(qǐng)當(dāng)?shù)厝藛T進(jìn)行校驗(yàn)。在某些特定情況下,如果某種語言確實(shí)瀕臨滅絕且完全沒有相關(guān)資源,團(tuán)隊(duì)會(huì)向該語言的母語使用者分享圖像提示或文本提示,收集他們的音頻數(shù)據(jù)并進(jìn)行轉(zhuǎn)錄,然后將這些數(shù)據(jù)作為語料庫的一部分。
90%準(zhǔn)確率:吉本興業(yè)用AI讓日本喜劇走向世界
語言AI的應(yīng)用不僅限于保護(hù)瀕危語言。日本最大的娛樂經(jīng)紀(jì)公司吉本興業(yè)正在用谷歌的AI技術(shù)解決一個(gè)特殊問題:如何讓全世界理解日本喜劇。
吉本興業(yè)成立于1912年,管理著6000多名藝人,每年制作5000多部作品。但日本喜劇的全球擴(kuò)張面臨兩大挑戰(zhàn):許多笑點(diǎn)依賴于高語境化的表達(dá),涉及大量文化細(xì)節(jié)與典故,對(duì)外來觀眾難以理解;語言障礙依然顯著,日本英語普及率較低,阻礙了與全球觀眾建立聯(lián)系。
2014年開始,吉本興業(yè)與谷歌合作開發(fā)了CHAD 2系統(tǒng)——一個(gè)由Gemini 2.0 Flash驅(qū)動(dòng)的AI翻譯系統(tǒng)。這個(gè)系統(tǒng)專為喜劇設(shè)計(jì),能將日語視頻翻譯成英語、中文和韓語。只需上傳電影文件,系統(tǒng)便會(huì)自動(dòng)生成字幕文件。
最令人印象深刻的是準(zhǔn)確率。CHAD 2的轉(zhuǎn)錄和翻譯準(zhǔn)確率約為90%,大幅領(lǐng)先于其他模型60%-75%的準(zhǔn)確率。更重要的是,翻譯時(shí)間從數(shù)月縮短至幾分鐘。
系統(tǒng)還包含了一個(gè)專門為”O(jiān)warai(日本喜劇)”量身定制的自定義詞典,目前包含超過200個(gè)條目。如果要將系統(tǒng)調(diào)整為其他內(nèi)容類型,比如動(dòng)漫、電視劇或體育,只需額外添加針對(duì)特定類型的詞典,核心提示無需進(jìn)行任何特殊調(diào)整。
吉本興業(yè)的代表表示:”我們的終極愿望是創(chuàng)建一個(gè)無論何時(shí)何地,任何人都能實(shí)時(shí)理解日本喜劇的世界?!蹦壳癈HAD 2還在內(nèi)部使用階段,但公司正在加速推進(jìn)外部商業(yè)化銷售,并持續(xù)提升翻譯質(zhì)量與新增語言支持。
這些項(xiàng)目展示了AI技術(shù)在語言保護(hù)和文化傳播方面的巨大潛力。從印度腹地的方言到東南亞的瀕危語言,再到日本喜劇的文化細(xì)節(jié),谷歌正在用技術(shù)彌合亞洲語言的數(shù)字鴻溝。隨著更多數(shù)據(jù)的收集和技術(shù)的進(jìn)步,亞洲2300種語言在數(shù)字世界獲得應(yīng)有地位的那一天,或許并不遙遠(yuǎn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.