綜述
小時候你有沒有幻想過,自己可以像童話故事一樣聽懂動物的“語言”,自由自在地和各種動物實現(xiàn)交流?最近,谷歌的一項研究讓幻想照進現(xiàn)實。AI模型“DolphinGemma”橫空出世,成功破譯了海豚的“語言”。
這個僅有400M大小的AI模型,能直接在谷歌Pixel設備上運行。DeepMind的CEO哈薩比斯透露,下一個要破解的目標就是狗。不過,這個海豚語言模型的"詞匯量"究竟有多大?它真的能實現(xiàn)人類與海豚的跨物種對話嗎?
AI如何聽懂海豚
讓AI理解海豚的“語言”,原理上和教會AI理解人類語言類似。就好比你打字時,輸入法會猜測你下一個詞是什么。谷歌的DolphinGemma也用了類似的邏輯,只不過它的學習對象是一連串海豚的哨聲,短脈沖和嘶鳴。
通過持續(xù)的訓練,DolphinGemma如同其他語言大模型學習人類語言那樣,從海量的海豚發(fā)聲數(shù)據(jù)中逐步摸索出了它們的"語法規(guī)則"。
這個模型的秘訣在于兩大核心技術(shù)。第一是SoundStream音頻分詞器,它就像給聲音配字幕的工具,能把海豚千變?nèi)f化的叫聲轉(zhuǎn)化為計算機看得懂的信號,精準“拆解”它們的發(fā)聲片段用以學習。
第二是基于序列預測的模型架構(gòu),它能分析這些聲音碎片之間的關(guān)系,試著預測海豚一段“對話”中下一個可能出現(xiàn)的音節(jié)。當然,其規(guī)則要比輸入法聯(lián)想復雜得多。
訓練模型的核心數(shù)據(jù)來自一個堅持了40年的研究項目:“野生海豚計劃”(WDP)。自1985年起,這個非營利組織的科學家就在巴哈馬群島追蹤一群大西洋斑點海豚,他們?yōu)槊恐缓k嗝涗浕顒榆壽E,收集海量的水下音頻資料并分析整理,用于研究。
例如,研究人員發(fā)現(xiàn)斑點海豚母親會在幼崽覓食后,用特定的哨聲序列呼喚它們回家。正是無數(shù)個這些聲音與行為“配對”的案例,成了AI理解海豚世界的“啟蒙教材”。
未來,這個僅400M大小,能在手機上運行的模型將隨科學家潛入海底進行實時分析。屆時研究人員只需一部手機,AI就能即時"翻譯"海豚的交流內(nèi)容,為海洋生物研究提供全新的技術(shù)支撐。
當前的局限性
雖然DolphinGemma的誕生是跨時代性的,但這并不代表人類真正地破譯了海豚的語言。
舉個簡單例子:當一個人類媽媽對孩子說“回家吃飯”,這句話不僅傳遞了“要求回家”這個明確信息,還可能隱含擔憂或催促的情緒信息。孩子回到家是吃紅燒肉還是“皮帶炒肉”,就隱藏在媽媽喊話的語氣中。
科學家當下只是破解了海豚發(fā)出某段聲音時,海豚在做什么或?qū)⒁鍪裁吹男畔?,簡單將為關(guān)聯(lián)了起來,至于海豚能否像人類一樣結(jié)合聲音創(chuàng)造抽象含義,比如在聲音中融入情緒,是 “回憶昨天的潮水”還是“提醒遠處有鯊魚”,科學家仍一無所知。
為了向真正的“交流”邁進,谷歌和WDP正在努力教會海豚新的“語言”。團隊開發(fā)了一套名為CHAT(鯨類動物聽力增強遙感)的系統(tǒng),它能發(fā)出人工合成的類似海豚聲,每個聲音對應特定物品,比如海藻,海草或人類戴的圍巾。
比如,當研究者按下按鈕,設備發(fā)出類似海豚聲的同時,遞上一把海草。研究者希望通過這種方式,教會海豚新的“單詞”,海豚若能學會用同樣的聲音回應,就實現(xiàn)了原始的“語言教學”。
不過,當下技術(shù)仍面臨一道天然門檻:海豚也有“方言”。DolphinGemma的訓練數(shù)據(jù)全部來自巴哈馬群島的小型斑點海豚社群,但在其他海域的同類,可能會棲息環(huán)境不同演化出不同的發(fā)聲方式,AI模型若沒學過對應的“口音”,幾乎不可能聽懂。
為此,谷歌計劃在今年夏季開源DolphinGemma,鼓勵全球科學家上傳不同海域的海豚聲音數(shù)據(jù),以豐富海豚語言的數(shù)據(jù)庫。
AI跨物種潛力
你可能會好奇:為什么谷歌先盯上了海豚,而不是研究更常見的家養(yǎng)寵物貓或狗?這主要基于兩個關(guān)鍵原因。
首先是海豚高超的的“語言天賦”,它們的交流方式幾乎是動物中最接近我們?nèi)祟惖摹?/strong>海豚的發(fā)聲需要靠鼻腔附近一對特殊組織振動,原理類似人類的聲帶發(fā)聲;二是海豚有著堪比人類社會的復雜社會群落,成員會合作捕獵,照顧幼崽,甚至為去世的同伴哀鳴。
同時研究還發(fā)現(xiàn),海豚能通過不同聲音的組合來表達復雜意圖,這與人類用句子傳遞信息的邏輯不謀而合。正是這種相似性讓海豚成為突破口,但AI的潛力遠不止于此。
比如CETI(鯨類翻譯倡議)項目,專門用于抹香鯨研究。抹香鯨通過類似摩斯電碼般,一連串的"噠噠"聲來交流,該項目已收集了60多頭抹香鯨的8000余條聲音密碼,正在解析其中的規(guī)律。
又比如另一個研究團隊的“地球物種項目”,正在致力于利用AI,解碼大象,白鯨,烏鴉等更多物種的語言,以實現(xiàn)跨物種交流。當然,最值得期待的還是DeepMind團隊下一步計劃。團隊CEO哈薩比斯透露:“我想對話的下一個對象,就是我家的狗?!?/strong>
相比海豚,狗與人類的互動更頻繁,收集數(shù)據(jù)也更方便。如果某天手機上裝個軟件,就能看懂自家狗子扒門是想散步還是餓了,這場面想想大概就讓無數(shù)寵物主人興奮無比了。
結(jié)尾
或許未來某天,你戴著智能設備去海洋館,不僅能看見海豚躍出水面的優(yōu)美身姿,還能實時看到它們"對話"字幕:"日常打卡迎接兩腳獸,好無聊!""我為什么不能和小美一個缸"...這樣的場景是不是比科幻電影還帶勁?
不過話說回來,動物語言被破譯,是否會導致人類濫用這種能力?比如用虛假信號引誘鯨群靠近漁船,或是強制改變動物的行為。科技讓我們離動物更近,在打開跨物種對話大門的同時,人類更要把握好這把"雙刃劍",讓科技來傳遞善意而非傷害。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.