作者 & 采訪 | 唐小引 Echo Tang
編輯 | 王詩(shī)琪、何苗
出品 | GOSIM 開源創(chuàng)新匯
近年來(lái),隨著大模型技術(shù)在全球范圍內(nèi)快速崛起,“出?!背蔀槊考?AI 公司繞不開的話題。在這場(chǎng)激烈的全球競(jìng)逐中,阿里巴巴通義實(shí)驗(yàn)室研發(fā)的通義千問(wèn)(Qwen)表現(xiàn)尤為搶眼。作為全球開源社區(qū) Hugging Face 上下載量最高的模型之一,Qwen 甚至在歐美用戶中收獲了超越中文用戶的熱情擁躉。這種國(guó)際化成功的背后,是通義實(shí)驗(yàn)室在多語(yǔ)言技術(shù)上的深度布局與戰(zhàn)略眼光。
在法國(guó)巴黎舉行的GOSIM AI Paris大會(huì)現(xiàn)場(chǎng),CSDN&《新程序員》執(zhí)行總編唐小引與阿里巴巴通義實(shí)驗(yàn)室研究科學(xué)家楊寶嵩進(jìn)行了深入交流。作為 Qwen 多語(yǔ)言能力的負(fù)責(zé)人,楊寶嵩帶領(lǐng)團(tuán)隊(duì)賦予了 Qwen 模型備受稱贊的支持全球119 種語(yǔ)言的能力。采訪中,他透露了Qwen 一開始就將國(guó)際化視作核心戰(zhàn)略,優(yōu)先考慮多語(yǔ)言數(shù)據(jù)優(yōu)化,確保全球用戶都能公平享受 AI 帶來(lái)的技術(shù)普惠。
楊寶嵩指出,大模型出海并非簡(jiǎn)單的語(yǔ)言翻譯問(wèn)題,而是要直面不同語(yǔ)言背后復(fù)雜的文化規(guī)范和禁忌內(nèi)容。在多語(yǔ)言安全性與文化對(duì)齊方面,團(tuán)隊(duì)專門建立了一整套復(fù)雜的文化標(biāo)注體系,覆蓋上千個(gè)細(xì)粒度分類,以確保模型內(nèi)容在全球各地區(qū)都安全、合規(guī)、有效。這項(xiàng)工作耗費(fèi)巨大,但楊寶嵩認(rèn)為意義非凡。
談到多語(yǔ)言大模型技術(shù)的挑戰(zhàn)時(shí),他特別指出當(dāng)前業(yè)界普遍存在的“多語(yǔ)言推理難題”。大模型在處理非母語(yǔ)用戶提問(wèn)時(shí),常常會(huì)出現(xiàn)混雜多種語(yǔ)言的情況,這一問(wèn)題目前尚無(wú)模型能夠完美解決。對(duì)此,通義團(tuán)隊(duì)采取了折中的策略:在擅長(zhǎng)的語(yǔ)言上用原生語(yǔ)言進(jìn)行推理,而對(duì)于低資源的小語(yǔ)種則統(tǒng)一采用英語(yǔ)進(jìn)行內(nèi)部推理,力求模型輸出更穩(wěn)定與一致。
此次專訪也觸及了當(dāng)前熱門的 Scaling Law(規(guī)模定律)問(wèn)題。楊寶嵩認(rèn)為,未來(lái)持續(xù)擴(kuò)大模型規(guī)模和數(shù)據(jù)量仍然至關(guān)重要。但在算力和數(shù)據(jù)面臨瓶頸的現(xiàn)實(shí)情況下,提升數(shù)據(jù)“知識(shí)密度”與利用高質(zhì)量合成數(shù)據(jù)將成為新的突破口。正因如此,Qwen 團(tuán)隊(duì)正積極嘗試?yán)媚P蜕傻臄?shù)據(jù),持續(xù)提升訓(xùn)練數(shù)據(jù)質(zhì)量,以應(yīng)對(duì)規(guī)模擴(kuò)張的瓶頸期。
點(diǎn)擊可觀看完整視頻
以下為對(duì)話實(shí)錄:
唐小引:大家好,歡迎收看由 GOSIM 主辦的Open AGI Forum欄目,我是來(lái)自 CSDN 的唐小引,在法國(guó)巴黎舉行的 GOSIM AI Paris 現(xiàn)場(chǎng),我們很榮幸地邀請(qǐng)到了阿里巴巴通義實(shí)驗(yàn)室研究科學(xué)家楊寶嵩老師,和大家一起分享自己的程序人生,以及大家非常關(guān)心的通義千問(wèn)(Qwen)的一些故事和進(jìn)展。歡迎楊老師,先請(qǐng)您和大家打個(gè)招呼并做一下自我介紹。
楊寶嵩:大家好,我是楊寶嵩,來(lái)自阿里巴巴通義實(shí)驗(yàn)室。目前主要負(fù)責(zé)千問(wèn)及千問(wèn)系列模型的多語(yǔ)言能力研發(fā),包括機(jī)器翻譯能力等。
唐小引:我先講個(gè)小插曲,“千問(wèn)”這個(gè)模型英文名“Qwen”到底該怎么讀還有不少的討論,在海外有諧音“Queen”(女王)、“Q wen”的不同發(fā)音,能不能從官方角度給我們講一講?
楊寶嵩:其實(shí)我覺得大家喜歡怎么叫就怎么叫吧,不過(guò)官方的讀法應(yīng)該就是念作 “Queen”。當(dāng)然,“Q wen”也挺好聽的。國(guó)內(nèi)的話,大家還是叫“千問(wèn)”最習(xí)慣、最順口。
作者注:英語(yǔ)中的 "Q" 通常發(fā) /k/ 的音,并與后面的 "w" 結(jié)合成 /kw/ 的音,就像 “queen”(女王)或“quick”(快的)一樣。國(guó)內(nèi)的發(fā)音會(huì)比較類似“kun”,而對(duì)于不熟悉中文拼音的英語(yǔ)母語(yǔ)者來(lái)說(shuō),他們則會(huì)按照英語(yǔ)的自然拼讀規(guī)則來(lái)讀,“queen”的諧音就由此而來(lái),也使得不少 AI 開發(fā)者一度調(diào)侃 Llama 是 King,Qwen 是 Queen。
唐小引:此次來(lái)到巴黎參加 GOSIM AI Paris 感受如何?有沒有什么特別的收獲或啟發(fā)可以和大家分享?
楊寶嵩:首先,我覺得巴黎是一個(gè)非常漂亮的地方,有深厚的歷史文化底蘊(yùn),食物也很棒。這次大會(huì)在巴黎舉辦,讓我們有機(jī)會(huì)見到了很多從事開源工作的同行,包括社區(qū)里的許多人,比如 Hugging Face 的工程師們。基本上各大開源組織這次都來(lái)了。也見到了很多新生代的朋友,有些還在讀碩士、博士,比如像 Llama Factory 的作者等,這次大會(huì)真的是一個(gè)很好的交流契機(jī)。在國(guó)內(nèi)大家平時(shí)都在埋頭做研究,其實(shí)很少有機(jī)會(huì)和全球同行面對(duì)面深入交流。
唐小引:千問(wèn)在 Hugging Face 上的下載量非常高,在現(xiàn)場(chǎng)有和 Hugging Face 的工程師交流嗎?
楊寶嵩:對(duì),Hugging Face 的工程師們確實(shí)很認(rèn)可我們國(guó)內(nèi)的開源模型,特別是千問(wèn)?,F(xiàn)在千問(wèn)在 Hugging Face 上的下載量確實(shí)非常大,據(jù)我了解,基于千問(wèn)衍生出來(lái)的模型數(shù)已經(jīng)超過(guò)十萬(wàn)個(gè)了。
唐小引:沒錯(cuò),我們之前統(tǒng)計(jì)過(guò),無(wú)論大小模型,千問(wèn)的下載量都遙遙領(lǐng)先。而且我知道,千問(wèn)在北美(尤其硅谷)影響力很高,在 X 平臺(tái)上有很多海外關(guān)注者。這次千問(wèn)來(lái)到歐洲的巴黎,您能不能談?wù)勄?wèn)在中國(guó)、歐美的情況?
楊寶嵩:前不久我們開放了 Qwen Chat,發(fā)現(xiàn)用戶量最大的其實(shí)是英語(yǔ)社區(qū),中文用戶反而并不是排名第二大的。我記得中文好像只排到第三或第四。當(dāng)時(shí)看到這個(gè)數(shù)據(jù)也挺有意思的——這證明千問(wèn)在整個(gè)國(guó)際社區(qū)中的影響力還是非常大的。
唐小引:作為一個(gè)起于中國(guó)的模型,中文用戶量居然排不到第二,這是為什么?和你們的策略有關(guān)嗎?
楊寶嵩:對(duì),這和我們的策略直接相關(guān)。從千問(wèn)項(xiàng)目啟動(dòng)之初,國(guó)際化就是我們的重要目標(biāo)之一。我們希望千問(wèn)能服務(wù)全球用戶,而不僅僅是中國(guó)用戶。所以在模型訓(xùn)練的一開始,我們就特別重視讓模型具備多語(yǔ)言能力,面向全球市場(chǎng)去優(yōu)化。具體來(lái)說(shuō),在國(guó)內(nèi)做大模型時(shí),我們團(tuán)隊(duì)很早就開始往模型里加入多種語(yǔ)言的數(shù)據(jù),訓(xùn)練一個(gè)多語(yǔ)言的基礎(chǔ)模型。即使這么做會(huì)犧牲掉一些中英文、代碼或者數(shù)學(xué)推理方面的性能,我們?nèi)匀贿x擇優(yōu)先保證模型的多語(yǔ)言效果。這相當(dāng)于為模型定下了一個(gè)調(diào)子:千問(wèn)不是只為中英文優(yōu)化的,它生來(lái)就是面向全球、多語(yǔ)言的。
唐小引:一直以來(lái),Qwen 的多語(yǔ)言能力都是由您來(lái)負(fù)責(zé)與主導(dǎo),這是由于和您個(gè)人的求學(xué)背景、從事的 NLP 機(jī)器翻譯方向密切相關(guān)嗎?
楊寶嵩:沒錯(cuò)。我大概 2013 年開始踏入機(jī)器翻譯領(lǐng)域,當(dāng)時(shí)深度學(xué)習(xí)才剛剛興起,AI 圈子還沒現(xiàn)在這么熱。但即使如此,那個(gè)時(shí)候選擇讀博投入 AI 還是需要點(diǎn)魄力的,我們實(shí)驗(yàn)室當(dāng)時(shí)很多師兄弟最后都畢不了業(yè)。一直到 2015、2016 年左右,深度學(xué)習(xí)的浪潮真正起來(lái)之后,我們 AI 這一行一下子活躍了起來(lái),可以說(shuō)迎來(lái)了最好的發(fā)展時(shí)機(jī)。
唐小引:對(duì),神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)那時(shí)迎來(lái)大爆發(fā)。
楊寶嵩:是的。我個(gè)人從那時(shí)候起一直堅(jiān)持的研究興趣就是多語(yǔ)言和翻譯方向。即使到現(xiàn)在,我依然在專注做機(jī)器翻譯相關(guān)的研究工作。之所以對(duì)多語(yǔ)言情有獨(dú)鐘,是因?yàn)槲沂冀K覺得對(duì)于 AI 來(lái)說(shuō),或者說(shuō)對(duì)于“技術(shù)普惠”來(lái)說(shuō),多語(yǔ)言是最重要也最值得做的一件事。我們不希望未來(lái)世界上只有中美兩國(guó)能夠享受 AI 帶來(lái)的福利。所以從 AI 平權(quán)、讓技術(shù)惠及更多不同語(yǔ)言和文化背景的人這個(gè)角度,多語(yǔ)言能力是必須要做好的一件事情。這是第一點(diǎn),我們把格局放大來(lái)看。第二點(diǎn),不管是中國(guó)的企業(yè)出海,還是各種業(yè)務(wù)的全球化,多語(yǔ)言翻譯這些技術(shù)都是必須長(zhǎng)期投入、長(zhǎng)期攻堅(jiān)的能力。
第三點(diǎn)也和我個(gè)人興趣有關(guān),我確實(shí)覺得這個(gè)方向很有意思。在加入阿里之前,我就一直有一個(gè)期望:希望在我的職業(yè)生涯里能夠?qū)崿F(xiàn)這樣的場(chǎng)景——戴上一副智能眼鏡或者頭顯出門,所有聽到的外語(yǔ)都能實(shí)時(shí)翻譯成自己聽得懂的內(nèi)容,所有看到的文字都自動(dòng)轉(zhuǎn)換成你能讀懂的語(yǔ)言。如果是兩三年前甚至五年前來(lái)看,這種想法還是非常遙遠(yuǎn)的。但大模型出現(xiàn)之后,隨著大模型和視覺、視頻生成、語(yǔ)音識(shí)別、TTS(語(yǔ)音合成)這些能力逐步融合到一起,現(xiàn)在已經(jīng)有非常多的 AI 廠商或者 AI 外設(shè)公司開始在做這件事了。我相信這個(gè)目標(biāo)的實(shí)現(xiàn)速度會(huì)越來(lái)越快。
唐小引:千問(wèn)多語(yǔ)言能力的成功離不開您的長(zhǎng)期積累。但在追求卓越多語(yǔ)言能力的過(guò)程中,肯定會(huì)遇到各種挑戰(zhàn)。能否請(qǐng)您談一談,在打造千問(wèn)的多語(yǔ)言能力時(shí),您遇到了哪些獨(dú)特的挑戰(zhàn)?比如,不同語(yǔ)言有各自復(fù)雜的文化背景和內(nèi)容規(guī)范,這些在模型訓(xùn)練和優(yōu)化時(shí)是如何應(yīng)對(duì)的?
楊寶嵩:做多語(yǔ)言大模型時(shí),我們確實(shí)遇到過(guò)一些非常棘手的挑戰(zhàn)。我從兩方面來(lái)說(shuō):首先是數(shù)據(jù)質(zhì)量和標(biāo)注標(biāo)準(zhǔn)的問(wèn)題。對(duì)于一些高資源的主流語(yǔ)言,比如英文、中文,我們有大量數(shù)據(jù)可以用,模型也容易學(xué)到這些語(yǔ)言里的規(guī)律和規(guī)范。但對(duì)于許多小語(yǔ)種來(lái)說(shuō),可用的數(shù)據(jù)很少,而且不同語(yǔ)言、不同文化對(duì)于內(nèi)容的禁忌和敏感點(diǎn)也不一樣。
舉個(gè)例子,在英文或中文的數(shù)據(jù)中過(guò)濾有害內(nèi)容也許相對(duì)簡(jiǎn)單,比如涉黃、涉政信息,有比較明確的標(biāo)準(zhǔn)可以參考,模型訓(xùn)練時(shí)可以通過(guò)已有的內(nèi)容安全模型來(lái)識(shí)別這些不良信息。但是換成一些其他文化背景的語(yǔ)言就復(fù)雜得多。比如阿拉伯語(yǔ)世界,不同國(guó)家、不同宗教派別有各自忌諱的內(nèi)容。某些在一個(gè)文化里正常的信息,在另一個(gè)文化語(yǔ)境里可能就是禁忌,甚至嚴(yán)重冒犯。那對(duì)于這些語(yǔ)言的數(shù)據(jù),我們?nèi)绻胱龊脙?nèi)容安全和價(jià)值觀對(duì)齊,就需要付出額外的努力去標(biāo)注和區(qū)分。有些規(guī)則可以從英文、中文這些大語(yǔ)種中“遷移學(xué)習(xí)”過(guò)來(lái),用統(tǒng)一標(biāo)準(zhǔn)去過(guò)濾。但也有一些跟當(dāng)?shù)匚幕?xí)俗密切相關(guān)的內(nèi)容,需要我們專門去理解和處理。我們團(tuán)隊(duì)曾經(jīng)為多語(yǔ)言內(nèi)容安全建立過(guò)一整套龐大的文化標(biāo)注體系,涵蓋了可能上千個(gè)類目的細(xì)粒度標(biāo)簽,就是為了針對(duì)不同語(yǔ)言、不同文化背景下的數(shù)據(jù)做分類打標(biāo)。
唐小引:這聽起來(lái)需要投入巨大的人工標(biāo)注和專業(yè)知識(shí)工作量。
楊寶嵩:是的,確實(shí)是一個(gè)非常龐雜的工程。這也算是模型出海、多語(yǔ)言化過(guò)程中必須啃的硬骨頭吧。好在我們通過(guò)一些數(shù)據(jù)合成的方法,結(jié)合人工審核,逐漸建立起了適用于多語(yǔ)言的內(nèi)容篩查規(guī)則和標(biāo)注標(biāo)準(zhǔn)。這方面的投入雖然大,但我覺得非常值得。如果不做好不同文化的價(jià)值觀和禁忌對(duì)齊,模型在一些小語(yǔ)種場(chǎng)景下可能就無(wú)法真正落地。
唐小引:千問(wèn)前段時(shí)間發(fā)布了 Qwen3,我們編輯部也是連夜關(guān)注了更新動(dòng)態(tài)。作為千問(wèn)多語(yǔ)言能力的負(fù)責(zé)人,在最新版本研發(fā)過(guò)程中,有沒有什么最讓您頭疼但最終解決(或有所突破)的問(wèn)題?
楊寶嵩:千問(wèn) 3.0 在多語(yǔ)言方面其實(shí)每一個(gè)問(wèn)題都挺讓人頭疼的。要說(shuō)其中一個(gè)挑戰(zhàn),我覺得可以講多語(yǔ)言環(huán)境下模型推理過(guò)程用什么語(yǔ)言這個(gè)問(wèn)題?,F(xiàn)在大模型都在強(qiáng)調(diào) “推理” 或 “思考” 的能力,就是 Chain-of-Thought(思維鏈,CoT)。我們最開始也希望模型在用什么語(yǔ)言被提問(wèn),就用相同語(yǔ)言去思考和推理。比如用戶用日語(yǔ)問(wèn)問(wèn)題,我們理想情況下希望模型內(nèi)部也是用日語(yǔ)來(lái)推理和形成答案,那最后輸出當(dāng)然也是日語(yǔ)。這聽起來(lái)很自然,對(duì)吧?
唐小引:按常理這是應(yīng)該做到的。
楊寶嵩:是的,聽上去是正常邏輯。但實(shí)際上我們發(fā)現(xiàn),目前市面上幾乎所有的大模型在這方面都做不到完美。一些模型在啟用了思維鏈后,它的思考過(guò)程會(huì)混雜多種語(yǔ)言——可能這句話還在用英文想,下一句又蹦出中文或者其它語(yǔ)言。對(duì)于用戶來(lái)說(shuō)看到這樣的思維過(guò)程是很困惑的。如果模型能力不夠強(qiáng)的話,更極端的情況是思考過(guò)程反復(fù)來(lái)回,用不同語(yǔ)言絮絮叨叨停不下來(lái),導(dǎo)致既浪費(fèi)算力 token,又影響最后效果。
我們?cè)谧銮?wèn) 3 的時(shí)候?qū)iT考慮了這個(gè)問(wèn)題,嘗試讓模型嚴(yán)格用提問(wèn)對(duì)應(yīng)的語(yǔ)言進(jìn)行推理。但后來(lái)發(fā)現(xiàn),以當(dāng)前的技術(shù)水平,一些低資源語(yǔ)言(模型不太擅長(zhǎng)的語(yǔ)言)的生成和推理能力確實(shí)跟不上。強(qiáng)行讓它用那種語(yǔ)言去完整推理,反而可能出 Bug(比如思維鏈卡殼、循環(huán)等問(wèn)題),更影響最終答案質(zhì)量。
權(quán)衡之下,我們目前采用的策略是折中方案:至少保證最后給出的回答(Answer)用用戶提問(wèn)的語(yǔ)言,而隱藏的思維鏈部分,對(duì)于模型特長(zhǎng)的語(yǔ)種(模型在那些語(yǔ)言上能力強(qiáng)),我們盡量也用對(duì)應(yīng)語(yǔ)言去做推理;但對(duì)于那些模型暫時(shí)不太擅長(zhǎng)的小語(yǔ)種,我們就干脆統(tǒng)一用一種通用語(yǔ)言(比如英語(yǔ))來(lái)進(jìn)行思考過(guò)程。這至少避免了思維鏈里多語(yǔ)言?shī)A雜的問(wèn)題,用單一語(yǔ)言思考總比混雜好多種語(yǔ)言要好,讓推理過(guò)程干凈一致一些。
唐小引:您這么一說(shuō),我深有同感。我自己在使用一些大模型(比如 Claude)時(shí)也遇到過(guò)類似情況:我用中文提問(wèn),它最后回答我是中文,但中間展示的思考過(guò)程蹦出了英文,感覺這是大家普遍面臨的問(wèn)題。那現(xiàn)在有模型完全解決了這個(gè)問(wèn)題嗎?
楊寶嵩:老實(shí)說(shuō),目前還沒有看到哪個(gè)模型做到了這點(diǎn)。而且我覺得這個(gè)問(wèn)題恐怕短期內(nèi)也很難徹底解決。對(duì)于高資源的大語(yǔ)種來(lái)說(shuō),可能比較容易一些,但涉及到上百種語(yǔ)言讓每一種都用自己的語(yǔ)言進(jìn)行復(fù)雜推理,難度太大了。小語(yǔ)種本身模型掌握的生成能力就弱,推理能力也弱,即使讓它借助英文等強(qiáng)語(yǔ)言來(lái)遷移,最后還是需要用小語(yǔ)種輸出復(fù)雜邏輯。這種情況下,要模型思維鏈 100%使用對(duì)應(yīng)的小語(yǔ)種,確實(shí)是一個(gè)極具挑戰(zhàn)性的方向。
唐小引:明白,這也算是多語(yǔ)言大模型推理的下一步難關(guān)吧。那回到思維鏈本身,我想接著問(wèn)一個(gè)相關(guān)的問(wèn)題。我們知道有些大模型可以把推理過(guò)程顯示出來(lái),就是所謂“思維鏈”。最開始很多人看到模型能展示一步步的思考過(guò)程,覺得非常驚艷。但后來(lái)大家也發(fā)現(xiàn)一個(gè)現(xiàn)實(shí)問(wèn)題:這些思維鏈會(huì)耗費(fèi)大量 token,也就是算力和響應(yīng)長(zhǎng)度。對(duì)于這個(gè)問(wèn)題,你們?cè)谀P驮O(shè)計(jì)上有考慮過(guò)嗎?有沒有什么改進(jìn)思路?
楊寶嵩:這個(gè)問(wèn)題現(xiàn)在是大家普遍關(guān)注的一個(gè)點(diǎn),我們當(dāng)然考慮到了。在最新的 Qwen3 模型里,我們做了一些針對(duì)性的改進(jìn)。具體來(lái)說(shuō),我們?nèi)诤狭藘煞N對(duì)話模式:一種是開啟“思考”的模式,另一種是安靜地不給出冗長(zhǎng)思考過(guò)程的模式。開發(fā)者或者用戶可以選擇開關(guān)這個(gè)“思維鏈”輸出。此外我們還加入了思考過(guò)程長(zhǎng)度的控制,也就是可以限定它內(nèi)部思考最多展開多少步,以防止思維鏈過(guò)長(zhǎng)變成絮絮叨叨。目前學(xué)術(shù)界也有很多關(guān)于“思維效率”(Efficiency of Thinking)的研究熱點(diǎn),大家都在探索如何用更短的思考過(guò)程達(dá)到相同甚至更好的效果,或者根據(jù)任務(wù)自動(dòng)判斷需不需要顯式展開思考。我相信這個(gè)問(wèn)題很快會(huì)有所突破,因?yàn)閷?shí)在是太多人在研究?jī)?yōu)化它了,大家都卷進(jìn)來(lái)之后,進(jìn)展會(huì)很快。
唐小引:聽您這么說(shuō),感覺接下來(lái)在這方面不遠(yuǎn)的將來(lái)會(huì)有改變?
楊寶嵩:我認(rèn)為會(huì)的。因?yàn)槲乙呀?jīng)看到非常多在讀博士、學(xué)術(shù)界人士,還有很多公司團(tuán)隊(duì)(包括我們自己)都在鉆研這個(gè)問(wèn)題。整個(gè)行業(yè)一旦卷起來(lái),這個(gè)事情應(yīng)該很快就能得到大幅改進(jìn)。我猜很快你就不會(huì)再被無(wú)用的長(zhǎng)思維鏈煩惱了。
唐小引:接下來(lái)我們聊聊 Scaling Law(規(guī)模定律) 和大小模型的問(wèn)題。當(dāng)今業(yè)界在訓(xùn)練大模型時(shí),面臨數(shù)據(jù)和算力上的天花板,很多人都在討論經(jīng)典的 Scaling Law 是否還能持續(xù)有效。您在 GOSIM 的演講中,提到了一個(gè)概念:“知識(shí)密度”?,F(xiàn)在業(yè)內(nèi)也有人討論,模型能力的提升是否可以通過(guò)提升訓(xùn)練數(shù)據(jù)的知識(shí)密度來(lái)實(shí)現(xiàn)。您是否可以先跟我們講解一下知識(shí)密度在大模型中的作用?
楊寶嵩:知識(shí)密度簡(jiǎn)單理解就是單位數(shù)據(jù)中蘊(yùn)含有用知識(shí)的濃度。我認(rèn)為這是一個(gè)非常重要的研究方向。這半年多來(lái)業(yè)界在這方面其實(shí)已經(jīng)有很直觀的體現(xiàn):你會(huì)發(fā)現(xiàn)現(xiàn)在參數(shù)規(guī)模只有 4B 左右的小模型,在很多任務(wù)上的效果,可能已經(jīng)趕上甚至超過(guò)半年前、一年前那些 70B 級(jí)別大模型的效果。這其中很大程度的收益就來(lái)自于我們給模型喂的訓(xùn)練數(shù)據(jù)的知識(shí)密度和質(zhì)量提升了。
過(guò)去模型訓(xùn)練可能側(cè)重拼數(shù)據(jù)量、拼參數(shù)規(guī)模,現(xiàn)在更多人開始關(guān)注數(shù)據(jù)的精細(xì)打磨——過(guò)濾掉噪音和冗余,壓縮知識(shí)點(diǎn),提高有效信息含量。結(jié)果就是模型用更少的數(shù)據(jù)也能學(xué)到同樣甚至更多的東西。所以我覺得提高知識(shí)密度本身肯定是大家會(huì)持續(xù)研究下去的一個(gè)技術(shù)方向。另一方面,知識(shí)密度提升還有一個(gè)直接好處是訓(xùn)練效率提高了??赡茉瓉?lái)達(dá)到某個(gè)指標(biāo)需要喂給模型 10 萬(wàn)億詞的語(yǔ)料,現(xiàn)在也許 1 萬(wàn)億或 2 萬(wàn)億就夠了。這對(duì)于節(jié)省算力、降低訓(xùn)練成本也很重要,這是目前很令人驚喜的一個(gè)趨勢(shì)。
唐小引:提升知識(shí)密度現(xiàn)在算是大家訓(xùn)練模型時(shí)攻關(guān)的主要方向之一嗎?
楊寶嵩:我覺得至少是主要方向之一,但未必是唯一最重要的方向。
唐小引:那當(dāng)前最重要的方向是什么呢?或者說(shuō),在提升模型能力方面,排在第一位的突破點(diǎn)是什么?
楊寶嵩:如果從基礎(chǔ)模型(Base Model)的研究角度來(lái)看,我個(gè)人認(rèn)為仍然是 Scaling。也就是說(shuō),讓模型規(guī)模繼續(xù)變大、見到更多的數(shù)據(jù),這件事本身還是要持續(xù)去探索的。包括現(xiàn)在很多人在研究的數(shù)據(jù)合成,其實(shí)某種程度上也是為了服務(wù)于 Scaling,可以看作是用另一種方式繼續(xù)“喂”模型更多有效數(shù)據(jù)。所以我心目中排在第一位的依然是擴(kuò)展模型規(guī)模和數(shù)據(jù)規(guī)模(Scaling Law 的延續(xù))。
唐小引:那么在目前算力和原始數(shù)據(jù)受限的情況下,從您做多語(yǔ)言模型的經(jīng)驗(yàn)來(lái)看,有哪些辦法可以幫助我們讓 Scaling Law 得以延續(xù)?很多人都說(shuō),合成數(shù)據(jù)可能是當(dāng)前非常有效的一個(gè)路徑。您在這方面的思考是怎樣的?
楊寶嵩:合成數(shù)據(jù)我理解現(xiàn)在主要有兩大方向。第一類方向,是用模型去“創(chuàng)造”新的知識(shí)和內(nèi)容。這是大家最近很關(guān)注的一種做法。例如,我們可以讓模型自己生成一些高質(zhì)量的問(wèn)題再配上答案,或者基于最新的新聞事件自動(dòng)總結(jié)出一些知識(shí)點(diǎn)和推論,用于訓(xùn)練模型的推理能力等等。簡(jiǎn)單說(shuō),就是利用模型已有的知識(shí)去編造或推演出新的知識(shí)來(lái)訓(xùn)練模型。這聽起來(lái)有點(diǎn)自我進(jìn)化的味道,但如果做好了,確實(shí)可以進(jìn)一步提升模型的能力上限,相當(dāng)于突破原始數(shù)據(jù)沒有提供的新知識(shí)。這是一個(gè)很有前景的研究方向。
第二類相對(duì)成熟一點(diǎn),就是提升知識(shí)密度相關(guān)的合成方法。比如,我們可以讓模型把冗余的數(shù)據(jù)壓縮一下,提煉出核心內(nèi)容,或者對(duì)重復(fù)的、沒價(jià)值的數(shù)據(jù)進(jìn)行剪裁過(guò)濾,使訓(xùn)練語(yǔ)料“更干凈”。這一類做法直接解決的就是前面提到的知識(shí)密度問(wèn)題。通過(guò)模型生成或篩選,讓訓(xùn)練數(shù)據(jù)的信息含量更高??偟膩?lái)說(shuō),我覺得數(shù)據(jù)合成在未來(lái)一定是一個(gè)非常重要的方向,不管是創(chuàng)造新知識(shí),還是提高知識(shí)密度,對(duì)延續(xù) Scaling Law 都非常關(guān)鍵。
唐小引:的確,現(xiàn)在只要談到大模型訓(xùn)練,大家?guī)缀醵紩?huì)提“要不要造數(shù)據(jù)”。在 NVIDIA GTC 大會(huì)上,黃仁勛也特地強(qiáng)調(diào)了合成數(shù)據(jù)對(duì)于繼續(xù)推動(dòng) Scaling Law 的作用。不過(guò)合成數(shù)據(jù)可能帶來(lái)另一個(gè)問(wèn)題:如果所有人都用模型生成數(shù)據(jù)來(lái)訓(xùn)練模型,那么這些模型產(chǎn)出的內(nèi)容又會(huì)被重新爬到互聯(lián)網(wǎng)上,進(jìn)入下一個(gè)循環(huán)的訓(xùn)練數(shù)據(jù)里。長(zhǎng)此以往,訓(xùn)練語(yǔ)料中會(huì)混入越來(lái)越多 AI 自己生成的東西。這樣一來(lái),模型團(tuán)隊(duì)在訓(xùn)練時(shí)需不需要識(shí)別、剔除那些合成的數(shù)據(jù)呢?會(huì)不會(huì)出現(xiàn)“模型吃自己的輸出”導(dǎo)致知識(shí)面越來(lái)越窄的問(wèn)題?
楊寶嵩:這個(gè)現(xiàn)象可以理解為一種“數(shù)據(jù)回流”問(wèn)題,確實(shí)值得關(guān)注。但我的觀點(diǎn)是,首先合成數(shù)據(jù)這件事歷史上一直存在,并不是有了大模型以后才突然出現(xiàn)的新問(wèn)題。舉個(gè)例子,在 ChatGPT 誕生以前,其實(shí)互聯(lián)網(wǎng)上早就充斥著大量模板生成的內(nèi)容和機(jī)器翻譯的文本數(shù)據(jù)。這些嚴(yán)格來(lái)說(shuō)也是“合成”的。我們的模型以前訓(xùn)練也或多或少用了這些數(shù)據(jù)。所以訓(xùn)練數(shù)據(jù)里混入機(jī)器生成內(nèi)容的問(wèn)題早就有,只是以前大家沒太當(dāng)回事。現(xiàn)在大模型寫文章比普通人都像模像樣了,大家反而開始擔(dān)心它填充了我們的訓(xùn)練語(yǔ)料。
唐小引:聽您這么一說(shuō),我也發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象:雖然現(xiàn)在大模型很熱,但真正往深里看,其實(shí)沒有憑空出現(xiàn)多少“全新的問(wèn)題”。您看,像強(qiáng)化學(xué)習(xí)那些概念早在 DeepSeek 帶火之后發(fā)展了好多年了;合成數(shù)據(jù)、幻覺這些話題以前也一直存在。大家好像都在卷大模型新賽道,但底層的技術(shù)積累和要解決的問(wèn)題,卻仿佛是這些年來(lái)一直延續(xù)的老問(wèn)題。這是為什么呢?
楊寶嵩:我覺得這說(shuō)明很多技術(shù)或者問(wèn)題本身并不是突然冒出來(lái)的,而是由來(lái)已久、水到渠成的。就拿神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),這個(gè)概念都提出了幾十年了,不也是最近十年才因?yàn)樗懔蛿?shù)據(jù)的突破而大放異彩嗎?以前技術(shù)條件不成熟,大家摸索了很久。但一旦時(shí)機(jī)成熟,老技術(shù)也能煥發(fā)新活力。所以現(xiàn)在大模型看似新奇,其實(shí)背后很多原理和挑戰(zhàn)還是之前的,只不過(guò)規(guī)模變大了,場(chǎng)景變廣了而已。
唐小引:的確,AI 行業(yè)也是幾起幾落起伏發(fā)展,神經(jīng)網(wǎng)絡(luò)曾經(jīng)也坐了幾十年的冷板凳才等到今天的熱潮。面對(duì)海量合成數(shù)據(jù)回流,模型訓(xùn)練該如何應(yīng)對(duì)?
楊寶嵩:問(wèn)題的第一面是,合成數(shù)據(jù)無(wú)可避免,會(huì)混在訓(xùn)練數(shù)據(jù)里,這是現(xiàn)實(shí),沒有必要過(guò)度恐慌。第二面是,我們也注意到,大模型生成的很多內(nèi)容質(zhì)量并不差,有時(shí)候甚至比人寫的還好。那么對(duì)我們而言,真正需要過(guò)濾和警惕的是什么?無(wú)非就是錯(cuò)誤的信息,或者模型的幻覺產(chǎn)出(瞎編亂造的東西)。除此以外,如果模型生成了一段內(nèi)容正確、表述清晰的文字,從利用角度看,其實(shí)并沒有什么不可以用的。當(dāng)然,這里有個(gè)度的問(wèn)題,不可能我們訓(xùn)練數(shù)據(jù)全都是模型自己寫的,那樣風(fēng)格和角度都會(huì)單一化,對(duì)模型長(zhǎng)遠(yuǎn)發(fā)展不利。我之前在做多語(yǔ)言訓(xùn)練時(shí)就觀察到:人類使用語(yǔ)言有非常豐富的多樣性,模型如果老吃自己產(chǎn)出的東西,難免會(huì)風(fēng)格趨同、內(nèi)容單調(diào),長(zhǎng)遠(yuǎn)看對(duì)語(yǔ)言多樣性和創(chuàng)新是不好的。
所以我們?cè)诶煤铣蓴?shù)據(jù)時(shí)也會(huì)注意比例,不會(huì)讓它淹沒人類數(shù)據(jù)。同時(shí)該過(guò)濾的仍然要過(guò)濾,比如模型內(nèi)容里的錯(cuò)誤和謬誤,我們一定會(huì)想辦法去識(shí)別和剔除。好在現(xiàn)在也有一些技術(shù)手段可以檢測(cè)一段話是模型寫的還是人寫的。說(shuō)到底,大模型生成的內(nèi)容還是有一些可以識(shí)別的特征的。當(dāng)然模型越來(lái)越強(qiáng),那特征可能會(huì)越來(lái)越弱,但至少目前來(lái)看,這方面研究也在進(jìn)行。
唐小引:只要合成數(shù)據(jù)經(jīng)過(guò)你們正常的數(shù)據(jù)清洗、質(zhì)量評(píng)估,達(dá)標(biāo)了,就可以拿來(lái)用,但同時(shí)也會(huì)控制一個(gè)使用比例?
楊寶嵩:沒錯(cuò),我們并不排斥模型生成的數(shù)據(jù),只要它質(zhì)量夠高,我們就把它當(dāng)普通訓(xùn)練數(shù)據(jù)用就好了。當(dāng)然也不會(huì)無(wú)節(jié)制地全用,會(huì)混合比例,保證多樣性?,F(xiàn)在也有一些研究工作嘗試在訓(xùn)練時(shí)顯式打標(biāo)簽,比如給合成數(shù)據(jù)前面加個(gè)特殊標(biāo)記,讓模型知道哪些是 AI 生成、哪些是人類數(shù)據(jù),再一塊訓(xùn)練。最近確實(shí)有一些論文在探討這種做法,但我個(gè)人覺得沒特別必要一定要做顯式區(qū)分。完全可以在預(yù)訓(xùn)練的不同時(shí)期用不同的數(shù)據(jù)源來(lái)訓(xùn)練,這樣達(dá)到的效果其實(shí)也差不多。所以總的來(lái)說(shuō),我們不會(huì)太糾結(jié)某條數(shù)據(jù)是不是模型寫的,更關(guān)注它是不是真實(shí)、正確、豐富多樣的。
唐小引:接下來(lái)聊聊大小模型的問(wèn)題。業(yè)界不同團(tuán)隊(duì)在模型規(guī)模路線上的選擇不太一樣:比如 DeepSeek 一直走的是超大參數(shù)模型路線,而像千問(wèn)以及許多開源模型,基本上大小模型都有布局,近期也發(fā)布了好些小模型。您能談?wù)?strong>千問(wèn)在大小模型上的考慮嗎?
楊寶嵩:這其實(shí)和每個(gè)機(jī)構(gòu)或公司的戰(zhàn)略方向有關(guān)。對(duì)于阿里來(lái)說(shuō),因?yàn)榘⒗镌坪屯x實(shí)驗(yàn)室實(shí)際上是密切協(xié)同的關(guān)系,我們需要考慮云上客戶的需求。阿里的很多客戶業(yè)務(wù)場(chǎng)景是在終端或者邊緣設(shè)備上跑的,他們對(duì)推理效率、時(shí)延有非常高的要求。這種情況下,如果我們的模型只能提供一個(gè)上百億、上千億參數(shù)的超大模型,顯然無(wú)法滿足很多落地需求。所以第一個(gè)考慮,我們肯定需要推出小模型,在保證一定能力的前提下盡量精簡(jiǎn),方便部署到各種環(huán)境里。其次,從開源和科研的角度,我們也希望不要讓模型規(guī)模成為創(chuàng)新的門檻。太大的模型,學(xué)術(shù)界的老師和同學(xué)們沒法跑實(shí)驗(yàn),普通開發(fā)者也用不起。甚至對(duì)我們自己來(lái)說(shuō),訓(xùn)練和微調(diào)一個(gè)幾百億參數(shù)的模型都已經(jīng)非常困難了,更別提數(shù)千億的。所以為了讓社區(qū)生態(tài)發(fā)展得更繁榮,我們選擇開放小尺寸和中等尺寸的模型,并且持續(xù)打磨提升它們的效果。讓更多人可以在千問(wèn)模型上做二次開發(fā)、驗(yàn)證新想法。這一點(diǎn)上我們最近也挺有成就感的——看到非常多論文、項(xiàng)目開始使用千問(wèn)模型作為基座。
唐小引:是的,現(xiàn)在不少開源模型提到“基于某某大模型微調(diào)”時(shí),都會(huì)有千問(wèn)的名字出現(xiàn)。比如李飛飛團(tuán)隊(duì)的 s1 模型、Manus 據(jù)說(shuō)也是基于 Claude 和千問(wèn)。
楊寶嵩:這個(gè)我們也很高興看到。
唐小引:千問(wèn)的小模型能夠被這么多成果應(yīng)用,也說(shuō)明走“小而精”路線很有價(jià)值。您剛才也提到,很多小模型在某些能力上已經(jīng)可以和大模型相當(dāng)。這自然讓人想到端側(cè)部署的問(wèn)題——既然小模型足夠強(qiáng),那把它們放到手機(jī)、耳機(jī)、眼鏡這些設(shè)備上就成為可能。基于您對(duì)多語(yǔ)言和模型的研究,千問(wèn)在端側(cè)部署和 AI 外設(shè)上有怎樣的規(guī)劃和考慮?
楊寶嵩:我們一直在思考布局。其實(shí)現(xiàn)在已經(jīng)有很多廠商在做各種各樣的 AI 外設(shè)(設(shè)備),比如智能眼鏡、智能耳機(jī),甚至一些家用電器等。這些設(shè)備由于算力、功耗限制,往往只能跑很小的模型或者本地推理的模型。它們所需要的功能有些也相對(duì)沒那么復(fù)雜,比如耳機(jī)可能需要做語(yǔ)音識(shí)別或者簡(jiǎn)單的同聲傳譯,這種場(chǎng)景下也許一個(gè) 4B 參數(shù)量級(jí)甚至更小的模型就能勝任。我們看到的趨勢(shì)是,模型在終端側(cè)的部署需求會(huì)越來(lái)越多。千問(wèn)肯定也會(huì)順應(yīng)這個(gè)趨勢(shì),推出適合端側(cè)的小模型版本,并針對(duì)這些應(yīng)用場(chǎng)景進(jìn)行優(yōu)化。
唐小引:能具體舉個(gè) AI 眼鏡的例子嗎?比如 Meta 的智能眼鏡,我當(dāng)時(shí)很驚喜地看到號(hào)稱結(jié)合了 Llama 模型的能力,所以立刻買來(lái)試了一下。結(jié)果不知什么原因,我嘗試跟它語(yǔ)音交互的時(shí)候,感覺 Llama 并沒有很好地在發(fā)揮作用。目前對(duì)我來(lái)說(shuō),它還只是一個(gè)時(shí)尚的穿戴設(shè)備。我對(duì)它的期待其實(shí)要高得多——比如我希望戴著它逛盧浮宮時(shí),它能直接用我的語(yǔ)言給我講解眼前蒙娜麗莎的故事;當(dāng)我看到一幅陌生但有趣的畫作時(shí),它告訴我這是誰(shuí)的作品,有什么典故和寓意;又比如在異國(guó)他鄉(xiāng),如果周圍有人說(shuō)我聽不懂的語(yǔ)言,它能實(shí)時(shí)翻譯告訴我對(duì)方在說(shuō)什么……總之,我理想中的智能眼鏡可以輔助生活工作的方方面面。但是現(xiàn)在來(lái)看,它的實(shí)際表現(xiàn)離我的期望還差得很遠(yuǎn)。
楊寶嵩:這些需求非常典型,而且很有代表性。我認(rèn)為目前這種智能眼鏡還處在一個(gè)起步的階段。早期嘗鮮總是要付出一點(diǎn)代價(jià),智能手機(jī)剛出來(lái)的時(shí)候,第一批 iPhone 用戶也很難想象十多年后手機(jī)會(huì)如此普及、功能如此強(qiáng)大。AI 外設(shè)現(xiàn)在的發(fā)展也類似,先從基礎(chǔ)功能做起,隨著軟硬件不斷成熟,再一步步逼近我們的理想目標(biāo)。一方面,目前硬件層面也許還跟不上,比如電池、算力、網(wǎng)絡(luò)連接這些都需要突破。另一方面,軟件層面也在快速演進(jìn)中。大模型的多模態(tài)融合、與外部世界交互(例如工具調(diào)用)現(xiàn)在都在積極探索,但確實(shí)還沒有完全成熟。所以像您剛才提到的那些場(chǎng)景——多語(yǔ)言的語(yǔ)音翻譯、跨語(yǔ)言的文字識(shí)別甚至即時(shí)生成展現(xiàn)——目前業(yè)內(nèi)都還在攻關(guān)中,算是很有挑戰(zhàn)的課題。
唐小引:您覺得以千問(wèn)的能力,在現(xiàn)在這個(gè)時(shí)間點(diǎn),AI 外設(shè)上可以實(shí)現(xiàn)到什么程度?您的目標(biāo)又是希望達(dá)到怎樣的效果呢?
楊寶嵩:就目前來(lái)看,我了解到的情況是,國(guó)內(nèi)外許多車企、手機(jī)廠商以及智能硬件公司都在和阿里云通義團(tuán)隊(duì)合作,嘗試把千問(wèn)相關(guān)的模型能力嵌入他們的設(shè)備中。我們實(shí)驗(yàn)室發(fā)布過(guò)一個(gè) Mobile-Agent 系統(tǒng),雖然不是我們多語(yǔ)言組負(fù)責(zé)的,但也是通義實(shí)驗(yàn)室的成果。它相當(dāng)于是一個(gè)基于視覺的智能代理,可以通過(guò)“看”來(lái)操作手機(jī)。比如你對(duì)手機(jī)說(shuō)“幫我點(diǎn)一份外賣”,Mobile-Agent 就能模擬人在屏幕上完成點(diǎn)餐的操作。它還能執(zhí)行一些固定的基本流程,我覺得更復(fù)雜的操作很快也能實(shí)現(xiàn),因?yàn)榇_實(shí)很多人在做這方面的開發(fā)和優(yōu)化。再比如在智能眼鏡、智能耳機(jī)里,其實(shí)已經(jīng)可以做一些定向的視覺識(shí)別和語(yǔ)音輔助功能了。
簡(jiǎn)單來(lái)說(shuō),你用眼鏡對(duì)著一段文字,眼鏡里可以彈出翻譯后的文字提示——這種基本的文字識(shí)別和翻譯,現(xiàn)在技術(shù)上已經(jīng)是可行的。但是,如果你希望眼鏡所見的一切,比如整段文字都實(shí)時(shí)替換成另一種語(yǔ)言在原環(huán)境中呈現(xiàn)(比如把博物館展牌上的法語(yǔ)直接替換成中文顯示在你眼中),這里面還存在很大的難題。涉及到圖像中文字的渲染、Diffusion 生成這類技術(shù),特別是對(duì)于一些非拉丁字母的小語(yǔ)種文字,生成效果目前還不夠理想。我之前看過(guò)一些最新的嘗試,生成的替換文字常常奇形怪狀,像一堆小蟲子在爬,遠(yuǎn)沒有達(dá)到可以實(shí)用的程度。
不過(guò),我認(rèn)為這可能在一兩年內(nèi)會(huì)出現(xiàn)突破。畢竟這些問(wèn)題很多人都在研究,一旦有方法可行,應(yīng)用層面推進(jìn)會(huì)很快。另外,像您提到的耳機(jī)同傳(同聲傳譯),其實(shí)現(xiàn)在相關(guān)技術(shù)相對(duì)成熟一些。對(duì)于大部分主流語(yǔ)言之間,我們已經(jīng)可以做到語(yǔ)音輸入 -> 實(shí)時(shí)翻譯 -> 目標(biāo)語(yǔ)言語(yǔ)音輸出,還有文字轉(zhuǎn)寫等功能。只是如果涉及一些非常小眾的語(yǔ)言,把語(yǔ)音翻譯成文字顯示,可能效果還受限于語(yǔ)言的數(shù)據(jù)量不足。這又回到多語(yǔ)言的老問(wèn)題了,小語(yǔ)種缺少數(shù)據(jù),模型就很難訓(xùn)好。這部分體驗(yàn)暫時(shí)還有提升空間。
唐小引:剛剛我們聊的是把模型塞進(jìn)各種智能設(shè)備里。我還蠻好奇系統(tǒng)級(jí)整合這個(gè)話題?,F(xiàn)在大家都很期待手機(jī)、電腦的廠商能不能把大模型直接集成進(jìn)操作系統(tǒng)層面。畢竟目前我們用手機(jī)上的 AI 模型,大多是裝各種 App(比如通義、ChatGPT、Gemini 等),用起來(lái)和系統(tǒng)原生體驗(yàn)區(qū)別挺大,模型和操作系統(tǒng)的結(jié)合現(xiàn)在進(jìn)展到什么程度了?
楊寶嵩:目前來(lái)看,應(yīng)該說(shuō)大部分功能在技術(shù)上都可以集成到系統(tǒng)里,但是有一些過(guò)于開放的能力,現(xiàn)在還不敢放到系統(tǒng)層面去。一是因?yàn)榇竽P团紶栠€有幻覺、錯(cuò)誤,做不到百分之百可靠。把這樣不確定性的東西深度集成,很可能出現(xiàn)不可控的問(wèn)題。但我認(rèn)為要視場(chǎng)景而定:絕大多數(shù)交互場(chǎng)景,其實(shí)并不需要 100% 準(zhǔn)確率。相比以前的 Siri,現(xiàn)在大模型給你的響應(yīng)即使偶爾不完美,但在理解你的意圖、陪伴交流上已經(jīng)是巨大的飛躍了。所以語(yǔ)音助手這一塊的發(fā)展非???。接下來(lái)真正難點(diǎn)是那些需要強(qiáng)確定性和安全性的操作,這部分可能短時(shí)間內(nèi)還是得保守一點(diǎn)。
唐小引:是的,比如現(xiàn)在大家討論的端側(cè) AI 主要集中在手機(jī)和汽車兩個(gè)場(chǎng)景。手機(jī)上更多是數(shù)據(jù)隱私和安全的問(wèn)題,但汽車上涉及人身安全,您認(rèn)為車載結(jié)合大模型和現(xiàn)在很熱的 Agent 技術(shù),會(huì)帶來(lái)什么樣的變化?以及在安全層面,該如何看待?
楊寶嵩:我先聲明,我不是直接做車載 AI 的,這方面只是個(gè)人觀點(diǎn)。我認(rèn)為汽車?yán)镉蟹浅6嗟胤娇梢詰?yīng)用 AI,但不代表所有部分都要上大模型。像車內(nèi)的語(yǔ)音助手,開關(guān)窗、調(diào)節(jié)空調(diào)這些指令,用大模型來(lái)做其實(shí)挺方便的,用戶體驗(yàn)會(huì)比傳統(tǒng)固定命令好很多。再比如車載導(dǎo)航、出行規(guī)劃這塊,其實(shí)也可以引入大模型來(lái)增強(qiáng)體驗(yàn)。舉個(gè)場(chǎng)景:假設(shè)我對(duì)車?yán)锏?AI 說(shuō)“我現(xiàn)在在巴黎,待會(huì)想去吃午飯,然后下午隨便逛逛,你給我推薦幾個(gè)不錯(cuò)的餐館和景點(diǎn)并規(guī)劃路線”。傳統(tǒng)導(dǎo)航軟件只能一個(gè)功能一個(gè)功能來(lái),你得自己搜索、看評(píng)價(jià)、再設(shè)導(dǎo)航。有了大模型代理, 它可以幫你把這些鏈條式的任務(wù)都串起來(lái):先在后臺(tái)調(diào)用點(diǎn)評(píng)類的服務(wù)搜附近餐廳,篩選高評(píng)分又符合你口味的;選好餐廳后再調(diào)用導(dǎo)航服務(wù)自動(dòng)幫你設(shè)好路線。
整個(gè)過(guò)程,大模型就像一個(gè)調(diào)度者或者高級(jí)助手,真正執(zhí)行導(dǎo)航的還是原來(lái)的導(dǎo)航軟件,但用戶這邊體驗(yàn)就是一句話搞定。我相信這種場(chǎng)景下,大模型未來(lái)大有用武之地——它擅長(zhǎng)理解你的復(fù)雜意圖,擅長(zhǎng)在不同工具和服務(wù)之間做決策、做操作。至于您提到的安全問(wèn)題,比如自動(dòng)駕駛那種和人身安全強(qiáng)相關(guān)的,我個(gè)人覺得短期內(nèi)大模型不會(huì)貿(mào)然直接介入。自動(dòng)駕駛涉及的傳感器處理、控制系統(tǒng)那些,有各自成熟的方案,不一定要用大語(yǔ)言模型來(lái)做。大模型更適合做人機(jī)交互、輔助決策這一塊。所以安全方面,至少交互層面的安全是可以通過(guò)不斷改進(jìn)模型、設(shè)置防御策略來(lái)保障的;而駕駛控制層面的安全,我估計(jì)業(yè)界還是會(huì)謹(jǐn)慎,讓大模型該做決策時(shí)做決策,該交回專業(yè)系統(tǒng)時(shí)就交回去。
唐小引:現(xiàn)在看來(lái),像您說(shuō)的娛樂信息和交互需求上用大模型沒問(wèn)題,但真正涉及車輛駕駛決策,大多數(shù)人還是持保留態(tài)度。這部分我們也拭目以待后續(xù)行業(yè)怎么發(fā)展。
楊寶嵩:是的,安全永遠(yuǎn)是重中之重。
唐小引:最后我想問(wèn)個(gè)總結(jié)性的問(wèn)題。從您個(gè)人經(jīng)歷來(lái)看,您是從機(jī)器翻譯一路做到現(xiàn)在大模型的多語(yǔ)言能力研發(fā),可以說(shuō)見證了 AI 在語(yǔ)言領(lǐng)域的幾次階段性跨越。現(xiàn)在很多人討論“大模型會(huì)不會(huì)取代 XX”的話題。我想請(qǐng)您談?wù)劇叭〈边@件事的好與不好。比如以翻譯為例,現(xiàn)在我們已經(jīng)能用 AI 實(shí)現(xiàn)相當(dāng)不錯(cuò)的機(jī)器翻譯和同傳,那么對(duì)于人工翻譯從業(yè)者來(lái)說(shuō)是危機(jī),對(duì)行業(yè)來(lái)說(shuō)又是機(jī)遇,對(duì)大眾則是福利。您怎么看待這種技術(shù)替代帶來(lái)的機(jī)遇和挑戰(zhàn)?
楊寶嵩:我分兩方面來(lái)說(shuō)。首先,就機(jī)器翻譯這個(gè)領(lǐng)域本身來(lái)說(shuō),大模型的出現(xiàn)并沒有替代機(jī)器翻譯,它只是成為了機(jī)器翻譯里面的一種新技術(shù)路線,就像當(dāng)年統(tǒng)計(jì)機(jī)器翻譯被神經(jīng)機(jī)器翻譯替代一樣,現(xiàn)在神經(jīng)網(wǎng)絡(luò)又升級(jí)成大模型來(lái)做翻譯。本質(zhì)上講,機(jī)器翻譯是一個(gè)長(zhǎng)期的需求和問(wèn)題領(lǐng)域,而大模型的引入讓我們能夠探索更多可能性,解決以前解決不了的問(wèn)題。比如覆蓋更多的小語(yǔ)種,支持圖像、視頻這類多模態(tài)的翻譯,甚至做到實(shí)時(shí)的語(yǔ)音同傳等等。這些新能力拓展了機(jī)器翻譯的邊界,也使得這個(gè)行業(yè)會(huì)發(fā)展的更好、更有價(jià)值。所以我不覺得大模型是毀掉了機(jī)器翻譯行業(yè),相反,它給這個(gè)方向注入了新活力,最終會(huì)造福更多的人。
至于對(duì)人工語(yǔ)言工作者(譯員、同傳等)的影響,我覺得至少目前為止,可以把大模型視作效率工具,就像程序員看待代碼自動(dòng)補(bǔ)全、代碼生成工具那樣。我們?yōu)槭裁匆欢ㄒ刻炜喔墒畟€(gè)小時(shí)呢?能不能像法國(guó)人那樣,下午三點(diǎn)就去悠閑遛狗?我的意思是,如果 AI 工具能提高我們的生產(chǎn)力,我們就應(yīng)該擁抱它,把重復(fù)繁重的部分交給 AI,自己則提升技能去做更高價(jià)值的事情。當(dāng)然,這需要整個(gè)社會(huì)和用人單位觀念的轉(zhuǎn)變。如果只是單方面要求從業(yè)者又要用 AI 又要加量不加價(jià),那肯定會(huì)引起焦慮和不公平。不過(guò)長(zhǎng)遠(yuǎn)看,我相信優(yōu)秀的人工翻譯、作家這些創(chuàng)意和語(yǔ)言領(lǐng)域的人才,反而更不容易被取代。因?yàn)檫@些工作產(chǎn)出的評(píng)價(jià)標(biāo)準(zhǔn)是“好不好”,而不是簡(jiǎn)單的“對(duì)或錯(cuò)”。代碼不對(duì)就是不對(duì),AI 把它寫對(duì)了那程序員的價(jià)值確實(shí)被取代了一部分。但翻譯、寫作不太一樣,有時(shí)候 AI 翻譯出來(lái)是正確但平淡,而人類翻譯能夠融入更多巧思、文采,那客戶還是會(huì)選人類的作品。所以真正頂尖的語(yǔ)言專家我認(rèn)為更容易保住飯碗,甚至比程序員更安全。
唐小引:您這一番話本來(lái)是想安慰一下大眾,讓大家別過(guò)度焦慮,結(jié)果 CSDN 上的程序員們聽完可能更焦慮了。
楊寶嵩:哈哈,其實(shí)也不用焦慮。我覺得未來(lái)肯定也會(huì)出現(xiàn)新的職位和機(jī)會(huì)。就像我剛才舉的例子,以后可能會(huì)有一種新的程序員,叫 AI 編程師或者 Prompt 工程師之類的,專門負(fù)責(zé)和各種 AI 打交道,幫 AI 更好地完成任務(wù)。這有點(diǎn)類似現(xiàn)在大家說(shuō)的各種 Agent 調(diào)度。最近很熱的 MCP 協(xié)議其實(shí)就是讓不同模型、工具協(xié)同工作。未來(lái)懂得把不同 AI 工具組合起來(lái)解決復(fù)雜問(wèn)題的人,會(huì)非常搶手。這其實(shí)也是一種新的開發(fā)工作,只不過(guò)對(duì)象從傳統(tǒng)的代碼邏輯變成了如何編排多個(gè) AI 協(xié)同。
唐小引:說(shuō)到這點(diǎn),確實(shí)像您提到的,現(xiàn)在已經(jīng)有一些 AI 編程/AI Agent 平臺(tái)在做類似的事了。例如 Cursor 等開發(fā)工具,其實(shí)就可以直接調(diào)用各種模型和插件,幫開發(fā)者完成復(fù)雜任務(wù)的編排。國(guó)內(nèi)很多團(tuán)隊(duì)也在鉆研這一塊。所以您說(shuō)的“新程序員”這個(gè)角色,其實(shí)現(xiàn)在已經(jīng)在雛形階段了。
楊寶嵩:是的,本質(zhì)上和當(dāng)前的探索是一樣的。我想強(qiáng)調(diào)的是,隨著 AI 能力在各行各業(yè)、各類設(shè)備中鋪開,這方面的人才需求只會(huì)越來(lái)越多。當(dāng)智能手機(jī)、汽車、眼鏡等等底層的 AI 接口和協(xié)議都成熟完善后,在上面開發(fā)各種 AI 應(yīng)用就會(huì)變得非常容易且繁榮。那時(shí)候所謂的“AI 應(yīng)用開發(fā)工程師”估計(jì)比現(xiàn)在的移動(dòng)開發(fā)、Web 開發(fā)還要常見,這個(gè)領(lǐng)域大有可為。
唐小引:說(shuō)得很好。節(jié)目最后,我們?cè)侔涯抗饫啬钌瞄L(zhǎng)的多語(yǔ)言 AI 這一塊。對(duì)于您,以及所有致力于多語(yǔ)言大模型研究的從業(yè)者來(lái)說(shuō),目前已經(jīng)取得了哪些成果?接下來(lái)還希望突破的核心難題是什么?也請(qǐng)您展望一下未來(lái)要重點(diǎn)攻克的方向。
楊寶嵩:當(dāng)前大模型在多語(yǔ)言方面的整體進(jìn)展,相對(duì)慢于比如數(shù)學(xué)、編程這些熱點(diǎn)方向。在行業(yè)討論熱度上,多語(yǔ)言沒有那么風(fēng)口浪尖,但它其實(shí)又非常重要。以我們千問(wèn)為例,現(xiàn)在可以做到的階段性成果是:對(duì)于那些高資源語(yǔ)種(數(shù)據(jù)足夠豐富的語(yǔ)言),模型基本能理解指令,進(jìn)行比較流暢的對(duì)話和回答。這算是實(shí)現(xiàn)了一定程度的“多語(yǔ)言通用能力”。
但是有兩大問(wèn)題我覺得目前還沒有解決,甚至短期內(nèi)都不一定能完全解決:首先是不同文化的對(duì)齊問(wèn)題。剛才咱們也提到,比如同樣問(wèn)“晚上吃什么”,中國(guó)用戶期望的回答和阿拉伯用戶期望的可能完全不同——前者可能期待一些本地美食建議,后者還得考慮清真不清真、宗教禁忌等等。未來(lái)作為一個(gè) AI 助手,要在角色扮演、情感陪護(hù)以及各種場(chǎng)景下都滿足不同文化用戶的需求,這對(duì)模型來(lái)說(shuō)很難。我們最近做了一些評(píng)測(cè)也能發(fā)現(xiàn),現(xiàn)在很多大模型體現(xiàn)出的“文化”和“價(jià)值觀”要么就是很東方化,要么就是很英美化(盎格魯-撒克遜化)。這其實(shí)說(shuō)明模型在文化多樣性上還有很大提升空間。
唐小引:您覺得這個(gè)問(wèn)題可以解決嗎?
楊寶嵩:相對(duì)來(lái)說(shuō)是能解決的??梢酝ㄟ^(guò)一些強(qiáng)化學(xué)習(xí)和價(jià)值觀對(duì)齊的方式去調(diào)整模型在不同文化下的表現(xiàn)。當(dāng)然這里面有一個(gè)更深層的難點(diǎn)是知識(shí)覆蓋。也就是說(shuō)模型腦子里對(duì)不同文化背景的知識(shí)儲(chǔ)備。這可能需要通過(guò)擴(kuò)大數(shù)據(jù)規(guī)模、提升模型參數(shù),或者接入 RAG(Retrieval Augmented Generation,即檢索增強(qiáng)生成)等手段來(lái)補(bǔ)充。
但目前來(lái)看,多文化對(duì)齊還不算最棘手,真正不太好解決的是我接下來(lái)要說(shuō)的第二點(diǎn)——各語(yǔ)言的生成能力。簡(jiǎn)單說(shuō),就是讓模型說(shuō)不同語(yǔ)言的時(shí)候是不是夠自然、夠像人。在一些大語(yǔ)種上(比如中英文),大家可能覺得現(xiàn)在大模型輸出已經(jīng)挺像人了,但其實(shí)仔細(xì)一用還是會(huì)發(fā)現(xiàn)有時(shí)候不太地道或者風(fēng)格怪怪的,更別提那些小語(yǔ)種了。全世界有上千種語(yǔ)言,而目前大模型真正能比較流暢地支持生成和翻譯的可能也就幾十種,占比不到 1%。絕大多數(shù)語(yǔ)言,大模型最多能做到“聽得懂”,但很難“說(shuō)得好”。要讓模型用每一種小語(yǔ)種都寫出像模像樣的段落,這條路還很長(zhǎng)。
而且說(shuō)實(shí)話,這個(gè)問(wèn)題很難解決。因?yàn)楦鶕?jù)我們的研究和經(jīng)驗(yàn),生成這件事情非常依賴 Scaling,也就是依賴海量的數(shù)據(jù)和超大的模型。但偏偏在多語(yǔ)言上,Scaling 遇到了嚴(yán)峻挑戰(zhàn)——很多語(yǔ)言它就是沒有那么多數(shù)據(jù)給你。所以未來(lái)我想一定要靠合成數(shù)據(jù)這條路,或者甚至跨模態(tài)的遷移,把其它模態(tài)(比如語(yǔ)音、圖像里的信息)轉(zhuǎn)化為文本數(shù)據(jù)來(lái)豐富小語(yǔ)種。這方面我們也在積極思考和嘗試。
唐小引:這些是您眼前就已經(jīng)顧得上的“頭疼問(wèn)題”嗎,還是說(shuō)覺得它更像是長(zhǎng)遠(yuǎn)的戰(zhàn)略難題?
楊寶嵩:既是長(zhǎng)遠(yuǎn)的,也是眼前正在著手做的。我們作為研究人員,一方面要有長(zhǎng)期攻關(guān)的意識(shí),另一方面遇到問(wèn)題該解決還是得解決,不能因?yàn)殡y就不管。目前這些方向我們團(tuán)隊(duì)都有投入,人手再緊也得硬上。
但這也正是科研的有趣之處,有挑戰(zhàn)才有動(dòng)力。除了剛才說(shuō)的兩個(gè),我認(rèn)為還有第三個(gè)大問(wèn)題,就是多語(yǔ)言和多模態(tài)的融合。這塊現(xiàn)在業(yè)內(nèi)研究的還比較少。比如,讓模型識(shí)別圖片里的多語(yǔ)言文字、或者生成多語(yǔ)言的語(yǔ)音和字幕,甚至對(duì)于不同口音、方言的理解和生成,這些都是才剛起步。我相信以后圖像、語(yǔ)音和文本會(huì)越來(lái)越結(jié)合,而語(yǔ)言又有這么多種類,這里面肯定還有很多文章可做。
唐小引:聽起來(lái)您是在呼喚更多的研究者趕緊加入一起攻克這些難題??!
楊寶嵩:確實(shí)是希望有更多人一起努力。在千問(wèn)項(xiàng)目上,我們選擇把模型開源出來(lái),提供一個(gè)高性能的基礎(chǔ)模型,目的也是希望整個(gè)開源社區(qū)能夠和我們一道把事情做好。其實(shí)我們自己也從開源社區(qū)受益良多。比如一些優(yōu)秀的數(shù)據(jù)集項(xiàng)目像 FineWeb、CulturaX,都是社區(qū)貢獻(xiàn)的,讓我們能獲取到更高質(zhì)量的多語(yǔ)言訓(xùn)練數(shù)據(jù);還有各種各樣的 Benchmark 和數(shù)據(jù)過(guò)濾技術(shù),這些都是社區(qū)智慧的結(jié)晶。
可以說(shuō),只有大家一起共建,這些多語(yǔ)言長(zhǎng)期難題才能解決得更好。我也不覺得光靠我們千問(wèn)團(tuán)隊(duì),或者光靠某個(gè)巨頭的閉門團(tuán)隊(duì),就能把 AGI 實(shí)現(xiàn)了。這一定需要成百上千、乃至上萬(wàn)的科學(xué)家和開發(fā)者同心協(xié)力,才可能最終達(dá)成目標(biāo)。就拿我前面提到的多語(yǔ)言數(shù)據(jù)問(wèn)題來(lái)說(shuō),比如 FineWeb 2.0 那個(gè)項(xiàng)目,他們?yōu)榱饲逑椿ヂ?lián)網(wǎng)數(shù)據(jù),就每種語(yǔ)言都找母語(yǔ)專家或眾包人員去制定過(guò)濾規(guī)則,甚至訓(xùn)練專門的分類模型來(lái)過(guò)濾數(shù)據(jù)。這種資源和投入對(duì)我們一個(gè)團(tuán)隊(duì)來(lái)說(shuō)太難了,但靠社區(qū)的力量就能完成。這正是開源共建的價(jià)值所在。
唐小引:這就是開源的魅力!讓我們一起 Enjoy 開源,Enjoy AI 吧!非常感謝楊老師今天帶來(lái)如此深入而精彩的分享!也感謝各位觀眾的觀看。歡迎大家持續(xù)關(guān)注 GOSIM 的 X、YouTube、B 站等賬號(hào),我們將不斷為大家奉上更多來(lái)自開源與 AI 前沿的技術(shù)分享和觀點(diǎn)見解。本期節(jié)目就到這里,我們下次再見啦。
GOSIM 下一站預(yù)告9月13-14 日,GOSIM 將和全球伙伴們相約杭州加入 GOSIMGOSIM HANGZHOU 2025 講師團(tuán)議題申報(bào)截止時(shí)間:2025 年 8 月 15 日 24:00
GOSIM 杭州站官網(wǎng) :
https://hangzhou2025.gosim.org/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.