撰文|喬雨晴
編輯|翟文婷
鄭州一位大媽怎么也沒想到,自己在家門口學(xué)會(huì)的廣場(chǎng)舞,會(huì)被百度AI搬到法國(guó)凱旋門前,而且火爆了自己的老年朋友圈。
在百度「AI環(huán)球盲盒拜年」里,只需上傳自己的照片,輕輕一點(diǎn),紅綢扇舞的視頻就能出現(xiàn)在紐約時(shí)代廣場(chǎng)、南極科考站甚至迪拜高樓前。這些帶著中國(guó)年味的數(shù)字影像,如同蒲公英種子般飄向全球地標(biāo)。
一年前,AI可能還是一種高大上的技術(shù)概念;現(xiàn)如今,百度已經(jīng)把AI融入鄉(xiāng)音、灶臺(tái)油漬里的人情冷暖。當(dāng)AI不僅能聽懂東北話「波棱蓋卡禿嚕皮」,還能精準(zhǔn)捕捉重慶麻將桌上的「刮風(fēng)下雨」時(shí),這場(chǎng)技術(shù)革命正在以最柔軟的方式重塑中國(guó)人的日常生活。
老年人甚至比年輕人玩得更上頭。他們不需要明白那些復(fù)雜的技術(shù)參數(shù),只是動(dòng)動(dòng)手指在小程序里上傳照片,就能在老朋友圈子里揚(yáng)眉吐氣一把?!@種「科技爽感」帶來的滿足,遠(yuǎn)比刷短視頻來得更持久。
這場(chǎng)始于春節(jié)的AI實(shí)驗(yàn)證明:真正的技術(shù)革命,從來不是自上而下的顛覆,而是自下而上地打撈那些被忽視的人間煙火。
01什么才是真正的出圈
「我們的模型在N個(gè)維度超越了GPT-4」——這樣的新聞標(biāo)題也許能讓科技圈興奮不已,但在這個(gè)春節(jié),我們看到了更有意思的現(xiàn)象。
喜歡跳廣場(chǎng)舞的阿姨們,只需要在百度AI環(huán)球盲盒拜年里上傳自己的跳舞視頻,就像打開任意門,把自己的舞蹈搬運(yùn)到盧浮宮、時(shí)代廣場(chǎng)等全球地標(biāo)前,效果逼真到自家孩子也會(huì)問問「奶奶,你什么時(shí)候出國(guó)玩啦」。
而通過百度智能云曦靈數(shù)字人微信小程序「飛貼賀新春」活動(dòng),你不僅可以上傳自己的、父母的、孩子的照片,生成定制的拜年視頻,表情自然、唇音同步;還可以上傳蒙娜麗莎、兵馬俑、達(dá)芬奇等歷史文化名人,讓他們用佟湘玉的陜西話、東北話、四川話、閩南話,替你傳遞祝福。
「AI拜年」功能,更是打開了我們對(duì)拜年賀卡的想象力。在百度中搜索「AI拜年」,只需要上傳照片,一句話,25秒就能收獲一張專屬的拜年賀卡。
你可以讓Taylor Swift穿上東北大花襖包餃子:
也可以讓馬斯克拱手作揖拜年:
還可以讓向佐一個(gè)手扶著鼻梁,另一個(gè)手撒紅包:
在家族群里,二舅把全家福P到月球表面舞獅,三嬸則在喜馬拉雅山頂煮出會(huì)發(fā)光的餃子,表哥就能把財(cái)神爺請(qǐng)到自家的客廳里來。
出門在外、春節(jié)旅行的體驗(yàn),也在發(fā)生變化。百度上線了34個(gè)省級(jí)行政區(qū)的文旅智能體,用會(huì)說方言的AI重新定義了導(dǎo)游。這些操著鄉(xiāng)音的AI角色,不再復(fù)述千篇一律的景區(qū)簡(jiǎn)介,而是化身成帶著煙火氣的數(shù)字老鄉(xiāng)。
福建的簪花花用閩南軟語講述土樓屋檐滴落的煙雨,徽州的包拯以合肥話解密徽商暗藏在馬頭墻里的算盤聲,湖南的芙小蘭甚至能用湘江浪花般的語速,教你分辨剁椒魚頭里朝天椒與七星椒的比例,天津baibai不僅能用天津話推薦景點(diǎn)、解說五大道,還能即興給你來一段快板。
這些參與、發(fā)布、體驗(yàn)的用戶,大部分從未接觸過AI工具。
他們不需要理解CLIP或Diffusion模型,只需要知道像跟自己的兒孫對(duì)話一樣,用自家的方言,說出自己想做的事——「在巴黎跳廣場(chǎng)舞」,「我要恭喜發(fā)財(cái)拜年視頻」。
技術(shù)的真正價(jià)值,不在于能打破多少記錄,而在于能觸達(dá)多少普通人的生活。
當(dāng)不會(huì)說普通話的老人能用方言和AI對(duì)話,當(dāng)從未出過遠(yuǎn)門的大媽能在世界地標(biāo)起舞,當(dāng)小學(xué)生能用AI設(shè)計(jì)旅游路線,當(dāng)不會(huì)打字的大爺大媽用四川話讓AI生成全家福賀卡——這才是技術(shù)真正的出圈。
02技術(shù)蹲下來
技術(shù)只有蹲到市井煙火的高度,才能聽懂真實(shí)世界的需求。真正的技術(shù)革命,往往發(fā)生在人們意識(shí)不到這是「技術(shù)」的時(shí)刻。
就像此刻,當(dāng)爺爺奶奶們對(duì)著手機(jī)吼著東北話、河南話、紹興話時(shí):「給俺整個(gè)在埃菲爾鐵塔扭秧歌的視頻」,他們并不知道,這句話正在觸發(fā)全球最先進(jìn)的多模態(tài)大模型協(xié)同作業(yè)。
百度悄無聲息地降低了創(chuàng)作門檻,讓男女老少都能享受到技術(shù)的樂趣。
之前AI生圖、AI生視頻沒有在普通人里火起來,本質(zhì)上是因?yàn)閯?chuàng)作門檻高。你需要用非常精細(xì)的prompt,甚至加入「4K ultra-detailed」「cinematic lighting」之類的專業(yè)術(shù)語,多輪調(diào)整、反復(fù)測(cè)試,才能像抽盲盒一樣抽到理想的效果。而且AI生圖和文本模型一樣,本質(zhì)上是對(duì)每一個(gè)像素點(diǎn)的預(yù)測(cè),很容易出現(xiàn)幻覺,生成不符合現(xiàn)實(shí)的詭異畫面,比如經(jīng)典的「威爾·史密斯吃意大利面」。
百度的iRAG技術(shù)致力于消除這樣的幻覺。RAG(Retrieval-Augmented Generation,檢索增強(qiáng)生成)是一種結(jié)合了檢索和生成的技術(shù),之前被廣泛用在文本數(shù)據(jù)或者表格這類結(jié)構(gòu)化的數(shù)據(jù)上。但百度創(chuàng)新性地把 RAG 技術(shù)用在了圖像數(shù)據(jù)上,搞出了iRAG(Image-Based Retrieval-Augmented Generation,檢索增強(qiáng)的文生圖技術(shù))。
你可以把RAG想象成,給AI配了個(gè)「小抄」,讓他在回答問題前能參考一些額外的資料。這些資料通常不在大模型原本的學(xué)習(xí)范圍里,是些專屬或私有的數(shù)據(jù)。通過參考這些數(shù)據(jù),大模型回答問題時(shí)就能更貼合實(shí)際情況,不用重新學(xué)習(xí),就能提升回答質(zhì)量,減少幻覺。
百度的 iRAG 技術(shù)是 RAG 技術(shù)的一種進(jìn)階版,是 RAG 向多模態(tài)的泛化與拓展,即 iRAG = 圖像 + RAG。
iRAG通過檢索百度搜索的大規(guī)模圖像數(shù)據(jù)庫,可通過參考和引用真實(shí)的圖像元素,結(jié)合文本提示詞要求進(jìn)行重繪。這為文生圖的真實(shí)感和事實(shí)性保駕護(hù)航。同時(shí)保持良好的主體一致性,通過提示詞「Hello Kitty 在某某著名景點(diǎn)前」,你可以讓這只世界上最著名的小貓漫游中國(guó)。
以前讓AI繪畫「大媽在埃菲爾鐵塔前跳舞」,可能會(huì)長(zhǎng)出六根手指,或者鐵塔上掛著蘭州拉面旗?,F(xiàn)在IRAG就像個(gè)嚴(yán)格的監(jiān)工:紅綢緞該有飄揚(yáng)的質(zhì)感,大媽抬腿的角度必須符合人體工學(xué)。
方言的處理也是如此。以前每個(gè)方言都需要單獨(dú)開發(fā)一套系統(tǒng),比如上海話、廣東話各自有不同的處理模塊。再比如,用周杰倫的聲音說東北話,還需要模型能夠分離音色和方言特征。
之前, AI學(xué)會(huì)說方言,不僅要收集成千上萬個(gè)小時(shí)的純正發(fā)音,還要再像語文老師一樣逐個(gè)標(biāo)注聲調(diào),光是讓AI分清廣東話的「九聲六調(diào)」,就要花半年時(shí)間調(diào)整參數(shù)。好不容易教會(huì)AI說粵語,換成閩南語又得從頭再來。
而現(xiàn)在,通過深度神經(jīng)網(wǎng)絡(luò),百度的語音AI系統(tǒng)能將語音拆解為獨(dú)立控制的模塊:音色(誰在說話),內(nèi)容(說什么),方言(怎么發(fā)音),情感(用什么語氣)。這種參數(shù)化重組技術(shù),使方言研發(fā)從手工作業(yè)躍升到工業(yè)化生產(chǎn)。這意味著周杰倫的聲音可以說出純正東北話,而重慶嬢嬢的語調(diào)能完美移植到英語拜年視頻中。
現(xiàn)在,僅需幾分鐘數(shù)據(jù)就能達(dá)到超越真人的tts水平;意味著大爺大媽只要錄兩句話,就能讓AI模仿他們的音色音調(diào)和方言,在賽博世界替他們拜年送祝福。
百度把創(chuàng)作門檻打了下來。在技術(shù)專家視角里,這些效果體現(xiàn)為主體一致性、物理合理性、時(shí)空連貫性、語音和口型的匹配度等硬性指標(biāo)的提升;但對(duì)老百姓來說,就是「這玩意兒真像那么回事」。
當(dāng)大媽們生成廣場(chǎng)舞視頻時(shí),她們并不關(guān)心背后的技術(shù)如何優(yōu)化,只在乎家族群里收獲了多少點(diǎn)贊表情包——這才是技術(shù)普惠最生動(dòng)的注腳。
03 AI與煙火氣的化學(xué)反應(yīng)
一個(gè)不難發(fā)現(xiàn)的趨勢(shì)是,AI應(yīng)用正在從「精英工具」變成「大眾玩具」,我們可能正處在2025年超級(jí)應(yīng)用爆發(fā)前夜。
兩年前,當(dāng)ChatGPT寫出莎士比亞風(fēng)格的十四行詩時(shí),全世界為之驚嘆。但這個(gè)春節(jié)讓我們明白:文字只是人類表達(dá)的一小部分,真實(shí)世界是多模態(tài)的,真正的智能必須理解紅綢扇舞動(dòng)的物理學(xué),以及鄉(xiāng)音的抑揚(yáng)頓挫。
2024年的AI還在實(shí)驗(yàn)室里卷參數(shù)、比benchmark;2025年的春節(jié),它已經(jīng)坐上了千家萬戶的團(tuán)圓飯桌。從寫論文、畫圖表的精英玩具,到大媽跳舞、給親戚拜年的大眾工具,AI正在完成一次意義深遠(yuǎn)的位移。
這種位移的背后,是過去幾年的積累和普及。大模型賦予的AI原生應(yīng)用正在滲透各行各業(yè),并且從城市進(jìn)入下沉市場(chǎng),AI含量越來越高,破圈效應(yīng)呼之欲出。
百度就是一個(gè)縮影,展現(xiàn)了AI在不同場(chǎng)景下的廣泛應(yīng)用。從生產(chǎn)力變革的工作場(chǎng)景到日常生活情感陪伴,百度都有產(chǎn)品日漸深入人心。
李彥宏在2025年全員信中表示:大模型賦能的AI原生應(yīng)用正在各行各業(yè)各種場(chǎng)景迅速普及,雖然超級(jí)應(yīng)用尚未出現(xiàn),AI的實(shí)際滲透率已經(jīng)不低,并且將在2025年繼續(xù)井噴式增長(zhǎng)。
百度文心智能體平臺(tái)已有15萬家企業(yè)和80萬開發(fā)者入駐,在律師、情感、健康等多個(gè)領(lǐng)域成功跑通模式。這表明AI的應(yīng)用已經(jīng)不再局限于理論和實(shí)驗(yàn)階段,而是真正開始在各個(gè)行業(yè)中發(fā)揮作用,為不同領(lǐng)域的企業(yè)和開發(fā)者提供了強(qiáng)大的支持和賦能。
因?yàn)槲男拇竽P唾x能,百度文庫新增上百項(xiàng)AI能力,涉及寫作、PPT制作、搜索、文生圖等,使得這個(gè)舊產(chǎn)品爆發(fā)新能量,百度文庫AI功能MAU突破9000萬,AI DAU年同比增長(zhǎng)230%,甚至成了付費(fèi)界的頂流。
4000萬真金白銀的付費(fèi)用戶,不是靠單純的營(yíng)銷打法能實(shí)現(xiàn)的,本質(zhì)上還是解決了用戶真實(shí)需求,獲得大家認(rèn)可。
包括今年春節(jié)出圈的方言搜索,也是因?yàn)锳I的魔力,穿透了不同圈層人群,人與人之間的距離也被拉近。方言作為一種承載著地域文化和情感的特殊語言形式,通過AI的搜索和識(shí)別功能,讓更多人能夠方便地使用和交流,這不僅促進(jìn)了文化的傳承和交流,也體現(xiàn)了AI在情感連接方面的巨大潛力。
過去兩年,全球科技巨頭在尋找 AI killer app 的路上幾經(jīng)波折。他們投入了大量的資源和精力,試圖找到那個(gè)能夠真正引爆AI市場(chǎng)的殺手級(jí)應(yīng)用。
但這個(gè)春節(jié)給出了答案:當(dāng)全家老小圍著AI生成的拜年視頻笑作一團(tuán)時(shí),超級(jí)應(yīng)用便有了破土的能量。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.