出品|虎嗅科技組
作者|苗正卿
題圖|視覺中國
數(shù)字人正在被百度內(nèi)部視為帶來增長的“關(guān)鍵武器”。
虎嗅獨家獲悉,百度內(nèi)部預(yù)計將在2025年下半年加大對數(shù)字人項目的投入。內(nèi)部針對數(shù)字人的評估與考核維度,主要以客戶量(使用數(shù)字人產(chǎn)品的B端用戶),用戶量(觀看百度數(shù)字人相關(guān)直播、短視頻等內(nèi)容的C端用戶),以及由數(shù)字人帶來的廣告營銷收入三個方面為主。
目前,百度的數(shù)字人項目隸屬于百度電商業(yè)務(wù)(百度優(yōu)選),由百度副總裁、百度電商總經(jīng)理平曉黎為一號位。
另據(jù)虎嗅獨家掌握的信息,百度電商在2023年成為一級事業(yè)部后,目前保持了持續(xù)盈利,而數(shù)字人是其最重要的收入和利潤增長引擎之一,貢獻(xiàn)了收入增長的大頭。
百度副總裁、百度電商總經(jīng)理平曉黎
今年618期間,百度電商推出了羅永浩“數(shù)字人”,被內(nèi)部視為2025年的關(guān)鍵動作。而此前,百度創(chuàng)始人李彥宏也曾親自體驗過百度數(shù)字人相關(guān)技術(shù),并對業(yè)務(wù)線表達(dá)了信心,他在今年4月百度Create大會上表示:“2025年最令人激動的突破性應(yīng)用之一,就是AI數(shù)字人”。
在今年WAIC上,百度正式發(fā)布了新一代數(shù)字人技術(shù)Nova,讓數(shù)字人進(jìn)化成為一個多模協(xié)同且具備思考決策能力的AI應(yīng)用。
近期,虎嗅就百度數(shù)字人業(yè)務(wù)發(fā)展的脈絡(luò)、內(nèi)部對于數(shù)字人趨勢的判斷、與其他大廠的區(qū)別等問題,和平曉黎進(jìn)行了深入溝通,下附溝通實錄(經(jīng)刪減編輯):
虎嗅:百度整個數(shù)字人業(yè)務(wù),是什么時候決定開始做的?你們內(nèi)部怎么看待這幾年數(shù)字人的發(fā)展脈絡(luò)?
平曉黎:最早是2022年底,當(dāng)時大模型還沒有出來。當(dāng)時集團(tuán)成立了電商事業(yè)部,讓我來負(fù)責(zé)。我此前負(fù)責(zé)百度APP,主要負(fù)責(zé)信息流產(chǎn)品,當(dāng)時還管百家號、管新聞類內(nèi)容生態(tài)創(chuàng)作。做這些內(nèi)容向的業(yè)務(wù)時,我接觸了很多創(chuàng)作者,當(dāng)時我就想,有沒有什么AI技術(shù)可以幫這些創(chuàng)作者做更好的內(nèi)容。數(shù)字人技術(shù),其實是這個時候關(guān)注到的。我當(dāng)時看短視頻里面一些醫(yī)生、律師的節(jié)目,就在想用數(shù)字人替代這些真人可能是一種很不錯的方式。因為他們平時太忙了,不一定有足夠多時間來做視頻和直播。
2022年底,公司成立了電商事業(yè)部,讓我來負(fù)責(zé)。當(dāng)時電商行業(yè)里,直播電商已經(jīng)非?;鸨?。我當(dāng)時就思考,數(shù)字人技術(shù)能不能來幫助直播。于是我讓團(tuán)隊做了幾個試水。但礙于當(dāng)時做出來的“數(shù)字人”更像是僵硬的紙片人,效果確實不太行,它只是具備了一個初級的人形樣子和TTS能力。
第一個轉(zhuǎn)機(jī)是2023年初,ChatGPT發(fā)布了,很快百度自己的文心大模型也發(fā)布了。我很快找到我們的模型團(tuán)隊,請他們協(xié)助一起做數(shù)字人,希望大模型團(tuán)隊幫我們解決三個主要的問題:第一是之前數(shù)字人都是人工寫腳本,現(xiàn)在希望靠大模型去生成腳本;第二是希望實現(xiàn)實時互動,數(shù)字人能和用戶去真實的互動;第三是升級數(shù)字人的視覺和語音表現(xiàn)力。
我把2023年起基于大模型完成關(guān)鍵進(jìn)化的數(shù)字人歸類為2.0階段,我們叫超擬真數(shù)字人。當(dāng)然它是一個持續(xù)進(jìn)化過程,2023年到2024年,我們都在不斷完善:除了語言能力、互動能力、擬真聲音這些技術(shù)要素,也包括了成本的控制與降低。2024年,我們基于超擬真數(shù)字人發(fā)布了一鍵克隆的功能,通過一個5~10分鐘的視頻片段,就能生成一個超擬真數(shù)字人直播間。
從2024年下半年到今年,我們在進(jìn)入一個新的階段,Robin定義其為“高說服力數(shù)字人”,這是數(shù)字人的3.0階段。這個版本的關(guān)鍵點在于數(shù)字人的智能化能力,它已經(jīng)是一個具備思考決策能力的超級智能體了。它的聲音、動作、形象、語言可以實現(xiàn)如真人的協(xié)同一致性,目前市面上絕大部分的數(shù)字人,都沒有完美做到,神形音容的匹配我們認(rèn)為也是第三個階段的另外的核心特征之一,它已經(jīng)非常像真人了。
你看到的我們618羅永浩數(shù)字人,其實就屬于“高說服力數(shù)字人”范疇。它本身有帶貨能力、有自己的決策和思考鏈,而且從效果上,它的單場帶貨水平并不低于真人。
這里面關(guān)鍵的地方,就是感知決策,數(shù)字人可以通過感知到屏幕前用戶的反饋、信息,去實時決策、實時互動。我們這個羅永浩數(shù)字人推出后,很多人都覺得驚訝,覺得太逼真了。
但我覺得,這還不是技術(shù)和產(chǎn)品的終點。我們內(nèi)部認(rèn)為,數(shù)字人的技術(shù)能力還會進(jìn)一步抬升,尤其是多模態(tài)大模型技術(shù)的發(fā)展,會繼續(xù)推動數(shù)字人進(jìn)化。下一代,可能是超越真人的數(shù)字人。
虎嗅:我還是想再追問一個回溯問題,你接手百度電商后,當(dāng)時為什么會把數(shù)字人當(dāng)做一個關(guān)鍵方向?
平曉黎:第一個因素是2022年底,百度決定建立電商BU時,公司是思考過自己到底有什么差異化優(yōu)勢,尤其是百度面臨一個現(xiàn)狀“沒有特別多的直播生態(tài)”的前提下,我們的優(yōu)勢到底在哪?我們思考后認(rèn)為,技術(shù)肯定是一個壁壘,因此當(dāng)時就有一個明確的站位,要做“智能電商”。
這里有兩個切入角度,其一是希望通過AI幫助用戶更好的獲得購物體驗;其二是希望通過AI幫助商家降本增效,吸引商家用更低成本做更大量直播,從而豐富我們生態(tài)的供給。我們想做自己的電商閉環(huán),讓更多商家包括大量的中小商家,進(jìn)入我們的生態(tài)。
第二個因素是,2023年年初,我在好幾個產(chǎn)業(yè)帶去拜訪商家,我去看他們的直播間發(fā)現(xiàn),這些商家的直播成本非常高,相比于傳統(tǒng)貨架電商,這些商家的運營成本增加了很多。這些交流和探訪,讓我很確信,用AI技術(shù)做低成本批量化是可以滿足市場剛需的。
虎嗅:你剛才提及2023年初大模型給你的數(shù)字人產(chǎn)品帶來了質(zhì)變,當(dāng)時你是怎么說服集團(tuán)投入這些技術(shù)資源給你的?
平曉黎:我覺得這是百度一個特點,百度在做產(chǎn)品的時候是業(yè)務(wù)驅(qū)動。我們團(tuán)隊當(dāng)時先拿出來整個思路,包括產(chǎn)品、運營、客戶等等細(xì)節(jié)都想處理了,然后我去和集團(tuán)匯報了想法,希望可以通過大模型技術(shù)推動數(shù)字人進(jìn)化,從而帶動電商直播業(yè)務(wù)。在討論清楚市場需求和業(yè)務(wù)戰(zhàn)略后,集團(tuán)同意了,而且以“高優(yōu)”模式支持了數(shù)字人項目。然后我們就跟集團(tuán)的大模型技術(shù)團(tuán)隊形成了一個協(xié)同模式。
虎嗅:其實有一些大廠在做數(shù)字人類產(chǎn)品時,是技術(shù)團(tuán)隊牽頭業(yè)務(wù)協(xié)同,你們好像是反過來的?
平曉黎:我覺得業(yè)務(wù)牽引非常重要,產(chǎn)品終究是服務(wù)于市場、服務(wù)于用戶的,一定要從市場需求出發(fā)、從用戶痛點出發(fā)。純粹技術(shù)去牽引,他們可能會追求高精尖的技術(shù),但高精尖的技術(shù)有時候不一定能解決真實業(yè)務(wù)場景的問題。
我團(tuán)隊內(nèi),業(yè)務(wù)運營、產(chǎn)品經(jīng)理會成為整個數(shù)字人產(chǎn)品技術(shù)發(fā)展的牽引力,當(dāng)然我會要求他們?nèi)ブ兰夹g(shù)的能力和邊界在哪。業(yè)務(wù)和產(chǎn)品經(jīng)理最大的價值是對于需求場景有深刻的理解,并基于這些理解去給出優(yōu)化方向。
舉個例子。之前我們和技術(shù)溝通,技術(shù)給出的技術(shù)方案是,要讓商家到“綠幕”里錄制,然后基于這個錄制樣片,去生成新的克隆體。技術(shù)覺得,這樣錄出來的底板最好用。但這顯然不是真實的業(yè)務(wù)場景。哪個商家會去給你找個綠幕錄制呢?這個門檻高到?jīng)]有人會用。于是我們的PM明確告訴技術(shù),就是希望通過已經(jīng)播出過的直播畫面或者已有的畫面去生成??梢暂斎胍欢?~10分鐘的“底板視頻”(直播回放),剩下的需要技術(shù)去搞定。
再比如,當(dāng)時有技術(shù)反映說,這些底板視頻中,不能出現(xiàn)手遮擋嘴的畫面。這顯然也不現(xiàn)實,不能說手遮擋了一點嘴,你就生成不出視頻了。為什么我們堅持PM主導(dǎo),就是為了站在商家和用戶視角去引導(dǎo)技術(shù)解決問題。
虎嗅:你們內(nèi)部,業(yè)務(wù)說服技術(shù)是一件很輕松的事情?
平曉黎:倒也不是那么容易,但整體氛圍是好的。CEO希望大家開放共創(chuàng),從我們實操角度,我覺得“講道理”是非常重要的,拿真實用戶場景事實或數(shù)據(jù)來說話,然后充分討論、達(dá)成共識。
比如這次羅永浩數(shù)字人直播的技術(shù)。這是我們3.0階段的技術(shù),在研發(fā)這代數(shù)字人技術(shù)時,PM會先給出頂層設(shè)計框架,比如希望數(shù)字人語音和動作匹配、有AI大腦可以根據(jù)直播間實時信號決策、可以調(diào)度多智能體協(xié)同執(zhí)行任務(wù)等等。
比如我們希望這代數(shù)字人可以實現(xiàn)“神形音容一致”。技術(shù)看到我們這個框架后,最初說需要主播錄制一個時長1小時、涵蓋各種動作表情的視頻,作為輸入然后再根據(jù)新的劇本要求去生成。我們就告訴技術(shù),這在實操上是不現(xiàn)實的,必須拋棄“傳統(tǒng)綠幕錄制”的思路。
我們講了一個很簡單的道理。綠幕錄制出的底板視頻,和真實的直播回放,其實是很不一樣的。真實直播,主播充滿激情、狀態(tài)特別好。在綠幕里錄制出來的,主播是完全沒有這樣的精氣神的。作為底板輸入,對主播的表現(xiàn)力也是有要求的,而只有真實環(huán)境下主播的表現(xiàn)力最好,作為下一步生成的輸入效果會更好,我們也據(jù)此做了AB數(shù)據(jù)驗證,證明了這個判斷。
當(dāng)然,我覺得這里面還有一個關(guān)鍵點,就是業(yè)務(wù)不能拍腦袋提要求,你必須要理解技術(shù)的能力和邊界。但這可能需要一些小技巧,比如業(yè)務(wù)有時候要“逼”一下技術(shù),才能真正了解到當(dāng)下技術(shù)的邊界在哪。以及有的地方,并非靠技術(shù)而是要靠業(yè)務(wù)本身的運營能力和交付能力去彌補(bǔ)提高的。
虎嗅:能感覺出來,PM其實是你團(tuán)隊里很重要的一撥人,你大概有多少PM參與到數(shù)字人里?
平曉黎:大約幾十個。這里面有一些核心是從2023年一路參與數(shù)字人項目成長起來的。
虎嗅:你們是怎么設(shè)定自己的目標(biāo)的?百度內(nèi)部是如何去評估數(shù)字人這個項目,它的評估維度是什么?
平曉黎:首先肯定是用戶量維度的,我們現(xiàn)在也不僅僅把數(shù)字人用到電商業(yè)務(wù)里,包括一些數(shù)字分身業(yè)務(wù),數(shù)字人也在做。公司對數(shù)字人的期望,也是希望它能成為一個非常有影響力的AI應(yīng)用,去服務(wù)全行業(yè)。
另外一個是收入相關(guān)的。數(shù)字人非常有力地推動了在線營銷廣告收入的增長。它現(xiàn)在起到的作用很明顯,公司對它的預(yù)期還是挺高的。
虎嗅:數(shù)字人這個項目的成本,是你團(tuán)隊自己承擔(dān)還是?
平曉黎:對,它納入到電商業(yè)務(wù)事業(yè)部里面,電商業(yè)務(wù)事業(yè)部的收入、利潤都有明確的要求。我們數(shù)字人做訓(xùn)練的卡、成本都是我們自己承擔(dān)的。我作為這個BU負(fù)責(zé)人,也會去跟公司財務(wù)對每個季度、年度的目標(biāo)。BU是一直持續(xù)盈利的,可以覆蓋數(shù)字人的基本成本。
2024年Q3開始,數(shù)字人的收入增長就非常快了,當(dāng)時我們發(fā)布低成本克隆這個功能,它的規(guī)模就起來了。這里面教育類、大健康類、水果生鮮類客戶都明顯增多。今年我們拓展到了汽車、醫(yī)生、律師這些場景。
虎嗅:那下半年,你們關(guān)于數(shù)字人會有什么新的目標(biāo)或者考核維度嗎?
平曉黎:主要還是用戶量,這里面還有開播量,就是數(shù)字人商家的開播量;以及收入。我們還會增加一些用戶指標(biāo),比如說看播量等。
市場熱度起來后,我們今年重點肯定是要把新一代數(shù)字人技術(shù)Nova平臺化,并開放給全行業(yè)。其實今年年初,CEO對數(shù)字人的發(fā)展就提出了新的要求,我們希望讓盡可能多的人用我們數(shù)字人的技術(shù)、產(chǎn)品。我們整體上的判斷是,在一些場景和賽道上,數(shù)字人是可能超越真人的。我們今年其實整體的方向都是基于這個年初的判斷和規(guī)劃。
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4640278.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.