如果說智能手機(jī)操作系統(tǒng)的上半場(chǎng),是把功能裝進(jìn)一個(gè)個(gè)按鈕、一個(gè)個(gè) app,那么在今年 vivo 開發(fā)者大會(huì)亮相的 OriginOS 6 則再一次印證,AI 和 OS 不可逆轉(zhuǎn)的融合趨勢(shì)。
除了 PPT 上多模態(tài)、推理能力、長(zhǎng)文本處理這些熱詞,AI 已經(jīng)不甘于成為手機(jī)系統(tǒng)的「功能清單」。
vivo 提出要做 UI Agent,試圖讓 AI 真正理解用戶意圖,用一次自然的請(qǐng)求,完成跨 App 的整場(chǎng)協(xié)作。
巧合的是,幾天前的 OpenAI DevDay 也在談同一件事:宣布把 ChatGPT 變成一種「操作系統(tǒng)」。一句話,Spotify、Canva 在對(duì)話里自動(dòng)喚起;一個(gè)面板,交互就地完成。對(duì)話即應(yīng)用,應(yīng)用即接口。
當(dāng) OS 學(xué)會(huì)理解人,當(dāng)模型學(xué)會(huì)調(diào)度應(yīng)用,AI 與 OS 的邊界開始變得多余,是殊途同歸,還是將分岔出全新的生態(tài)?
在開發(fā)者大會(huì)演講后,愛范兒與媒體專訪了 vivo OS 產(chǎn)品副總裁、AI 全球研究院院長(zhǎng) 周圍,以及 vivo AI 產(chǎn)品總經(jīng)理 關(guān)巖冰 和 AI OS 產(chǎn)品總監(jiān)黃梓勛。
AI 與操作系統(tǒng):趨勢(shì)與分歧
Q:今年各家廠商都在談「AI 手機(jī)」,但概念眾多——AI 原生、智能體、AI 操作系統(tǒng)。你怎么看當(dāng)前行業(yè)在 AI 手機(jī)方向上的探索階段?
周圍: 其實(shí) AI 和手機(jī)一直是三個(gè)問題要解決的。
第一,一定要有大模型的能力,而且我們比行業(yè)大模型還要多一個(gè),就是一定能夠端側(cè)化,如果不能端側(cè)化就跟行業(yè)里用云服務(wù)沒有什么區(qū)別。而且你用云能力或者是端側(cè)化能力一定要個(gè)人化,如果不能個(gè)人化就跟通用能力沒什么區(qū)別。恰恰個(gè)性化和個(gè)人化還是有價(jià)值的,因?yàn)槲覀兠總€(gè)人希望這個(gè)手機(jī)在身邊能不能做做助理,管管日程。所以你會(huì)發(fā)現(xiàn)一定要建模型相關(guān)的能力,這是第一層,vivo 在這方面做得很扎實(shí)。
第二,AI 和手機(jī)的結(jié)合,我以「理工男」的角度是做兩件事情:1. 手機(jī)系統(tǒng)能力的 AI 化,去年我們也做了 Writing to Ask、Image 這些公共的能力(系統(tǒng)的能力),你一定要有這樣的能力才能給上面做應(yīng)用。2. 除了這個(gè)能力外,我們廠商能做很多部分,手機(jī)用戶能夠感受到的也有 100 多個(gè)模塊,這些能力肯定要自己先做,我們把它做一個(gè)「通控設(shè)施組」(通知中心、控制中心)我們自己有一個(gè)口訣。但是用戶用手機(jī),手機(jī)廠商只占了 15% 的時(shí)長(zhǎng),還有 85% 的時(shí)長(zhǎng)是由開發(fā)者給我們的服務(wù)和能力提供的,特別是頭部的互聯(lián)網(wǎng)廠商又在這 85% 中占了 80% 或者是 70%,他們的參與度還是非常重的。
所以,第三個(gè)問題是對(duì)于上層的服務(wù)中還有 85%,這些事情應(yīng)該怎么做?我們?cè)谶@里面要分兩件事情來做:第一是愿意跟我們握手,一起的就坐下來商量來做。第二是 AI 時(shí)代到來了,是不是需要有一個(gè)全新的江湖地位和影響力,這個(gè)就留給時(shí)間晚一點(diǎn)來回答也可以。
我們覺得 AI 和手機(jī)的融合,我大概把它分成這三層:下面的是大模型和能力,中間的系統(tǒng)基礎(chǔ)能力建設(shè),基礎(chǔ)能力建設(shè)。真正到上層的應(yīng)用,我們做廠商的和三方的就分成兩塊來做,像阿里愿意做的就坐下來做,還有一些不愿意做的就留給時(shí)間。這些是 AI 和手機(jī)融合以及 Agent 相關(guān)的問題是這樣來對(duì)待和處理的。
Q:前幾天 OpenAI 宣布要做操作系統(tǒng),一個(gè)很大的變化叫作「對(duì)話即應(yīng)用」,我們可以直接在 ChatGPT 上調(diào)用 figma、spotify 這種應(yīng)用的功能。我們知道手機(jī)是是互聯(lián)網(wǎng)時(shí)代很重要的入口,現(xiàn)在大家就覺得未來會(huì)不會(huì)直接在巨大的 AI 對(duì)話中就成了一個(gè)關(guān)鍵入口,作為手機(jī)廠商 vivo 怎么看這個(gè)趨勢(shì)?
黃梓勛: 我們作為手機(jī)廠商確實(shí)跟 ChatGPT 這樣的公司有不同的角度,一方面我們有藍(lán)心小 V 這樣的 AI 助手,它確實(shí)是對(duì)話式的調(diào)用應(yīng)用和能力,這方面要持續(xù)建設(shè)的。
另一方面是用戶使用手機(jī)的時(shí)候,比如說該打電話的時(shí)候會(huì)打開電話應(yīng)用,打車的時(shí)候會(huì)打開打車應(yīng)用,這方面不會(huì)刻意的一定要用對(duì)話去解決,比如說整個(gè)系統(tǒng)的意圖框架能夠更快滿足用戶對(duì)于應(yīng)用的調(diào)用,甚至是對(duì)于三方 Agent 的調(diào)用,這是我們認(rèn)為最合適的方式。
比如說大家現(xiàn)在看到通過原子島推薦出來的可能是一個(gè)服務(wù)的接口、服務(wù)的入口,但是也可能逐漸推薦出來是三方的 Agent,你要用對(duì)話去推進(jìn) Agent 嗎?也不一定,因?yàn)楝F(xiàn)在對(duì) OS 的使用上,用戶比較依賴 GUI 的界面手勢(shì)交互會(huì)比較多。所以在 OS 的角度上還是考慮用戶在不同場(chǎng)景下怎么樣更快、更便捷的獲得服務(wù),無論這個(gè)服務(wù)是接口式的服務(wù)直達(dá)還是 Agent 的服務(wù)推送。
確實(shí)我們?cè)谒{(lán)心小 v 方面也會(huì)加強(qiáng)以對(duì)話式的方式,甚至是結(jié)合界面的主動(dòng)交互的方式能夠更快讓用戶獲得。
關(guān)巖冰: 我認(rèn)為國(guó)內(nèi)外生態(tài)有一定的差異,ChatGPT 支持 COS、Spotify,包括還有 figma 這些作圖軟件,在海外有生態(tài)的基礎(chǔ),在國(guó)內(nèi)確確實(shí)實(shí)有一點(diǎn)不一樣。
第二,我認(rèn)為它不是非此即彼的絕對(duì)的 0 或者是 1 的問題。舉個(gè)例子,類似于藍(lán)心小 v 這樣的 AI 助手,早上發(fā)布會(huì)也講,它善于解決的是用戶個(gè)性化的需求,在傳統(tǒng)的 APP 或者是互聯(lián)網(wǎng)生態(tài),比如說傳統(tǒng) APP 一個(gè)界面就是手機(jī)尺寸的大小,一個(gè)界面能放 10 個(gè)按鈕或者是 15 個(gè)按鈕,但總有大量的用戶的需求不是這 10 個(gè)按鈕或者是 15 個(gè)按鈕,他找不到這些需求,其實(shí)這些需求是很長(zhǎng)尾的很個(gè)性化的,這些需求適合用 AI 助手來解決。
今天上午有一個(gè) demo 的例子是「你把這張圖片轉(zhuǎn)化成皮克斯風(fēng)格,并且設(shè)置為壁紙」,這種長(zhǎng)尾性的需求在傳統(tǒng)的 APP 是不會(huì)做的,但是非常適合 AI 助手,因?yàn)榉浅€(gè)人化和非常個(gè)性化。
未來我們覺得這個(gè)生態(tài)可能有一個(gè)階段,它不是說要不就是 APP 生態(tài),要不就是流量入口,這不絕對(duì)。還是要回到用戶需求,有一部分用戶需求在這個(gè)階段更適合用 AI 助手和 Chatbot 的方式來解決,對(duì)用戶需求會(huì)更好。
周圍: 其實(shí)用大模型做應(yīng)用現(xiàn)在百花齊放,我們更關(guān)注的還是既要做能力的建設(shè),同時(shí)也要很克制在面對(duì)這樣的情況。我們不能避免的是在做用戶習(xí)慣和服務(wù)的分發(fā),接下來的策略可能是第一建好能力,第二是需要合作伙伴跟我們一起來做這件事情,對(duì)于有疑慮的服務(wù)的提供商可能還是希望大家觀望一下,克制一下。
端側(cè)模型與能力建設(shè)
Q:現(xiàn)在每個(gè)廠商都要做端側(cè)大模型,也基本上每個(gè)廠商都說要做個(gè)人助理。vivo 提出的「UI Agent」概念,與其他廠商的 AI 助手有什么不同?
關(guān)巖冰: 今天上午講到我們的選擇是個(gè)人化智能,并不是所有的廠商都是個(gè)人化智能。我們覺得個(gè)人化智能就有幾個(gè)特性:
第一,它像你身邊的朋友或者是一個(gè)伙伴,所以我們有一個(gè)很核心的能力就是端側(cè),因?yàn)?strong>只有端側(cè)才能無時(shí)無刻在分析你的數(shù)據(jù)、洞察你的需求、感知手機(jī)上的屏幕等等。其實(shí)并不是所有的手機(jī)廠商都具備端側(cè)的能力,就像剛才周圍總講的我們?cè)诙藗?cè)的能力上還是比較出色的。
第二,真正多模態(tài)的自然交互,它包括語音上的交互,包括 UI Agent 所帶來的我們對(duì)屏幕、圖像感知上的交互,這也是一種交互,包括我們?cè)谖谋旧系慕换?。因?yàn)橛卸嗄B(tài)的交互所以才能保持交互會(huì)更自然,就像一個(gè)人一樣跟你交互。這是我們兩個(gè)核心的差異化的點(diǎn)或者是優(yōu)勢(shì),相對(duì)于其他的廠商而言。這兩個(gè)優(yōu)勢(shì)才能保證我們做的東西無時(shí)無刻在手機(jī)上,而且無時(shí)無刻給你提供符合你個(gè)人的個(gè)性化的服務(wù)。
Q:理想的 AI 智能體需要哪些條件?哪些已經(jīng)具備?
周圍: 以前手機(jī)是 APP 應(yīng)用分發(fā)的渠道,其實(shí)整個(gè)行業(yè)對(duì)于軟件商店的分發(fā)的權(quán)限在哪里,邊界在哪里我們是很敏感的。其實(shí)智能體時(shí)代的分發(fā)也是同樣敏感的問題,vivo 的企業(yè)文化是希望共贏共建的,所以對(duì)未來 AI 智能體的分發(fā)我們作為一個(gè)手機(jī)渠道,我們還是希望克制和共建。
哪些能做哪些不能做呢?第一,我們希望智能體對(duì)于手機(jī)本機(jī)的功能和系統(tǒng)能夠做到的我們都做了。第二,同樣這些智能體的 Agent 商店、包括個(gè)人化智能要搭載的框架,這是平臺(tái)廠商要做的,所以這些工作都就緒了。
但是在跨 Agent,Agent 之間通信的時(shí)候是整個(gè)行業(yè)共建的事情,還有一個(gè)重要的參與者是「開發(fā)者」,主要是互聯(lián)網(wǎng)的廠商。面對(duì)這個(gè)問題時(shí),我們希望是一起商量著來建的,所以還有哪些做不到的就希望在互聯(lián)網(wǎng)應(yīng)用 Agent 的分發(fā)上,我們是希望「商量」著來、是共建的。不是說我們做不到,而是這件事情是行業(yè)共建利益的事情,vivo 還是有自己的本分需要堅(jiān)守的。
Q:現(xiàn)在智能手機(jī)所謂 AI Agent 的能力,其實(shí)離廣泛意義上定義的能力有點(diǎn)遠(yuǎn),因?yàn)榭赡苊總€(gè) app 的信息孤島不會(huì)把底層數(shù)據(jù)給到手機(jī)廠商,有些廠商會(huì)通過無障礙功能識(shí)屏的方式曲線救國(guó)。這是主要障礙嗎?
周圍: 今天你的感受跟我們的感受是一樣的,當(dāng)智能體特別是手機(jī)的自動(dòng)智能體要做任務(wù)的時(shí)候,我們只能做廠商自己的功能、自己的應(yīng)用,比如說秀一下是否流暢、調(diào)一下亮度、連接一下 Wi-Fi 都沒有問題,但是你想跨應(yīng)用,對(duì)方目前是抓住安全授權(quán)的標(biāo)準(zhǔn)在和終端廠商有一個(gè)討論的過程。
我們覺得作為一個(gè)終端廠商,第一是要積極推動(dòng)行業(yè)標(biāo)準(zhǔn)的建立,第二是 AI 技術(shù)從現(xiàn)在到成熟還有幾年的過程。今年我們也在大方宣布基于手機(jī)界面 UI 的自動(dòng)識(shí)別和操作,這些能力會(huì)每年越來越成熟。而對(duì)于互聯(lián)網(wǎng)行業(yè)他們哪天需要廠商一起服務(wù)用戶的時(shí)候,我們自然就一拍即合。
我相信互聯(lián)網(wǎng)行業(yè)里有很多這樣的公司他們是很大方在做這樣的事情,他們都在和我們做這樣的事情。也有很多擔(dān)心未來的界限在哪里搞不清楚的,有很多這樣的公司,我們就覺得留給時(shí)間來回答。
Q:vivo 與國(guó)內(nèi)大廠在 Agent 上的合作現(xiàn)狀?
關(guān)巖冰: vivo 現(xiàn)在是以比較開放的心態(tài)跟很多大的廠商合作,包括高德、百度,包括螞蟻的支付寶,我們今天已經(jīng)有很多合作了,未來 OS6 在很多 Agent 在未來一個(gè)月內(nèi)會(huì)逐步上線,我們以開放的心態(tài)來接受,我們認(rèn)為不是非黑即白,不是說 Agent 做了之后傳統(tǒng)業(yè)務(wù)就沒法做了。
Q:去年 vivo 還在談 175B 超大模型,如今重點(diǎn)轉(zhuǎn)向 3B 的端側(cè) AI,為什么?
周圍: 可以這么說,去年我們做了 13B 和 7B 的端側(cè)模型的實(shí)現(xiàn),最后發(fā)現(xiàn)其實(shí)只有 7B 堪堪能上線,但是 7B 的模型在手機(jī)上跑得不是太理想,它占的內(nèi)存比較大。直到今年發(fā)現(xiàn) 3B 上得比較好。
為什么有這樣的選擇?因?yàn)槲覀儧]有打開這個(gè)盒子,我們要知道端側(cè)模型在手機(jī)上要做哪些事情,先要把手機(jī)上做的事情識(shí)別出來。
第一,它一直在識(shí)別人在手機(jī)上做的各種操作,舉個(gè)例子只有 vivo 手機(jī)能夠做到的,如果你查一個(gè)圖標(biāo),或者是滑動(dòng)選擇一行文字,或者在頁面上做一個(gè)全選,你發(fā)現(xiàn) vivo 的原子島有一個(gè)東西下來接你,這就是意圖識(shí)別,這是在端側(cè)上能夠做到的。而且只有我們?cè)诙藗?cè)上能夠做到,因?yàn)槲覀冇幸粋€(gè)端側(cè)模型實(shí)時(shí)分析你要做的事情,比如說這個(gè)地址存在便箋里是要做導(dǎo)航,還是做日程的添加呢?我們有端側(cè)模型在實(shí)時(shí)識(shí)別你的意圖。這意味著手機(jī)里有非常多的識(shí)別意圖、拆解任務(wù)等一系列的工作在做。我們這個(gè)功能 2024 年對(duì)行業(yè)發(fā)布,我們希望有些事情是需要蹚過之后才有心得,才能做正確的選擇。
今年我們旗幟鮮明做選擇的時(shí)候,并不意味著 3B 是唯一做的,其實(shí)很多 1B 的模型其實(shí)也是一直在做的。剛才您的問題是不是 1750 的模型就不做了,1000 億的模型就不做了,70B 的模型就不做了?NO,是因?yàn)楫?dāng)下今年的大模型比去年的大模型功能更強(qiáng),去年的大模型比前年的大模型的功能也更強(qiáng)。我們發(fā)現(xiàn)云端的功能相對(duì)容易做,真正難的恰恰是端側(cè)的能力比較難。
今年 70B(700 億)參數(shù)的大模型比去年 175B(1750 億)的參數(shù)還要強(qiáng)了,我們 3B 的模型比過去 10B 的模型還要強(qiáng),已經(jīng)比 2023 年 1000 多億參數(shù)的模型還要強(qiáng),已經(jīng)能夠滿足今天端側(cè)任務(wù)和復(fù)雜任務(wù)的拆解,不是因?yàn)槲覀兎艞壴贫?,而是分成了兩個(gè)階段,云端是云端,端側(cè)是端側(cè),云端的能力已相對(duì)比較容易建立。
現(xiàn)在大模型有兩個(gè)話題,一是滿足日常推理和復(fù)雜任務(wù)的拆解;二是通用人工智能,現(xiàn)在媒體上吵的是通用人工智能時(shí)代還沒有到來,其實(shí)復(fù)雜任務(wù)的拆解、知識(shí)的獲取和提煉已經(jīng)能夠滿足我們使用的。
作為手機(jī)廠商對(duì)于 AI 的探索和需求需要更前置一點(diǎn)點(diǎn),就是需要在 1B、3B 對(duì)用戶的意圖和日常任務(wù)的拆解,中臺(tái)、感知、執(zhí)行都是用端側(cè)模型在做。只是感覺今天外面的媒體在探討大模型的時(shí)候很少觸及這種歸類,畢竟我們是制造終端廠商,很難在媒體上發(fā)起這樣的探討。
Q:3B 模型有哪些關(guān)鍵突破?
周圍: 原來 7B 的時(shí)候最大的問題是需要 3.5G 的內(nèi)存,8G 的手機(jī)是中高端機(jī)型的主要配置,包括旗艦機(jī)都有 8G 配置的,一個(gè)大模型端側(cè)就占了 4 個(gè) G,剩下也只有 4 個(gè) G 的內(nèi)存,4G 的配置是目前低端機(jī)的標(biāo)準(zhǔn)配置,它這樣一下就把高端機(jī)變成了低端機(jī)。這是第一個(gè)要解決的問題。
第二個(gè)要解決的是 7B 模型只能做簡(jiǎn)單的任務(wù)拆解,不能做復(fù)雜的推理。比如說「幫我看一下今天下午 4 點(diǎn)北京到深圳的機(jī)票哪一個(gè)最便宜?」就這一句話你可能要下載 3-4 個(gè)賣機(jī)票的服務(wù),還要去比價(jià)。
你會(huì)發(fā)現(xiàn)里面還有分析哪一個(gè)應(yīng)用,查哪個(gè) APP 的價(jià)格,還要看我坐哪個(gè)航司的習(xí)慣,這是一個(gè)復(fù)雜的問題。去年的 7B 就做不到。而今年的 3B 遠(yuǎn)超去年的 7B,而且所有的榜單里還有做 8B 的,8B 比 7B 強(qiáng),我們幾乎把全球能找到 8B 的推理模型做了評(píng)測(cè),我們的 3B 要遠(yuǎn)超他的,從推理能力、歸納綜合能力、復(fù)雜任務(wù)拆解能力都比它要強(qiáng)。
我們解決了兩個(gè)問題:第一,3B 端側(cè)模型內(nèi)存只占 2G,其實(shí)不影響高端機(jī)的性能,我們解決這個(gè)第一號(hào)難題。第二,大幅度增強(qiáng)了推理能力,幾乎可以把它放在手機(jī)做意圖中控和任務(wù)拆解的中臺(tái),這兩個(gè)問題都解決了
其實(shí)還有別的問題,比如說這次也非常在乎功能,今年做到 200 tokens,去年是做 80 幾,今年直接做到 200 tokens,200 tokens 已經(jīng)很厲害了,平時(shí)我們看一個(gè)屏幕吐詞,基本上 26 左右你就覺得還行,我們直接干到 200 tokens,說明端側(cè)的出詞效能直接起飛的,這方面沒有障礙了。
還有一個(gè)功能可能大家沒有關(guān)注到的,其實(shí)是我們真正顛覆性的。在 DeepSeek 之前有一個(gè)月之暗面大模型,他最大的特點(diǎn)是長(zhǎng) tokens,我們這次也做到了。這個(gè)是巨大的突破,而且我們這一點(diǎn)也是做得極其優(yōu)秀的,只是因?yàn)閯傋龀鰜恚瑥淖龀鰜碜層脩舾兄矫黠@的利益可能還需要大半年來沉淀。所以您剛才的問題也問出了我們這一年做的一些東西,長(zhǎng) tokens 我們?cè)诙藗?cè)上做到了。內(nèi)存直接把原來的 4G 做到現(xiàn)在的 2GB,出詞速度做到 200 tokens,包括本身的推理能力也做得好,而且把它全部做到了手機(jī)上。所以 2025 年的原系統(tǒng) 6 給我們 3-6 個(gè)月的時(shí)間在功能體驗(yàn)上也許還有預(yù)期之外的意外的驚喜。
Q:DeepSeek 的開源對(duì)你們有影響嗎?
周圍: 對(duì)我們有影響。我們是 2024 年意識(shí)到這個(gè)問題的,當(dāng)時(shí)我們做 1750 億的模型,做出來之后往下卷,其實(shí)卷的是矩陣模式。但是我們馬上就發(fā)現(xiàn)萬卡集群都不夠用了,我們要做兩萬卡以上的集群,兩萬卡和一萬卡光設(shè)備就要加 20 幾億,而且這還遠(yuǎn)遠(yuǎn)不夠。這樣下去卷通用人工智能我覺得不太現(xiàn)實(shí)。
中國(guó)做大模型的行業(yè),大家也知道很多創(chuàng)業(yè)公司也卷不動(dòng)。因?yàn)槟假Y幾百億,做個(gè) 4000 億的參數(shù),可能要花 50 億買算力,而且這 50 億里還要三分之一,差不多是 15 億是電費(fèi),往后每年燒電還要燒這么多錢,所以就燒不起。
當(dāng) DeepSeek 出來之后,對(duì)于千億大模型一下就把大家拉齊了,因?yàn)?DeepSeek 做了很了不起的事情是完全開源的,而且可以讓我們滿血部署。vivo 的藍(lán)心小 v 中有深度思考的模式,其實(shí)它是一個(gè)滿血版的 DeepSeek。這就讓我們覺得可以一下拿到很好的大模型。
對(duì)于我們這種自己做模型的公司有什么好處呢?就是輔助我們的 7B 和 3B 蒸餾學(xué)習(xí)。我覺得 DeepSeek 對(duì)于我們這種又要做模型訓(xùn)練訓(xùn)練又要做優(yōu)化的公司來說是極其巨大的幫助和提升。
Q:為什么還要做 1B?它在端側(cè)體系中的角色是什么?
周圍: 感謝 DeepSeek 這兩年給行業(yè)的推理能力帶來極大的提升,去年我們還做了一個(gè) 13B,是因?yàn)?7B 做不到很多復(fù)雜的推理,當(dāng)時(shí)我們希望是 13B 上線。結(jié)果發(fā)現(xiàn)今年 3B 已經(jīng)超過了原來我們對(duì) 13B 的定義,3B 能夠?qū)崿F(xiàn)很多過去對(duì)于稍大尺寸的端側(cè)模型的預(yù)測(cè)。我們就想說拿 3B 努努力就夠了。今天我也講過文本的摘要、生成,3B 已經(jīng)跟云端大概是 97%-98% 的能力,已經(jīng)很難察覺到有太大的差別,這已經(jīng)夠用了。
為什么要用 1B 呢?我們發(fā)現(xiàn)手機(jī)里有很多是要常設(shè)的,端側(cè)大模型對(duì)手機(jī)的應(yīng)用遠(yuǎn)比我們想象要廣得多,手機(jī)里永遠(yuǎn)有一個(gè)大模型一直在運(yùn)行。
我前陣子去了國(guó)內(nèi)幾個(gè)知名的人形機(jī)器人的實(shí)驗(yàn)室,我們也做機(jī)器人,在具身智能方面有一個(gè)大模型永遠(yuǎn)在運(yùn)行的,我上午也說 3B 的模型在運(yùn)行時(shí)要 750 毫安(功耗),這其實(shí)是受不了的,用上這個(gè)之后還是耗電的。這怎么辦呢?我們是脈沖式的,你一會(huì)兒用一會(huì)兒沒用,用的時(shí)候把它喚醒,大部分時(shí)候是沒有用,綜合下來一天可能就個(gè)把小時(shí)完全能夠耗得起,比打游戲和拍照要完全省得多。
但是還有一個(gè) 24 小時(shí)都在線的,比如說地址圍欄、你的行為、系統(tǒng)的參數(shù)是永遠(yuǎn)都在線的,這就要 1B。這 1B 不是在于復(fù)雜的推理能力,而是對(duì)本機(jī)的實(shí)時(shí)監(jiān)測(cè)和記憶,這是交給 1B 模型在做的。所以在 1B 我們做得也是比較激進(jìn)的,只是這個(gè)東西只是為手機(jī)服務(wù),很少「丟」出來或者是對(duì)外溝通。
體驗(yàn)與哲學(xué)
Q:X300 上云端的 AI 功能已經(jīng)有一些開始收費(fèi)的傾向了,云端 AI 收費(fèi)會(huì)如何把握邊界?
周圍: 我們有一個(gè)原則現(xiàn)在 vivo 有大量的端側(cè)化,圖像識(shí)別、聲音識(shí)別,包括未來的同傳、方言識(shí)別全部都端側(cè)化,端側(cè)化肯定是免費(fèi)的。但是端側(cè)化有一個(gè)問題,就是平臺(tái)的算力要夠,內(nèi)存配置要夠,至少是 8G 以上的配置。馬上就面臨另外一個(gè)問題,如果只有 4G 的低端機(jī)器,如果用戶也要用的話,這時(shí)候可能用的是云端的功能,云端的功能在某種意義上是要消耗大量的成本的,這時(shí)候就考慮可能在成本上要分擔(dān)一下。我覺得大概有一個(gè)趨勢(shì)。
Q:現(xiàn)在手機(jī)廠商做 AI 容易陷入成做 AI 功能清單,用戶普遍反映 AI 功能太多、太復(fù)雜。vivo 如何判斷一個(gè)功能是否真正有價(jià)值?
黃梓勛: 我們內(nèi)部對(duì)于 AI 體驗(yàn)這件事情有一個(gè)名詞叫「無感化」。因?yàn)楝F(xiàn)在 AI 看似很強(qiáng)大,但是現(xiàn)在 AI 在使用滲透上還不算特別全面,一定程度上比較考慮用戶對(duì)于如何使用這個(gè)功能的認(rèn)知有很大的挑戰(zhàn)。所以,我們一定要盡量弱化一定要通過一個(gè)按鈕才能激活 AI 的功能或者是使用到 AI,而是通過無感化的設(shè)計(jì),比如說保存文件的時(shí)候,我開啟了一個(gè)錄音,這個(gè)錄音暫?;蛘呤瞧嗑湍茏詣?dòng)獲取 AI 的能力生成一個(gè)命名,在我們的理解里就定義成「無感化 AI」。
它確實(shí)是調(diào)用了剛才周圍總一直介紹的端側(cè) 3B 的模型,我們也做了很多優(yōu)化,讓底層的性能調(diào)度也好,包括在工作過程中對(duì)功耗的調(diào)度也做了很好的調(diào)優(yōu)。我們?cè)谠O(shè)計(jì)上弱化了用戶一定要通過必要性的交互才能獲得這些能力,而是在原有的使用功能和任務(wù)操作流中自然而來到這個(gè)節(jié)點(diǎn),用 AI 能力來替換它的它傳統(tǒng)需要手動(dòng)調(diào)用這個(gè)功能或者是手動(dòng)編輯的過程。
去年提出了重構(gòu)系統(tǒng)體驗(yàn),我們重構(gòu)系統(tǒng)體驗(yàn)并沒有刻意改變業(yè)務(wù)邏輯,或者是重新教會(huì)用戶怎么使用 AI OS 或者是 AI 手機(jī),而是在用戶原有的任務(wù)流中,到了某一個(gè)節(jié)點(diǎn)我們認(rèn)為 AI 預(yù)判到用戶到這個(gè)場(chǎng)景,需要用到這樣的功能時(shí),可以很自然而然完成這個(gè)結(jié)果,這是我們做 OS 設(shè)計(jì)時(shí)一直想要追求的是「無感化」AI。
因?yàn)槲覀円沧鲞^一些測(cè)試過,當(dāng)有一個(gè)按鈕上面顯示了 AI 的功能,對(duì)絕大多數(shù)用戶來說會(huì)陷入一個(gè)短暫性的猜想,到底這個(gè)功能是什么,它會(huì)不會(huì)抓我數(shù)據(jù),會(huì)不會(huì)帶來一些無預(yù)期的結(jié)果。所以,我們?cè)谶@個(gè)過程中避免的是創(chuàng)造新功能,或者是打造新場(chǎng)景,做 AI 和 OS 融合的過程中盡量回歸到用戶原有的習(xí)慣,用戶原有的任務(wù)流不變,用最自然的方式,無感化幫客戶完成。這是我們?cè)?OS 體驗(yàn)過程中堅(jiān)持的「無感化」的基本原則。
Q:如何平衡操作系統(tǒng)的穩(wěn)定性和 AI 的快速迭代性?
周 圍: 大家都知道我們 AI 團(tuán)隊(duì)這么多年下來自然也會(huì)遇到公司內(nèi)部管理層,包括交付的時(shí)候是有很大的壓力的,沈煒總有一個(gè)對(duì) AI 團(tuán)隊(duì)的指示我覺得做得非常對(duì),他說:AI 它不會(huì)創(chuàng)造新的需求,像我們做手機(jī)的,就應(yīng)該把用戶怎么用手機(jī)通過 AI 把它做得更好用。如果回到這個(gè)初心去看,我們工作可能是比較好開展的。
回到團(tuán)隊(duì),因?yàn)槲覀冘浖袃扇?hào)人,AI 又有一千多號(hào)人,幾千號(hào)人包括做認(rèn)知和做規(guī)劃的人,很多時(shí)候就認(rèn)為進(jìn)入到 AI 時(shí)代,在這個(gè)劃時(shí)代的到來是不是要顛覆性搞一個(gè)全新的東西出來,我身邊有很多朋友給我們的感覺就是 AI 要到來肯定是劃時(shí)代的,跟蒸汽機(jī)和馬車一樣是劃時(shí)代的。
我覺得系統(tǒng)的穩(wěn)定性和 AI 的顛覆性,我覺得最大的問題是真正要回到坐馬車到遠(yuǎn)方是一個(gè)交通工具,至于你用蒸汽機(jī)還是馬車才是產(chǎn)品形式。
現(xiàn)在我們非常平常心是用 AI 和手機(jī)的結(jié)合,哪些是變的?哪些是不變的?不變的是 AI 和 OS 融合有一句話叫作「系統(tǒng)功能的 AI 化」,大量的打電話做電話秘書,我們看相冊(cè)也好,做便簽也好,原來的這些功能都會(huì)做 AI 化,這些是傳統(tǒng)功能的增強(qiáng)。哪些是變的呢?我覺得也是原來要實(shí)現(xiàn)的需求的變更。
比如說查一段字、一個(gè)應(yīng)用,為什么要去猜我們的意圖,這個(gè)意圖只會(huì)出現(xiàn)在原子島,高德地圖或者是便箋,是不是要傳給我存,或者是存給拼多多或者是淘寶搜東西。你會(huì)發(fā)現(xiàn)原來用戶的需求其實(shí)沒有變化,我們只是通過 AI 做意圖判斷,做你行為的預(yù)測(cè)。假如你真的丟掉某個(gè)應(yīng)用中,我們可能幫你直接跑了。我們只是通過 AI 讓用戶更便捷、更易用、更好用了。不變的還是原來的手機(jī),沒有新增任何的功能,變的是把原來的功能重新思考,做得更好用了。
這樣思考之后,我覺得這兩年我們的行為、思考和認(rèn)知及產(chǎn)品規(guī)劃都自洽了,2023 年我自洽,感覺全新的時(shí)代到來,我們要做一個(gè)劃時(shí)代的顛覆性的東西,那時(shí)候極不自洽,無論是對(duì)外溝通還是對(duì)內(nèi)溝通都是極不自洽的,我們迷糊了一年多,但從這一年以來我們是非常自洽的,非常清晰知道自己在做什么。
Q:你們整體的 AI 時(shí)代的戰(zhàn)略怎么走,剛才您說戰(zhàn)略重心往端側(cè)轉(zhuǎn)移,那么原有的云端這塊的訓(xùn)力怎么拆解?
周圍: 因?yàn)槲覀兪亲鲋悄芙K端的,不是做一個(gè)通用人工智能的企業(yè),我們的戰(zhàn)略其實(shí)還是在做我們這個(gè)企業(yè)該做的事,AI 上的戰(zhàn)略是符合我們企業(yè)的,還是要做個(gè)人智能。去年有一個(gè)品牌有一個(gè)完整的描述叫「藍(lán)心智能」,藍(lán)心智能就是個(gè)人智能,個(gè)人智能可能還是很迷糊和籠統(tǒng),你可以想象成希望為用戶做一個(gè)「VIP 的個(gè)人助理」。
要做助理的話,生活中可能有一個(gè)幫你管日程的助理,但是可能做不到法務(wù)助理、報(bào)稅助理和炒股助理,這些人是誰在做?這其實(shí)是行業(yè)里的金融公司在做、法務(wù)公司在做。比如說專門寫專利的助理,這些是「專屬助理」。我們的定位是一定為大家把手機(jī)變成各位的專屬助理,這個(gè)專屬助理可能手機(jī)公司會(huì)幫你管跟你個(gè)人強(qiáng)相關(guān)的東西,但是一些「專屬」的就要搭臺(tái)子了。今天上午我也說希望給專屬服務(wù)和用戶之間做一個(gè)橋梁,把專屬助理也和用戶拉到身邊,我們做通用助理那一部分。這是我們完整的戰(zhàn)略。
Q:vivo 也在做 AR、VR 眼鏡,MR/AR 與手機(jī)的 Agent 會(huì)不會(huì)打通?
周圍: 說到 Agent 其實(shí)在行業(yè)內(nèi)以前就有很多服務(wù),不是今天才有的,為什么大模型來了之后突然把它叫成智能體了呢?是因?yàn)樗軌蚋兄轿覀兩磉叺淖兓⒛軌蚨床煳覀兊囊鈭D、能幫我們做決策,才能把服務(wù)自動(dòng)連接起來,就是因?yàn)檫@個(gè)變化才把它叫作智能體。
原來的服務(wù)天然還在,是因?yàn)槲覀兗恿诉@ 4 個(gè)環(huán)節(jié)的建設(shè)所以變成了智能體。但是這個(gè)智能體在整個(gè)行業(yè)目前已經(jīng)很通俗化、很廣泛應(yīng)用了。為什么手機(jī)公司還要回答這個(gè)問題呢?因?yàn)槭謾C(jī)公司是真正懂用戶個(gè)人習(xí)慣的,把用戶的這些個(gè)人化特征在用戶的授權(quán)下給到三方的服務(wù)商,他們的智能體一下就會(huì)變得很強(qiáng)了。
所以手機(jī)廠商在這一點(diǎn)上是產(chǎn)生了價(jià)值的,我們?cè)跒樾袠I(yè)做平臺(tái)的建設(shè)和支撐框架的建設(shè),只是手機(jī)廠商多了一個(gè)身份,既給行業(yè)提供服務(wù),可能手機(jī)上面還有一些電話、日程、短信這樣的功能,所以同時(shí)我們做這兩件事情。
Q:所以咱們還會(huì)跟 MR 設(shè)備做一些跨設(shè)備打通的考慮嗎?
周圍: 其實(shí) MR 設(shè)備和手機(jī)最大的區(qū)別就是你得用攝像頭看真實(shí)的物理世界,還要把物理世界識(shí)別出來之后再和數(shù)字世界關(guān)聯(lián),這個(gè)應(yīng)用其實(shí)跟現(xiàn)在推的 AR 眼鏡是很類似的。看到什么要識(shí)別出來,這時(shí)候是要請(qǐng)求服務(wù)還是做介紹都有一個(gè)應(yīng)對(duì)關(guān)系,因?yàn)橐彩?OS 團(tuán)隊(duì)做這些事情,我們把它統(tǒng)一歸總起來做的。
Q:今年 AI 硬件這塊很火,手機(jī)廠商在 AI 硬件上有非常強(qiáng)大的優(yōu)勢(shì),vivo 未來有沒有往這個(gè)方面布局的規(guī)劃?
周圍: 我們公司其實(shí)成立了人工智能終端事業(yè)部,他們也有新品的發(fā)布計(jì)劃,但是時(shí)間不應(yīng)該由我來公布,我們的確像 vision 這樣的產(chǎn)品,眼鏡,包括公司也正式對(duì)外公布家庭機(jī)器人,這些是在做的。我們準(zhǔn)備的東西肯定比對(duì)外官宣的東西要多。
今天大家也看到了我們的藍(lán)河操作系統(tǒng),其實(shí)我們藍(lán)河操作系統(tǒng)已經(jīng)適配了很多的芯片,包 ARM 的芯片,有 5-6 個(gè)芯片的適配。我們自己私下也接到了電力行業(yè)的中國(guó)企業(yè),包括做 AI 眼鏡的企業(yè)也找到我們溝通。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.