夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

智能眼鏡大爆發(fā),我們和雷鳥創(chuàng)新AI負(fù)責(zé)人聊了下為什么

0
分享至

2025 年,是 AI 智能眼鏡大爆發(fā)的一年。

從 Meta 的 Ray-Ban 智能眼鏡在全球銷量突破百萬副開始,一場“百鏡大戰(zhàn)”正在全球范圍內(nèi)上演。在中國市場,阿里發(fā)布夸克 AI 眼鏡、百度推出小度 AI 眼鏡、小米計劃第二季度推出新品、理想汽車甚至跨界發(fā)布了 Livis 眼鏡。從互聯(lián)網(wǎng)大廠到手機廠商,從 AR 創(chuàng)業(yè)公司到汽車制造商,所有人都在押注:眼鏡將成為繼手機之后,下一代人機交互的關(guān)鍵入口。

據(jù) IDC 預(yù)測,2025 年全球智能眼鏡出貨量將達 1451.8 萬臺,中國市場將占據(jù) 290.7 萬臺。然而,在這場狂熱的競賽中,真正的“殺手級應(yīng)用”是什么?第一人稱視角的數(shù)據(jù)采集意味著什么?眼鏡真的能取代手機嗎?

帶著這些問題,我們與雷鳥創(chuàng)新 AI 方向負(fù)責(zé)人程思婕進行了一次深度對話。作為清華計算機系博士,從 2019 年本科時期就開始研究語言模型,從 BERT 到 GPT,再到具身智能,她的研究軌跡恰好折射出 AI 領(lǐng)域這幾年最重要的變革。而她從機器人賽道轉(zhuǎn)向智能眼鏡的選擇,或許能為我們理解這個行業(yè)提供一個獨特的視角。

智能眼鏡大爆發(fā),我們和雷鳥創(chuàng)新AI負(fù)責(zé)人聊了下為什么,DeepTech深科技,1小時1分鐘

時間線

00:00 - 02:37|開場+嘉賓自我介紹、研究方向概覽

02:37 - 04:24|學(xué)術(shù)/實習(xí)路徑與“更偏真實世界”的選擇

04:24 - 09:35|為什么從機器人轉(zhuǎn)向智能眼鏡:短期瓶頸與數(shù)據(jù)邏輯

09:35 - 13:46|眼鏡的“中間態(tài)”定位;剛需屬性與國內(nèi)外差異

13:46 - 20:28|第一人稱視角:價值、眼動/噪聲、數(shù)據(jù)挑戰(zhàn)與多視角融合

20:28 - 39:09|用戶需求與產(chǎn)品落地:穩(wěn)定性/核心場景;硬件 trade-off;團隊協(xié)作與迭代節(jié)奏

39:09 - 47:07|硬件公司 vs 軟件公司做 AI:訂閱服務(wù)趨勢;眼鏡與手機/AR vs VR 的未來想象

47:07 - 54:07|眼鏡智能體該做什么;隱私安全;意圖識別與腦機接口設(shè)想

54:07 - 01:01:15|睡眠/助手設(shè)想;AI for Good(視障/聽障)與結(jié)語

DeepTech:歡迎思婕,先和大家做個自我介紹吧。

程思婕:我叫程思婕,目前在雷鳥創(chuàng)新負(fù)責(zé) AI 方向,同時也是清華計算機系的博士。我從 2019 年本科大四的時候開始接觸語言模型,那時候還是以 BERT 為主。從那之后我一直在做 NLP(自然語言處理),從 BERT 做到 GPT。

讀博的時候 GPT 已經(jīng)非常火了,但我自己比較喜歡物理真實世界。在我看來,預(yù)訓(xùn)練語言模型更多還是應(yīng)用在數(shù)字世界里面,所以我就想怎么能和物理世界做更多融合。從 2022 年到 2023 年,我開始慢慢關(guān)注具身智能——那時候具身智能還沒有像現(xiàn)在這么火。

我先后在不同的大廠實習(xí)過:從美團開始,到上海人工智能實驗室,后來想做具身智能就去了騰訊 Robotics X 做機器人,最后來到雷鳥做智能眼鏡。

DeepTech:所以是從 NLP 到 Transformer,再到現(xiàn)在的具身智能。

程思婕:是的。我比較幸運的是,從我開始做研究的時候,就已經(jīng)是基于 Transformer 架構(gòu)做 BERT 這些了,沒有經(jīng)歷傳統(tǒng) NLP 比較落寞的時期。我入局的時候就已經(jīng)是往上走的方向了。

DeepTech:你在美團和騰訊的實習(xí)是在選擇物理世界和虛擬世界方向的時候?

程思婕:對。我是一個更喜歡真實世界的人。我很少用內(nèi)容性平臺,沒有什么社交媒體,也不怎么刷抖音、小紅書。我更喜歡擁抱真實世界,比較喜歡戶外這樣的事情。所以我也希望把大模型真正應(yīng)用在看得見摸得著的東西上,這也是后來我開始做智能硬件的主要原因。

為什么選擇眼鏡而不是機器人

DeepTech:你從機器人轉(zhuǎn)到雷鳥,為什么?你可能只是嘗試了騰訊這一個部分。

程思婕:我覺得有幾點原因。首先說機器人本身,我現(xiàn)在其實也是長期看好機器人的。機器人是大家都非常期待的事情,隨著技術(shù)迭代和資源投入,大家一定能走到最后,這是個非常大的賽道,家家戶戶都可以有很多個機器人,盤子更大。

但為什么我沒有繼續(xù)做機器人呢?在我的判斷里,大模型這波熱潮,包括智能眼鏡這波熱潮,其實都是因為 AI、因為大模型。但理性來說,我覺得大模型在短期之內(nèi)很難顛覆機器人本身的瓶頸。

比如說文本模型現(xiàn)在做規(guī)劃已經(jīng)做得很好了,但規(guī)劃這件事能完全顛覆機器人在底層操作上面臨的難題嗎?我覺得做不到。那些難題更多在硬件上、在控制上?,F(xiàn)在也有很多做物理 AI 的,我覺得這是很好的方向,但短期內(nèi)我判斷它可能還得再經(jīng)歷一輪起起伏伏。

換句話說,如果做的是垂類機器人,可能一兩年內(nèi)會有不錯的企業(yè)做得挺好。但如果要做通用機器人,真正能適用所有通用場景的機器人,那時間就不會那么短了。我是一個比較有野心的人,會覺得機器人的生命,如果想做得特別大,時機還沒到。

DeepTech:那智能眼鏡呢?

程思婕:智能眼鏡我的考慮不一樣。我自己是做大模型背景出身的,特別在意數(shù)據(jù)。智能眼鏡在短期來看,我也不會覺得它是一個馬上就能落地 AR 的設(shè)備——比如你說顯示、虛實融合做得有多好,我覺得當(dāng)下產(chǎn)品還做不到特別好。

但智能眼鏡對我來說,作為一個數(shù)據(jù)采集設(shè)備,沒有比眼鏡更好的了。它戴在頭上,在你不同感官最密集的地方,能夠持續(xù)采集數(shù)據(jù)——你每天看到的所有東西、聽到的所有聲音,這些都是智能眼鏡能采集的。

另外,眼鏡這個事情其實不是現(xiàn)在才火的。Meta 幾年前把名字改成“元宇宙”的時候,他們就在大力推眼鏡。眼鏡本身已經(jīng)經(jīng)歷了起起伏伏。

我的另一個判斷是:眼鏡可能是比手機更適合 AI 的載體。因為它不需要我從口袋里拿出手機,可以作為一個非常好的個性化助理。有了那么多數(shù)據(jù)的反哺之后,它可以做得更智能。這一系列特性讓我覺得,在目前市面上的智能硬件里面,眼鏡可能是最有機會跑出來、作為最適合 AI 載體的。

DeepTech:所以你會覺得眼鏡是在機器人之前的一個中間態(tài)?

程思婕:相當(dāng)于這樣。而且眼鏡轉(zhuǎn)起來之后還有一個邏輯——自動駕駛。自動駕駛能轉(zhuǎn)起來的一個主要原因是什么?因為它的載體是車,車本身就是人類的剛需。我不需要自動駕駛,也可能得去買車。所以車能夠跑在城市的角角落落做數(shù)據(jù)采集,其他設(shè)備很難做這件事。

眼鏡可以。眼鏡在過去幾百年里被驗證了,對近視人群來說它是剛需。作為本身就是剛需的產(chǎn)品,戴在人頭上,人不會有太大的“我要去買一個新設(shè)備”這樣的心理負(fù)擔(dān)。它就可以跑在城市的角角落落做數(shù)據(jù)采集,為未來的機器人、多模態(tài)大模型做服務(wù)。

另外,眼鏡能夠極好地解決我剛才提到的機器人的瓶頸——因為它沒有 action,不需要做底層的執(zhí)行操作,更多的是輔助人做一系列的決策。這就可以避開為什么我覺得大模型短期內(nèi)顛覆不了機器人,但我覺得大模型短期內(nèi)可以改變眼鏡。

第一人稱視角的價值

DeepTech:你剛才提到第一人稱視角,能用比較通俗的方式描述一下嗎?

程思婕:在我的觀念里,第一人稱視角和過去傳統(tǒng)的多模態(tài)數(shù)據(jù)之間會有一些 gap。比如我們過去采集數(shù)據(jù)更多用手機,手機會以某個物體為中心,變焦之后 focus 在某個物體上。

第一人稱視角的好處,我覺得最重要的是凸顯“具身”的概念。最通俗的解釋就是:和我們?nèi)艘粯?,隨著我們的姿態(tài)、動作改變,你觀察到的東西也會改變。隨著你頭的擺動,觀察的東西和你的視角是一致的。

過去機器人里很多第三人稱視角,就是把攝像頭擺在房間角落,它和你的身體之間沒有具體的連接性。第一人稱視角代表的不僅僅是視角上的轉(zhuǎn)變,更多是它和你身體之間的一致性。

比如我們桌面上現(xiàn)在一瓶水一個蛋糕,蛋糕被水擋住了,那你的人會思考:我想看到這個蛋糕,就得把頭往右扭。扭完之后視角就會發(fā)生相應(yīng)改變。更重要的是整個行為鏈路上帶來的不同影響。

DeepTech:人有時候會走神,注意力集中一段時間后就散神了,這對第一人稱視角會造成影響嗎?

程思婕:我們現(xiàn)在也特別關(guān)注眼動這件事。眼鏡的拍攝視野范圍會更大一些,我們希望它和人的視野盡可能覆蓋度一致,但這樣場景就會變得更復(fù)雜。如果沒有眼動的情況下,我都不知道用戶在關(guān)注什么。

但眼動又會帶來噪聲。人是會飄忽不定的,有時候太習(xí)慣了,甚至都不需要看著這個物體就去做事情。這確實會帶來一些技術(shù)上的困擾。但總體來說,眼動能讓我們?nèi)ダ斫庥脩?、知道用戶關(guān)注什么,有一個指向性對眼鏡來說是好事。

DeepTech:第一人稱視角的數(shù)據(jù)采集有什么要求?

程思婕:其實現(xiàn)在也有一個困境。雖然我希望智能眼鏡采集的數(shù)據(jù)未來可以用到機器人或多模態(tài)上,但第一人稱視角的數(shù)據(jù)它過于泛化了。比如人在看環(huán)境的時候會經(jīng)常擺動頭部,導(dǎo)致數(shù)據(jù)不夠干凈。機器人他們現(xiàn)在會傾向于采集非常干凈的數(shù)據(jù)來做微調(diào)。

有一些公司在做 VLA 模型預(yù)訓(xùn)練的時候,會用到第一人稱視角數(shù)據(jù),很多里面都會加上 EGO4D 這樣的數(shù)據(jù)集。但總體來說,我覺得一方面數(shù)據(jù)量需要再 scaling up,另一方面直接拿它去做機器人微調(diào)還是有一定挑戰(zhàn)的。

DeepTech:第一人稱視角、AI 和硬件,這三者是怎么串起來的?

程思婕:硬件的形態(tài)會決定它是不是第一人稱視角的設(shè)定。這就是為什么我從一開始就特別看好智能眼鏡和機器人——它們本身的形態(tài)設(shè)定就是天然的第一人稱視角,和人一樣的。

從眼鏡的角度來說,有了第一人稱視角之后可以更懂用戶。從機器人的角度來說,第一人稱視角會讓它變得更加具身,整個思維鏈路到行為之間能串起來。

但我想澄清一下:我覺得第一人稱視角是當(dāng)下值得關(guān)注的 topic,但人應(yīng)該更有想象力。第三人稱視角其實是上帝視角,我覺得未來一定是多視角融合的狀態(tài)。

甚至在眼鏡上,當(dāng)下可能因為續(xù)航等原因只有一兩個攝像頭,但未來說不定眼鏡上一圈攝像頭,像車一樣,可以更加 smart。機器人我也不覺得只有兩個攝像頭,現(xiàn)在也有手上的攝像頭、各種各樣的攝像頭。

用戶需要什么樣的智能眼鏡

DeepTech:你們對智能眼鏡用戶的期望是怎么設(shè)想的?你們覺得他們需要滿足哪些功能?

程思婕:眼鏡是一個新的品類,和現(xiàn)在做手機的邏輯肯定不一樣。作為新品類,我覺得第一件事是把行業(yè)上已經(jīng)達成共識的事情做到極致。

為什么我覺得 Meta 做得好?因為它在系統(tǒng)穩(wěn)定性上,比如 Ray-Ban 產(chǎn)品的穩(wěn)定性,做得非常好。我經(jīng)常重度體驗不同的友商產(chǎn)品。我有一款 Meta 的 Oakley,最大的感受就是我可以從早到晚戴著它聽歌,藍牙穩(wěn)定性特別好,不會有任何被打斷的感受。這種事情,國內(nèi)廠商都需要把它完善到極致。

包括一些軟件應(yīng)用,比如翻譯、會議紀(jì)要、導(dǎo)航這些場景,這是行業(yè)里達成共識的,每家廠商都會做。那怎么在這些行業(yè)共識的場景里,首先讓用戶達到預(yù)期?用戶戴上眼鏡去做導(dǎo)航,是有一個最基本底線的,你怎么能達到用戶的底線,把這個產(chǎn)品打磨好,而且打磨得有差異化?

另外,只做到這些也是不夠的。眼鏡作為新品類,你對它的期待不只是說能做個導(dǎo)航、做個翻譯。我拿個翻譯筆、錄音筆也能干這些事兒。**怎么挖掘出那些在部分場景上體驗?zāi)苓_到 90 分以上的功能?**這是眼鏡廠商應(yīng)該去做的事情。

DeepTech:所以我可以理解成,現(xiàn)在一些比較低的要求,很多產(chǎn)品還沒有達到?比如穩(wěn)定性不夠強,翻譯做得不好,導(dǎo)航可能會出錯?

程思婕:我是一個比較苛刻的人,我會覺得當(dāng)下沒有達到那么好的狀態(tài),還是有非常大的進步空間。

DeepTech:你剛才說那個 TQA 和 VQA 是什么?

程思婕:不好意思,這是文本問答、圖像問答這些。比如去戶外場景里做視覺問答,像現(xiàn)在豆包其實做得很好了,還可以做視頻問答。

但這和硬件也有關(guān)系。手機上拍照的硬件設(shè)備已經(jīng)非常成熟了,大家都開始卷各種參數(shù)。但對眼鏡而言,你要在這么小的、又希望它能輕的產(chǎn)品里做到特別好,還是有一定挑戰(zhàn)的。

DeepTech:那相對于目前的硬件條件,有哪些比較難以達到的?除了攝像頭,還有其他的嗎?

程思婕:續(xù)航是非常重要的事情。大家目前有個共識:眼鏡如果希望大家能戴得住,肯定還是要輕。輕、舒適度好的情況下,你就得權(quán)衡很多硬件上的東西。加任何一個東西,比如加個攝像頭,就會帶來非常大的各種 cost——成本上的、重量上的、續(xù)航上的。

所以硬件上面更多就是重量、續(xù)航、算力,還有各種傳輸速度,這些都是挺大的問題。

DeepTech:在眼鏡上想實現(xiàn)算力,是直接在端側(cè)就有芯片,還是需要上傳到云端再計算?

程思婕:得看不同的產(chǎn)品線。有些產(chǎn)品為了追求特別輕,芯片就會相對弱一些。比如我們的 V 系列產(chǎn)品可能就是用高通的 AR1,可以支持一些小的模型在上面跑。但用 AR1 的話,續(xù)航可能又會下降。

所以要考慮怎么做權(quán)衡,以及你到底在什么場景下需要把什么樣的模型放在端側(cè)。這也是做智能硬件的魅力所在,你總是要在各種各樣的 trade-off 下去設(shè)計很多東西。

DeepTech:目前市場上智能眼鏡的續(xù)航能達到多少?

程思婕:也看品類。如果希望它持續(xù)做 video recording,那續(xù)航可能就相對短一些,可能就幾十分鐘。但如果只是聽音樂,從早戴到晚,正常聽的話其實一天也能扛得住。如果只是希望它做錄音,比如 microphone always on,其實也能做到 24 小時持續(xù)錄音,但你可能就沒辦法有攝像頭了??茨阕呤裁礃拥漠a(chǎn)品路線。

多模型、多智能體的協(xié)作

DeepTech:你們的產(chǎn)品里面是固定的一個模型嗎?還是在不同的產(chǎn)品線上用不同的模型?

程思婕:我們產(chǎn)品上會有很多不同的模型,不是一個模型就能干完所有事兒。我們會做一些定制化開發(fā),針對不同的眼鏡、不同的功能去做進一步微調(diào)。但整體大的框架上,我們還是盡可能希望復(fù)用,底層邏輯是一樣的。

DeepTech:你說的不同模型,是指一號產(chǎn)品對應(yīng)一號模型,二號產(chǎn)品對應(yīng)二號模型嗎?

程思婕:還不完全是。因為涉及到工程落地,我們可能會有很多不同的智能體,面向 C 端不同用戶的需求。每個智能體里面可能就會有一個模型,前面做意圖分發(fā)可能也得適應(yīng)不同的模型,再往前做語音轉(zhuǎn)文本也需要不同的模型。整個鏈路首先就會有不同的模型構(gòu)成,然后在不同產(chǎn)品線上可能又需要針對不同產(chǎn)品做相關(guān)的定制化。

DeepTech:這些不同智能體的調(diào)用是怎么展示在眼鏡上的?

程思婕:我們會有不同的入口,可以直接通過語音交互去喚醒。手機上也會有相關(guān)智能體應(yīng)用的呈現(xiàn)。如果是帶顯示的眼鏡,像我們的 X 系列,它里面會有自己的系統(tǒng),系統(tǒng)里就會有相關(guān)的呈現(xiàn)。

DeepTech:在這個系統(tǒng)里選擇 agent 是怎么選?

程思婕:可以通過鏡腿操作,也可以通過語音交互,也可以通過比如手勢各種各樣的交互。

DeepTech:你們的大模型是自己的嗎?

程思婕:我們和阿里通義現(xiàn)在是獨家戰(zhàn)略合作的狀態(tài),所以我們會有阿里這邊的支持。另外在有些智能體上面我們會選擇做一些自研,會做模型的微調(diào)。

DeepTech:微調(diào)都是基于千問?

程思婕:對。

語音交互的重要性

DeepTech:眼鏡涉及到很多維度,除了視頻,還有聲音等等,你們是怎么處理這些多維信息的?

程思婕:第一人稱視角更多還是在視覺輸入上會有差異。聲音維度的話,因為眼鏡最大的優(yōu)勢就是能采集不同維度的信息,我們也會針對聲音做一些相關(guān)處理。而且我的判斷是,語音這件事未來會變得越來越重要。

一方面原因是語音是我們眼鏡最重要的交互入口。在交互過程中,很多時候都是通過語音和眼鏡做對話,去做相關(guān)智能體的調(diào)用。我覺得在未來智能硬件里面,語音是非常重要的入口。

第二個原因是我覺得文本大模型本身是具有一定局限性的,尤其是在對情感的理解上。對沒有顯示的眼鏡來說,語音交互是非常重要的東西。一方面需要它效率高,另一方面希望它盡可能像人一樣,能提供一些情緒價值。如果希望它提供情緒價值,就得學(xué)會怎么和語音融合在一起。

現(xiàn)在其實已經(jīng)有這樣的形式了,大家開始做全模態(tài)的模型,把語音加進去。語音里面的感情能夠被大模型識別到,然后做相應(yīng)的 TTS 輸出。我們其實也在做一些相關(guān)的研究和推進。

DeepTech:你們現(xiàn)在有遇到什么困難嗎?比如在很嘈雜的環(huán)境,會對眼鏡造成困擾?

程思婕:這就涉及到另外一塊了。我最近也有學(xué)習(xí)很多前端聲學(xué)相關(guān)的東西。眼鏡或者語音的輸入,我們現(xiàn)在更多還是用傳統(tǒng)路徑:聲學(xué)變成語音輸入后轉(zhuǎn)成文本,文本給到大模型做處理。所以語音轉(zhuǎn)文本這部分如果錯誤累積非常嚴(yán)重,對大模型效果影響非常大。

我們也在考慮怎么打造前半段的鏈路,讓效果變得更好?,F(xiàn)在在聲學(xué)里面會涉及到降噪,做一些語音分離,還有遠場近場的拾取,整個這塊我們都有在做相關(guān)研究和推進。

主要困難對我而言,更多還是因為我過去純做大模型,現(xiàn)在涉及到得考慮硬件的東西,還得考慮聲學(xué)方向的東西。整體的話我們團隊會大家一塊配合解決這些問題。

硬件公司與軟件公司的 AI 之爭

DeepTech:你們是怎么實現(xiàn)內(nèi)部協(xié)作的?因為你可能開發(fā)了一個模型效果非常好,但它跑在硬件上會對硬件造成很大壓力。

程思婕:首先我覺得,我前段時間在和一個產(chǎn)品經(jīng)理聊的時候,他之前有非常多和硬件合作智能硬件相關(guān)的經(jīng)驗,他教會了我一個詞叫“敬畏硬件”。

這個詞給我感觸非常深。因為我覺得過去我總是會覺得大家迭代速度非??欤绕湓诖竽P瓦@個行業(yè)里,一個月就發(fā)生了天翻地覆的變化。但硬件不是這樣的,它不是說我今天就要攻克這個難題,今天就把攝像頭提到多少分辨率、NTF 做到多好。

所以我們會選擇和硬件團隊溝通。比如如果我希望我的 AI 未來能夠達到什么樣的能力,我會希望有什么樣的硬件能夠上去,或者希望硬件在選型上面能夠變得更好,或者希望加什么硬件。這些可能會在一開始確定一個產(chǎn)品的時候就聊好。

產(chǎn)品那邊也會有他們的一些 trade-off:我的 key point 到底是什么?當(dāng)前這個產(chǎn)品是不是以 AI 作為主打的功能定位?我們會先做溝通,溝通完之后,如果硬件選型已經(jīng)確定,那可能就不是硬件給我們妥協(xié),我們得去考慮在當(dāng)前這個 constraint(限制)下我們可以做什么,把什么東西做到極致,什么樣的場景是我們能達到用戶體驗閉環(huán)的。

DeepTech:你們在規(guī)劃下一個產(chǎn)品的時候,會設(shè)想多遠?比如像摩爾定律每 18 個月晶體管數(shù)量會怎么變,你們會在這個基礎(chǔ)上考慮嗎?

程思婕:像 AI 這塊,我自己 prefer 的風(fēng)格是以終為始。我可能會有一個我覺得特別長期的判斷:這個眼鏡加 AI,AI 眼鏡上的硬件該怎么選,能夠把 AI 的潛力發(fā)揮到極致。這是我可能會考慮的一個戰(zhàn)略上的東西。

但在真正每代產(chǎn)品的決策上,我們可能還得考慮比如市場的變化,在當(dāng)下這個產(chǎn)品到底大家會為什么東西買單,我們還得面對當(dāng)前的競爭。所以整體的話,一個是未來的理想,一個是當(dāng)下的現(xiàn)實,我們都會做綜合考量。

DeepTech:現(xiàn)在雷鳥的頻率大概是每年推幾個產(chǎn)品?

程思婕:我們其實還是走的多產(chǎn)品線。一方面是眼鏡這個形態(tài),我覺得還沒有被最終確定。包括現(xiàn)在 Meta 確實做得很好,但我也不會覺得它就是終局形態(tài)的眼鏡了。眼鏡值得被顛覆的東西還有很多。

大家沒有一個人可以指出來說“我就看清了未來眼鏡終局長什么樣子”。所以當(dāng)下我們更多走的是多產(chǎn)品線的路線,覆蓋的品類會更多一些,整體迭代速度也會更快一些。

我覺得雷鳥做得非常好的一個點是,比如我們的 V 系列眼鏡,是當(dāng)時整個市面上創(chuàng)業(yè)公司里最早實現(xiàn)量產(chǎn)上市的眼鏡。我們內(nèi)部執(zhí)行力各方面還是非常強的。

DeepTech:你覺得一個硬件公司做 AI 和一個軟件公司做硬件,比如 OpenAI 現(xiàn)在也在接觸一些公司,可能要做一些硬件的東西,你怎么看?

程思婕:首先,我就不舉軟件公司做硬件沒做成的例子了。我覺得這個事情難度還是比較大的,不同公司有不同的基因,就像我總是說我做不了抖音之類的產(chǎn)品,因為我自己就不喜歡內(nèi)容沉浸的東西。

對于軟件公司來說,尤其是體量已經(jīng)非常大的公司去做硬件,他們的基因里面可能就不一定帶著硬件。OpenAI 可能還好一些,因為它總體體量沒有那么大。

說到硬件公司做軟件,我覺得這是另外一套邏輯。現(xiàn)在越來越多的硬件公司,雖然是硬件公司,但實際上最終讓用戶付費的是它的訂閱式服務(wù),是軟件的服務(wù)。

我覺得未來硬件本身,跑到最后是不會有太大差異的,可能會有很多家都在做這樣的產(chǎn)品。最終可能很多硬件之所以火起來,背后的邏輯還是因為 AI 賦能了它們。比如現(xiàn)在 Cloud 是個非常火的智能硬件,它其實提供的就是會議紀(jì)要這種做得非常細(xì)的 AI 服務(wù)。

未來的智能硬件,不管是錄音筆、智能眼鏡、機器人,甚至玩偶這些,長期來看會變成硬件服務(wù) AI 這么一個局面。

眼鏡能取代手機嗎?

DeepTech:在你的想象里,以后當(dāng)機器人也達到很厲害的狀態(tài)時,我們周圍的這些 AI 硬件應(yīng)該是怎樣的?

程思婕:眼鏡和機器人在我眼里是兩套不同的邏輯。眼鏡會更像手機一些,可能最后大家都會以它作為硬件載體。但機器人,我之前和別人溝通時改變了認(rèn)知,它會更像車一些。

機器人會有很多垂類的產(chǎn)品,我不需要每一個機器人都像人。比如現(xiàn)在的洗碗機我也覺得可能就是一個機器人,掃地機也可能是個機器人,它不一定長得像人。

所以會既有垂類的很多不同機器人去干具體的事情,這是我覺得未來一兩年內(nèi)有些機器人廠商的機會所在。另外,未來也會有很多人形的,或者超越人形的機器人,以各種各樣的身份存在。

DeepTech:會起到陪伴的作用?

程思婕:對,陪伴,或者去——雖然我不想這么說——但肯定會取代掉很多崗位,做一些更加……我覺得這不一定是壞事,只要我們能夠考慮得更長遠。

DeepTech:我們之前也聊過一些公司,他們覺得人可能不應(yīng)該去做那些體力勞動的事兒,人應(yīng)該更多去做德智體美的部分。

程思婕:對,這也是個很有意思的問題。前段時間我也在思考 AI for good,就是 AI 向善這件事。對國內(nèi)來說,大家可能確實比較關(guān)心技術(shù)的突破,導(dǎo)致在人文上面可能會有一些忽視。但我相信過去一代代的技術(shù)革命都不斷往前突破了,所以我整體是樂觀的。關(guān)鍵在于我們怎么利用這些技術(shù),以及在前進過程中怎么更多關(guān)心人文上的東西。

DeepTech:你剛才提到一個點,你覺得眼鏡以后有可能會取代手機。為什么會有這樣的想法?

程思婕:我堅信它會取代手機,它應(yīng)該成為下一代的計算平臺。因為眼鏡上也有 display、也有顯示,也會有完整的一套操作系統(tǒng)。它可以不用拿出來。

但理性來說,我會覺得它也會相對更遠。短期之內(nèi)我可能更多還是覺得眼鏡會取代掉一些需要解放雙手的場景,比如有時候我實在不想掏出手機了。目前我覺得眼鏡更多定位是去做數(shù)據(jù)采集,以及作為眼鏡加手機的輔助角色。但長期來說,我希望眼鏡能取代手機。對我而言,我希望出門能帶的東西越少越好。

DeepTech:如果眼鏡取代手機以后,你覺得會不會對人的思維造成一些影響?從按鍵手機到屏幕手機其實對人產(chǎn)生了一定影響。

程思婕:這也是很有意思的問題。我在考慮做眼鏡的時候,一開始就講到我更喜歡真實世界。所以我對眼鏡的定位一定是真實世界大于數(shù)字世界。我希望讓大家走出手機來擁抱真實物理世界。

所以我非常希望做 AR,就是增強現(xiàn)實,它是一個增強的東西,幫助你在真實世界里更好地做一些有意思的事情。比如讓我去做 VR 我就可能不會考慮,因為它完全沉浸在虛擬世界里去創(chuàng)造元宇宙這么一個概念。

肯定會有人喜歡物理世界,也會有人喜歡虛擬世界。但我自己的偏好是,我希望讓大家離真實世界更近一點,可以放下手機。比如我看到前面一個風(fēng)景,過去我可能需要掏出手機在小紅書查一下是什么,但未來我可能只要 enjoy、享受我看到的事情就夠了,不需要沉浸在虛擬世界里。AI 只要給我不停的信息提示,告訴我、幫我增強我對現(xiàn)實世界的理解。

DeepTech:所以你會覺得眼鏡這件事不會讓人沉浸?

程思婕:或者說這是我自己的價值觀導(dǎo)致的。也不一定,比如總會有人當(dāng)眼鏡變成熟了之后,拿著抖音的思想放在眼鏡里面,讓大家短平快地接受各種各樣的信息。一定會有這樣的產(chǎn)品。但從我的初心出發(fā),我希望大家更多地?fù)肀д鎸嵤澜纭?/p>

智能體需要完成哪些目標(biāo)

DeepTech:在你的哲學(xué)里,你覺得以后在眼鏡上的智能體需要完成哪些目標(biāo)?

程思婕:這對我來說是個比較難的事情,大家都沒有想得特別清楚。眼鏡上的智能體,我覺得更多是輔助我的生活。

比如現(xiàn)在我最直接想到的就是解放雙手的場景。像做飯,眼鏡能主動告訴我這個菜該怎么做、每步該怎么弄,像一個專業(yè)廚師一樣指導(dǎo)我。像打球,之前有個同學(xué)跟我分享,他喜歡打網(wǎng)球,最好能類似一個教練一樣幫他預(yù)測網(wǎng)球的落點落在哪兒,他能馬上跑過去接住。我覺得這些東西在我眼里是更有意思的。

DeepTech:你會不會覺得這種幫助人去思考的功能會降低人們思考的能力?

程思婕:我覺得不會。因為懶惰這件事就是人的天性,很多很聰明的人都是為了自己能夠更懶一些。解放大家的時間,短期來看可能會有一些人文上的顧慮,但我覺得長期來看,大家可以真正有更多時間去思考自己想要什么東西、想做什么樣的事情??傮w是更好的。

隱私問題怎么解決

DeepTech:在很多帶有攝像頭的設(shè)備上都會存在安全隱私的問題,你們是怎么思考的?

程思婕:剛剛我說到 AI 向善的事情,我最近也在思考隱私問題。我自己之前還做過一些聯(lián)邦學(xué)習(xí),就是在模型上怎么保護隱私。最近我也在拜訪很多做隱私的老師,也在考慮怎么能夠保護隱私。

因為眼鏡代替人第一人稱視角拍照這件事,確實是具有一定侵略性的。對很多人來說,尤其是現(xiàn)在還沒有普及,當(dāng)普及的時候早晚會成為一個社會問題。

我們考慮了幾個層面。第一,現(xiàn)在很多眼鏡都會有提示燈。第二,我們希望在拍照的輸入層面就做處理——比如我拍張照片,但外面的人不希望我拍,那我的眼鏡廠商可以先對他做一層打碼之類的。第三,我可以在模型層面做一些處理,在端上做相關(guān)處理,確保數(shù)據(jù)不會被攻擊、不能被復(fù)原出來,上傳時不會有任何問題。

甚至未來如果端側(cè)能力更好了,我可能就把一些模型放在端上。最后在云端上,其實現(xiàn)在大家對云端的接受度總體來說是越來越高的,因為大模型廠商其實都是放在云端上的,但也還會有那么多人去使用。云端上也會有一些相關(guān)的保護機制,比如我們會要求環(huán)境完全被隔離,上傳之后可能會做加密。

整個鏈路上我們非常希望能夠關(guān)注用戶的隱私,讓眼鏡這個產(chǎn)品不會被大眾所抵觸。

DeepTech:我之前也看到有人拿眼鏡來拍照,可能會對有一些人造成困擾。

程思婕:對,我們也在想一些技術(shù)層面的方案,比如在什么樣的場景就不允許拍照了。這些東西我們都在考慮整個鏈路上到底怎么做,能夠確保用戶的隱私最大程度上得到保護。這是我們非常關(guān)注的問題。

DeepTech:這讓我想到另一個層面,如果假設(shè)每個人都戴著智能硬件,我就可以跟我的智能硬件說“我不希望被別人拍進去”,一旦形成聯(lián)網(wǎng)的情況,這種問題就比較容易解決。

程思婕:是的,昨天下午我在和一個清華老師討論的時候就說這個事情——大家都會有一個自己的 profile,就是我的隱私 profile,我的設(shè)定是我希望我自己不被別人拍下來或者怎么樣,那其他的眼鏡就能收到這個東西,互相之間聯(lián)網(wǎng)。

理解用戶意圖

DeepTech:你們對于人的意圖識別是怎么做到的?是需要主動呼叫嗎?

程思婕:這也是非常有意思的問題,可能我還不能談?wù)撎?,但我們確實非常關(guān)注這一塊。

眼鏡非常好的點在于它能拿到和人一致的這些信息。但讓人永遠都主動去提個問題,這對人來說成本比較高,尤其是在有些場合。比如我現(xiàn)在和你在開會的時候,或者開一些正式會議的時候,我總不能總是呼喚“小雷幫我……”,我突然想不起一個東西,我希望有人能提示我一下過去談過的事情到底是什么樣的結(jié)果,但我想不起來了。我也不方便喚醒說“小雷幫我查一下”。眼鏡就應(yīng)該能夠敏銳地感受到我這時候需要幫助。

我們現(xiàn)在也在推進這方面的東西,希望眼鏡能夠更懂用戶一些。

DeepTech:那你覺得腦機接口會對眼鏡造成一定的顛覆嗎?

程思婕:我對終局的判斷是,我非常希望或相信腦機接口能夠讓眼鏡或其他硬件都更懂用戶。但理性來說,我會覺得它會有點遠。在我的認(rèn)知內(nèi)稍微還遠了一些。

目前腦機接口我也和不同的腦機廠商聊過,感覺目前可能更多還是有一些粗粒度上的識別。如果你希望它非常精準(zhǔn)地告訴你“我當(dāng)前這個意圖就是什么”,那可能還有一定距離。但我還是希望能演變成腦機接口直接讀取的狀態(tài)。

DeepTech:比如我們戴眼鏡睡覺的時候就摘掉了,你覺得我們在睡覺時還需要這樣一個 AI 助手嗎?比如它可能有幫我們睡覺的功能?

程思婕:我之前也和一個朋友討論過。比如現(xiàn)在也會有那種睡前讓你戴一個什么東西,通過一些技術(shù)能讓你加快睡眠的速度。

在睡前你可以戴著眼鏡。假設(shè)我知道你的日常行為,知道你每天大概什么時候睡,那我可能在判斷了你今天大概這個點睡的時候,提前 20 分鐘幫你打開助眠的那一系列 sensor——可能除了音樂之外還有別的。然后當(dāng)你摘下眼鏡之前,我就停止、關(guān)機。但你其實已經(jīng)接受了這些服務(wù)。

有一些東西可能在戴著的時候就可以做,沒有必要在睡的時候直接戴著。睡眠監(jiān)控的功能,真正有這方面需求的人可能用手表或其他方式就替代了。

國內(nèi)外市場的差異化

DeepTech:你最開始也提到 Meta 的一些聯(lián)名,針對比如運動或者喜歡新奇特的人群。你們覺得對于國外這種喜歡新奇特的,和中國產(chǎn)品可能更應(yīng)該做本土化的,這兩個方向怎么看?你們會走哪個方向還是兩者兼顧?

程思婕:我們的產(chǎn)品本身國內(nèi)和海外都會賣,所以總體上會兼顧這兩個不同的人群。我非常認(rèn)可說海外和國內(nèi)之間人群是有差異化的。

但目前對我們來說,最主要的目標(biāo)是希望把產(chǎn)品做到極致。功能性這件事,一方面眼鏡本身是個眼鏡,我們也會考慮怎么讓它更像或者本身就是一副眼鏡,把眼鏡的特性維持到最好。另一方面,我們覺得功能性上如果一個電子產(chǎn)品把功能性拉到最好,對大家來說,我們也希望能夠破圈、變得更加普及。

我們現(xiàn)在更多還是一些科技發(fā)燒友在做購買的策略,但我們希望它能夠變得更加普及,把各種各樣的體驗拉上去,有更多的功能之后,破圈的概率也會更大一些。

DeepTech:你們覺得什么樣的人物畫像會是買 AI 智能眼鏡的?

程思婕:當(dāng)下在國內(nèi)肯定主要是一些科技發(fā)燒友。其他的得看不同公司對自己產(chǎn)品和目標(biāo)人群的定位。比如有些公司主要看重運動人群,因為最自然想到的就是眼鏡比手機更大的好處是解放雙手。有些公司特別看重拍攝人群,發(fā) vlog 的那些人,因為眼鏡上有第一人稱視角拍攝,可以做一些相關(guān)內(nèi)容。更多還是看產(chǎn)品自己本身的定位。

AI for Good:讓眼鏡幫助更多人

DeepTech:我最近有一個非常剛需的事情,但目前還沒有看到做得特別好的。我外公他有白內(nèi)障非常嚴(yán)重,嚴(yán)重到他往外面溜達的時候,如果很近他看不見,會撞在上面。我就在想有沒有一種眼鏡可以告訴這種視障人士……因為老人有另外一個心理,就是他不愿意做手術(shù)。

程思婕:這個事情我非常有共鳴。為什么我做眼鏡,潛意識里面可能還有一個原因是我的外婆她眼睛非常不好,很多東西在家里面都得放在固定的位置,來確保自己能夠找到。這可能也是我做眼鏡的一方面原因。

我們內(nèi)部,一方面可能我來了之后很多東西要從 0 到 1 做,所以更多落地的事情會花更大精力。另一方面,前段時間我就已經(jīng)在組織小伙伴們,我們會用一些 20% 的時間考慮一下。

您提到視障人群,其實聽障人群我自己也讓小伙伴們多去了解用戶。我們會經(jīng)常做用戶訪談,雖然我們是個算法團隊,但我們了解到用戶里面有一部分聽障人群,他們對眼鏡產(chǎn)品也是非常需要的。尤其像我們的 X 系列會有顯示,對聽障人群來說也會有比較好的幫助。

所以我們會花一些 20% 的時間來做一些希望能夠?qū)ι俨糠秩巳河袔椭氖虑?。我們很早之前就?CEO 討論過這個事情。其實最大的顧慮是我們會擔(dān)心技術(shù)沒有成熟到它能百分之百安全。

比如一個視障人群,尤其是在過馬路的時候,我因為時延的問題跟你說“那是綠燈”,結(jié)果馬上就跳紅燈了,那我還是有一定擔(dān)心的。所以這件事我很希望去做,但確實有一定顧慮。

不過我們現(xiàn)在在激烈討論這個事情,還是希望能夠至少有一些推進。比如避障的場景,我們其實一定程度上是可以做的,很早就想干這件事了,但一直因為顧慮也沒有往下推。

前段時間有挺多聽障人群聯(lián)系到我們,他們想體驗眼鏡,看看能不能提供幫助。我們更加認(rèn)識到,這個產(chǎn)品對于少部分人群來說真的會有很大幫助,或者說它至少有潛力提供很大幫助。所以我上周專門拉了一個群,問大家有多少人對這件事感興趣,我們要用 part-time 去努力解決這個事情,希望能夠多往前再走一走。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
停產(chǎn)關(guān)廠,又一汽車巨頭爆雷!

停產(chǎn)關(guān)廠,又一汽車巨頭爆雷!

蔣東文
2025-12-16 23:39:24
美國入境限制國家 擴至40個

美國入境限制國家 擴至40個

每日經(jīng)濟新聞
2025-12-17 13:29:12
周柯宇成魏大勛2.0!狗仔曝?zé)岵〗愕軕僬嬲劻耍P(guān)鍵在游戲雙排

周柯宇成魏大勛2.0!狗仔曝?zé)岵〗愕軕僬嬲劻?,關(guān)鍵在游戲雙排

萌神木木
2025-12-17 17:37:43
國家隊救市了!市場大逆轉(zhuǎn)!

國家隊救市了!市場大逆轉(zhuǎn)!

販財局
2025-12-17 15:04:33
放棄爭奪數(shù)百億遺產(chǎn),帶著女兒遠遁美國,如今才知道她有多清醒

放棄爭奪數(shù)百億遺產(chǎn),帶著女兒遠遁美國,如今才知道她有多清醒

夢史
2025-12-16 11:07:49
回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

回顧探花大神:害人害己,多位女主被親戚認(rèn)出當(dāng)場“社死”

就一點
2025-10-09 12:19:42
驗貨成功!首秀就轟下30分+6記三分,但為時已晚,再見了,湖人

驗貨成功!首秀就轟下30分+6記三分,但為時已晚,再見了,湖人

球童無忌
2025-12-17 23:30:43
柬埔寨女子隔空喊話中國網(wǎng)友:為什么冤枉我們?

柬埔寨女子隔空喊話中國網(wǎng)友:為什么冤枉我們?

兵叔評說
2025-12-17 12:49:04
49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當(dāng)年小燕子徹底涼透了

阿纂看事
2025-12-12 09:18:29
奧迪:我們只能造出熱效率38%的發(fā)動機,你們是怎么做到45%的?

奧迪:我們只能造出熱效率38%的發(fā)動機,你們是怎么做到45%的?

少數(shù)派報告Report
2025-12-17 07:32:02
《阿凡達3》預(yù)售票房斷崖式下跌,網(wǎng)友:這票價他們也是真敢開口

《阿凡達3》預(yù)售票房斷崖式下跌,網(wǎng)友:這票價他們也是真敢開口

星宿影視鴨
2025-12-17 14:53:49
郵報:水晶宮主席得知曼聯(lián)愿為比薩卡付5000萬時差點摔下椅子

郵報:水晶宮主席得知曼聯(lián)愿為比薩卡付5000萬時差點摔下椅子

懂球帝
2025-12-17 20:29:05
陳百祥宣布接受安樂死!和妻子結(jié)婚50年無兒無女,自曝靈堂設(shè)置

陳百祥宣布接受安樂死!和妻子結(jié)婚50年無兒無女,自曝靈堂設(shè)置

阿纂看事
2025-12-17 16:12:50
河南輝縣“智力缺陷者接任村支書”后續(xù):法院相關(guān)負(fù)責(zé)人上門致歉,當(dāng)事人接受道歉

河南輝縣“智力缺陷者接任村支書”后續(xù):法院相關(guān)負(fù)責(zé)人上門致歉,當(dāng)事人接受道歉

澎湃新聞
2025-12-17 15:14:26
市場嚴(yán)重透支:2026年車市或迎來斷崖暴跌!

市場嚴(yán)重透支:2026年車市或迎來斷崖暴跌!

達文西看世界
2025-12-17 13:32:32
價格大跳水!暴跌30%,進口車跌落神壇,廣東“老錢車”銷量逆襲

價格大跳水!暴跌30%,進口車跌落神壇,廣東“老錢車”銷量逆襲

品牌觀察官
2025-12-16 20:52:08
泰軍炸掉詐騙園區(qū)、器官移植中心,洪森為何氣急敗壞?

泰軍炸掉詐騙園區(qū)、器官移植中心,洪森為何氣急敗壞?

胡嚴(yán)亂語
2025-12-16 20:33:51
28歲女教師結(jié)婚當(dāng)天墜亡,疑似朋友圈遺言被逼婚;當(dāng)?shù)匾殃P(guān)注到此事

28歲女教師結(jié)婚當(dāng)天墜亡,疑似朋友圈遺言被逼婚;當(dāng)?shù)匾殃P(guān)注到此事

大風(fēng)新聞
2025-12-17 13:12:04
日本通告全世界,或?qū)姷轻烎~島;中方已增兵,俄羅斯也選邊站了

日本通告全世界,或?qū)姷轻烎~島;中方已增兵,俄羅斯也選邊站了

現(xiàn)代小青青慕慕
2025-12-17 12:58:18
副市長、市教育局局長、縣委書記、縣長等25人被處理

副市長、市教育局局長、縣委書記、縣長等25人被處理

南方都市報
2025-12-17 19:50:20
2025-12-18 03:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16010文章數(shù) 514406關(guān)注度
往期回顧 全部

科技要聞

特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

頭條要聞

墜亡女教師有已婚哥哥和未婚弟弟 父母被指不愿退彩禮

頭條要聞

墜亡女教師有已婚哥哥和未婚弟弟 父母被指不愿退彩禮

體育要聞

短短一年,從爭冠到0勝墊底...

娛樂要聞

狗仔曝?zé)岵〗愕軕僬嬲劻????/h3>

財經(jīng)要聞

重磅信號!收入分配制度或迎重大突破

汽車要聞

一車多動力+雙姿態(tài) 長城歐拉5上市 限時9.18萬元起

態(tài)度原創(chuàng)

親子
時尚
教育
家居
軍事航空

親子要聞

撒潑打滾的娃媽媽只有一早就制服了

你算老幾?我算老己!

教育要聞

孩子沉迷屏幕?3大類趣味實踐活動玩中學(xué)!

家居要聞

溫馨獨棟 駝色與淺色碰撞

軍事要聞

最新現(xiàn)場:山東艦完成年度最后一次海上訓(xùn)練

無障礙瀏覽 進入關(guān)懷版 成人国产精品久久久久| 亚洲无码中文字幕在线播放| 亚洲一卡2卡3卡4卡精品| 久久丁香视频| 内射少妇一区27p| 在线色V22com| 亚洲成熟av| 亚洲一区影院| 日韩免费无码一区二区视频| 在线亚洲高清揄拍自拍一品区| 天天综合亚洲| 91精品乱码一区二区三区| 国产精产国品一区二区| 久久中文字幕日韩无码视频 | 成人网址一区二区三区| 87福利午夜福利视频| 国产不卡一区二区视频| 亚洲AV性色在线观看| 国产在线乱子伦一区二区| 亚洲国产精品ⅴa在线观看| 色哟哟国产免费| 四虎亚洲精品无码| 午夜自慰喷水女成人AV| 免费又黄又爽又猛大片午夜 | 9久久久久国产92| 国产毛片一区| 日日日,天天日| 韩国三级l中文字幕无码| 欧美韩中文精品有码视频在线| 亚洲日产韩国一二三四区| 日韩无码影视一区二区三区| 婷婷综合色| 天天日天天操AV| 国产av一区二区不卡| 免费的毛片网站在线观看| 四季av无码一区二区三区| 欧美性爱视频永久免费看| 国产大学生视频| 中文字幕精品无码一区二区三区| 99国产精品白浆在线播放 | 又大又粗又长的高潮视频|