智能眼鏡大爆發(fā)，我們和雷鳥創(chuàng)新AI負(fù)責(zé)人聊了下為什么

2025-12-17 17:37:45　來源: DeepTech深科技

北京舉報

分享至

2025 年，是 AI 智能眼鏡大爆發(fā)的一年。

從 Meta 的 Ray-Ban 智能眼鏡在全球銷量突破百萬副開始，一場“百鏡大戰(zhàn)”正在全球范圍內(nèi)上演。在中國市場，阿里發(fā)布夸克 AI 眼鏡、百度推出小度 AI 眼鏡、小米計劃第二季度推出新品、理想汽車甚至跨界發(fā)布了 Livis 眼鏡。從互聯(lián)網(wǎng)大廠到手機廠商，從 AR 創(chuàng)業(yè)公司到汽車制造商，所有人都在押注：眼鏡將成為繼手機之后，下一代人機交互的關(guān)鍵入口。

據(jù) IDC 預(yù)測，2025 年全球智能眼鏡出貨量將達 1451.8 萬臺，中國市場將占據(jù) 290.7 萬臺。然而，在這場狂熱的競賽中，真正的“殺手級應(yīng)用”是什么？第一人稱視角的數(shù)據(jù)采集意味著什么？眼鏡真的能取代手機嗎？

帶著這些問題，我們與雷鳥創(chuàng)新 AI 方向負(fù)責(zé)人程思婕進行了一次深度對話。作為清華計算機系博士，從 2019 年本科時期就開始研究語言模型，從 BERT 到 GPT，再到具身智能，她的研究軌跡恰好折射出 AI 領(lǐng)域這幾年最重要的變革。而她從機器人賽道轉(zhuǎn)向智能眼鏡的選擇，或許能為我們理解這個行業(yè)提供一個獨特的視角。

智能眼鏡大爆發(fā)，我們和雷鳥創(chuàng)新AI負(fù)責(zé)人聊了下為什么,DeepTech深科技,1小時1分鐘

時間線

00:00 - 02:37｜開場＋嘉賓自我介紹、研究方向概覽

02:37 - 04:24｜學(xué)術(shù)/實習(xí)路徑與“更偏真實世界”的選擇

04:24 - 09:35｜為什么從機器人轉(zhuǎn)向智能眼鏡：短期瓶頸與數(shù)據(jù)邏輯

09:35 - 13:46｜眼鏡的“中間態(tài)”定位；剛需屬性與國內(nèi)外差異

13:46 - 20:28｜第一人稱視角：價值、眼動/噪聲、數(shù)據(jù)挑戰(zhàn)與多視角融合

20:28 - 39:09｜用戶需求與產(chǎn)品落地：穩(wěn)定性/核心場景；硬件 trade-off；團隊協(xié)作與迭代節(jié)奏

39:09 - 47:07｜硬件公司 vs 軟件公司做 AI：訂閱服務(wù)趨勢；眼鏡與手機/AR vs VR 的未來想象

47:07 - 54:07｜眼鏡智能體該做什么；隱私安全；意圖識別與腦機接口設(shè)想

54:07 - 01:01:15｜睡眠/助手設(shè)想；AI for Good（視障/聽障）與結(jié)語

DeepTech：歡迎思婕，先和大家做個自我介紹吧。

程思婕：我叫程思婕，目前在雷鳥創(chuàng)新負(fù)責(zé) AI 方向，同時也是清華計算機系的博士。我從 2019 年本科大四的時候開始接觸語言模型，那時候還是以 BERT 為主。從那之后我一直在做 NLP（自然語言處理），從 BERT 做到 GPT。

讀博的時候 GPT 已經(jīng)非常火了，但我自己比較喜歡物理真實世界。在我看來，預(yù)訓(xùn)練語言模型更多還是應(yīng)用在數(shù)字世界里面，所以我就想怎么能和物理世界做更多融合。從 2022 年到 2023 年，我開始慢慢關(guān)注具身智能——那時候具身智能還沒有像現(xiàn)在這么火。

我先后在不同的大廠實習(xí)過：從美團開始，到上海人工智能實驗室，后來想做具身智能就去了騰訊 Robotics X 做機器人，最后來到雷鳥做智能眼鏡。

DeepTech：所以是從 NLP 到 Transformer，再到現(xiàn)在的具身智能。

程思婕：是的。我比較幸運的是，從我開始做研究的時候，就已經(jīng)是基于 Transformer 架構(gòu)做 BERT 這些了，沒有經(jīng)歷傳統(tǒng) NLP 比較落寞的時期。我入局的時候就已經(jīng)是往上走的方向了。

DeepTech：你在美團和騰訊的實習(xí)是在選擇物理世界和虛擬世界方向的時候？

程思婕：對。我是一個更喜歡真實世界的人。我很少用內(nèi)容性平臺，沒有什么社交媒體，也不怎么刷抖音、小紅書。我更喜歡擁抱真實世界，比較喜歡戶外這樣的事情。所以我也希望把大模型真正應(yīng)用在看得見摸得著的東西上，這也是后來我開始做智能硬件的主要原因。

為什么選擇眼鏡而不是機器人

DeepTech：你從機器人轉(zhuǎn)到雷鳥，為什么？你可能只是嘗試了騰訊這一個部分。

程思婕：我覺得有幾點原因。首先說機器人本身，我現(xiàn)在其實也是長期看好機器人的。機器人是大家都非常期待的事情，隨著技術(shù)迭代和資源投入，大家一定能走到最后，這是個非常大的賽道，家家戶戶都可以有很多個機器人，盤子更大。

但為什么我沒有繼續(xù)做機器人呢？在我的判斷里，大模型這波熱潮，包括智能眼鏡這波熱潮，其實都是因為 AI、因為大模型。但理性來說，我覺得大模型在短期之內(nèi)很難顛覆機器人本身的瓶頸。

比如說文本模型現(xiàn)在做規(guī)劃已經(jīng)做得很好了，但規(guī)劃這件事能完全顛覆機器人在底層操作上面臨的難題嗎？我覺得做不到。那些難題更多在硬件上、在控制上?，F(xiàn)在也有很多做物理 AI 的，我覺得這是很好的方向，但短期內(nèi)我判斷它可能還得再經(jīng)歷一輪起起伏伏。

換句話說，如果做的是垂類機器人，可能一兩年內(nèi)會有不錯的企業(yè)做得挺好。但如果要做通用機器人，真正能適用所有通用場景的機器人，那時間就不會那么短了。我是一個比較有野心的人，會覺得機器人的生命，如果想做得特別大，時機還沒到。

DeepTech：那智能眼鏡呢？

程思婕：智能眼鏡我的考慮不一樣。我自己是做大模型背景出身的，特別在意數(shù)據(jù)。智能眼鏡在短期來看，我也不會覺得它是一個馬上就能落地 AR 的設(shè)備——比如你說顯示、虛實融合做得有多好，我覺得當(dāng)下產(chǎn)品還做不到特別好。

但智能眼鏡對我來說，作為一個數(shù)據(jù)采集設(shè)備，沒有比眼鏡更好的了。它戴在頭上，在你不同感官最密集的地方，能夠持續(xù)采集數(shù)據(jù)——你每天看到的所有東西、聽到的所有聲音，這些都是智能眼鏡能采集的。

另外，眼鏡這個事情其實不是現(xiàn)在才火的。Meta 幾年前把名字改成“元宇宙”的時候，他們就在大力推眼鏡。眼鏡本身已經(jīng)經(jīng)歷了起起伏伏。

我的另一個判斷是：眼鏡可能是比手機更適合 AI 的載體。因為它不需要我從口袋里拿出手機，可以作為一個非常好的個性化助理。有了那么多數(shù)據(jù)的反哺之后，它可以做得更智能。這一系列特性讓我覺得，在目前市面上的智能硬件里面，眼鏡可能是最有機會跑出來、作為最適合 AI 載體的。

DeepTech：所以你會覺得眼鏡是在機器人之前的一個中間態(tài)？

程思婕：相當(dāng)于這樣。而且眼鏡轉(zhuǎn)起來之后還有一個邏輯——自動駕駛。自動駕駛能轉(zhuǎn)起來的一個主要原因是什么？因為它的載體是車，車本身就是人類的剛需。我不需要自動駕駛，也可能得去買車。所以車能夠跑在城市的角角落落做數(shù)據(jù)采集，其他設(shè)備很難做這件事。

眼鏡可以。眼鏡在過去幾百年里被驗證了，對近視人群來說它是剛需。作為本身就是剛需的產(chǎn)品，戴在人頭上，人不會有太大的“我要去買一個新設(shè)備”這樣的心理負(fù)擔(dān)。它就可以跑在城市的角角落落做數(shù)據(jù)采集，為未來的機器人、多模態(tài)大模型做服務(wù)。

另外，眼鏡能夠極好地解決我剛才提到的機器人的瓶頸——因為它沒有 action，不需要做底層的執(zhí)行操作，更多的是輔助人做一系列的決策。這就可以避開為什么我覺得大模型短期內(nèi)顛覆不了機器人，但我覺得大模型短期內(nèi)可以改變眼鏡。

第一人稱視角的價值

DeepTech：你剛才提到第一人稱視角，能用比較通俗的方式描述一下嗎？

程思婕：在我的觀念里，第一人稱視角和過去傳統(tǒng)的多模態(tài)數(shù)據(jù)之間會有一些 gap。比如我們過去采集數(shù)據(jù)更多用手機，手機會以某個物體為中心，變焦之后 focus 在某個物體上。

第一人稱視角的好處，我覺得最重要的是凸顯“具身”的概念。最通俗的解釋就是：和我們?nèi)艘粯?，隨著我們的姿態(tài)、動作改變，你觀察到的東西也會改變。隨著你頭的擺動，觀察的東西和你的視角是一致的。

過去機器人里很多第三人稱視角，就是把攝像頭擺在房間角落，它和你的身體之間沒有具體的連接性。第一人稱視角代表的不僅僅是視角上的轉(zhuǎn)變，更多是它和你身體之間的一致性。

比如我們桌面上現(xiàn)在一瓶水一個蛋糕，蛋糕被水擋住了，那你的人會思考：我想看到這個蛋糕，就得把頭往右扭。扭完之后視角就會發(fā)生相應(yīng)改變。更重要的是整個行為鏈路上帶來的不同影響。

DeepTech：人有時候會走神，注意力集中一段時間后就散神了，這對第一人稱視角會造成影響嗎？

程思婕：我們現(xiàn)在也特別關(guān)注眼動這件事。眼鏡的拍攝視野范圍會更大一些，我們希望它和人的視野盡可能覆蓋度一致，但這樣場景就會變得更復(fù)雜。如果沒有眼動的情況下，我都不知道用戶在關(guān)注什么。

但眼動又會帶來噪聲。人是會飄忽不定的，有時候太習(xí)慣了，甚至都不需要看著這個物體就去做事情。這確實會帶來一些技術(shù)上的困擾。但總體來說，眼動能讓我們?nèi)ダ斫庥脩?、知道用戶關(guān)注什么，有一個指向性對眼鏡來說是好事。

DeepTech：第一人稱視角的數(shù)據(jù)采集有什么要求？

程思婕：其實現(xiàn)在也有一個困境。雖然我希望智能眼鏡采集的數(shù)據(jù)未來可以用到機器人或多模態(tài)上，但第一人稱視角的數(shù)據(jù)它過于泛化了。比如人在看環(huán)境的時候會經(jīng)常擺動頭部，導(dǎo)致數(shù)據(jù)不夠干凈。機器人他們現(xiàn)在會傾向于采集非常干凈的數(shù)據(jù)來做微調(diào)。

有一些公司在做 VLA 模型預(yù)訓(xùn)練的時候，會用到第一人稱視角數(shù)據(jù)，很多里面都會加上 EGO4D 這樣的數(shù)據(jù)集。但總體來說，我覺得一方面數(shù)據(jù)量需要再 scaling up，另一方面直接拿它去做機器人微調(diào)還是有一定挑戰(zhàn)的。

DeepTech：第一人稱視角、AI 和硬件，這三者是怎么串起來的？

程思婕：硬件的形態(tài)會決定它是不是第一人稱視角的設(shè)定。這就是為什么我從一開始就特別看好智能眼鏡和機器人——它們本身的形態(tài)設(shè)定就是天然的第一人稱視角，和人一樣的。

從眼鏡的角度來說，有了第一人稱視角之后可以更懂用戶。從機器人的角度來說，第一人稱視角會讓它變得更加具身，整個思維鏈路到行為之間能串起來。

但我想澄清一下：我覺得第一人稱視角是當(dāng)下值得關(guān)注的 topic，但人應(yīng)該更有想象力。第三人稱視角其實是上帝視角，我覺得未來一定是多視角融合的狀態(tài)。

甚至在眼鏡上，當(dāng)下可能因為續(xù)航等原因只有一兩個攝像頭，但未來說不定眼鏡上一圈攝像頭，像車一樣，可以更加 smart。機器人我也不覺得只有兩個攝像頭，現(xiàn)在也有手上的攝像頭、各種各樣的攝像頭。

用戶需要什么樣的智能眼鏡

DeepTech：你們對智能眼鏡用戶的期望是怎么設(shè)想的？你們覺得他們需要滿足哪些功能？

程思婕：眼鏡是一個新的品類，和現(xiàn)在做手機的邏輯肯定不一樣。作為新品類，我覺得第一件事是把行業(yè)上已經(jīng)達成共識的事情做到極致。

為什么我覺得 Meta 做得好？因為它在系統(tǒng)穩(wěn)定性上，比如 Ray-Ban 產(chǎn)品的穩(wěn)定性，做得非常好。我經(jīng)常重度體驗不同的友商產(chǎn)品。我有一款 Meta 的 Oakley，最大的感受就是我可以從早到晚戴著它聽歌，藍牙穩(wěn)定性特別好，不會有任何被打斷的感受。這種事情，國內(nèi)廠商都需要把它完善到極致。

包括一些軟件應(yīng)用，比如翻譯、會議紀(jì)要、導(dǎo)航這些場景，這是行業(yè)里達成共識的，每家廠商都會做。那怎么在這些行業(yè)共識的場景里，首先讓用戶達到預(yù)期？用戶戴上眼鏡去做導(dǎo)航，是有一個最基本底線的，你怎么能達到用戶的底線，把這個產(chǎn)品打磨好，而且打磨得有差異化？

另外，只做到這些也是不夠的。眼鏡作為新品類，你對它的期待不只是說能做個導(dǎo)航、做個翻譯。我拿個翻譯筆、錄音筆也能干這些事兒。**怎么挖掘出那些在部分場景上體驗?zāi)苓_到 90 分以上的功能？**這是眼鏡廠商應(yīng)該去做的事情。

DeepTech：所以我可以理解成，現(xiàn)在一些比較低的要求，很多產(chǎn)品還沒有達到？比如穩(wěn)定性不夠強，翻譯做得不好，導(dǎo)航可能會出錯？

程思婕：我是一個比較苛刻的人，我會覺得當(dāng)下沒有達到那么好的狀態(tài)，還是有非常大的進步空間。

DeepTech：你剛才說那個 TQA 和 VQA 是什么？

程思婕：不好意思，這是文本問答、圖像問答這些。比如去戶外場景里做視覺問答，像現(xiàn)在豆包其實做得很好了，還可以做視頻問答。

但這和硬件也有關(guān)系。手機上拍照的硬件設(shè)備已經(jīng)非常成熟了，大家都開始卷各種參數(shù)。但對眼鏡而言，你要在這么小的、又希望它能輕的產(chǎn)品里做到特別好，還是有一定挑戰(zhàn)的。

DeepTech：那相對于目前的硬件條件，有哪些比較難以達到的？除了攝像頭，還有其他的嗎？

程思婕：續(xù)航是非常重要的事情。大家目前有個共識：眼鏡如果希望大家能戴得住，肯定還是要輕。輕、舒適度好的情況下，你就得權(quán)衡很多硬件上的東西。加任何一個東西，比如加個攝像頭，就會帶來非常大的各種 cost——成本上的、重量上的、續(xù)航上的。

所以硬件上面更多就是重量、續(xù)航、算力，還有各種傳輸速度，這些都是挺大的問題。

DeepTech：在眼鏡上想實現(xiàn)算力，是直接在端側(cè)就有芯片，還是需要上傳到云端再計算？

程思婕：得看不同的產(chǎn)品線。有些產(chǎn)品為了追求特別輕，芯片就會相對弱一些。比如我們的 V 系列產(chǎn)品可能就是用高通的 AR1，可以支持一些小的模型在上面跑。但用 AR1 的話，續(xù)航可能又會下降。

所以要考慮怎么做權(quán)衡，以及你到底在什么場景下需要把什么樣的模型放在端側(cè)。這也是做智能硬件的魅力所在，你總是要在各種各樣的 trade-off 下去設(shè)計很多東西。

DeepTech：目前市場上智能眼鏡的續(xù)航能達到多少？

程思婕：也看品類。如果希望它持續(xù)做 video recording，那續(xù)航可能就相對短一些，可能就幾十分鐘。但如果只是聽音樂，從早戴到晚，正常聽的話其實一天也能扛得住。如果只是希望它做錄音，比如 microphone always on，其實也能做到 24 小時持續(xù)錄音，但你可能就沒辦法有攝像頭了?？茨阕呤裁礃拥漠a(chǎn)品路線。

多模型、多智能體的協(xié)作

DeepTech：你們的產(chǎn)品里面是固定的一個模型嗎？還是在不同的產(chǎn)品線上用不同的模型？

程思婕：我們產(chǎn)品上會有很多不同的模型，不是一個模型就能干完所有事兒。我們會做一些定制化開發(fā)，針對不同的眼鏡、不同的功能去做進一步微調(diào)。但整體大的框架上，我們還是盡可能希望復(fù)用，底層邏輯是一樣的。

DeepTech：你說的不同模型，是指一號產(chǎn)品對應(yīng)一號模型，二號產(chǎn)品對應(yīng)二號模型嗎？

程思婕：還不完全是。因為涉及到工程落地，我們可能會有很多不同的智能體，面向 C 端不同用戶的需求。每個智能體里面可能就會有一個模型，前面做意圖分發(fā)可能也得適應(yīng)不同的模型，再往前做語音轉(zhuǎn)文本也需要不同的模型。整個鏈路首先就會有不同的模型構(gòu)成，然后在不同產(chǎn)品線上可能又需要針對不同產(chǎn)品做相關(guān)的定制化。

DeepTech：這些不同智能體的調(diào)用是怎么展示在眼鏡上的？

程思婕：我們會有不同的入口，可以直接通過語音交互去喚醒。手機上也會有相關(guān)智能體應(yīng)用的呈現(xiàn)。如果是帶顯示的眼鏡，像我們的 X 系列，它里面會有自己的系統(tǒng)，系統(tǒng)里就會有相關(guān)的呈現(xiàn)。

DeepTech：在這個系統(tǒng)里選擇 agent 是怎么選？

程思婕：可以通過鏡腿操作，也可以通過語音交互，也可以通過比如手勢各種各樣的交互。

DeepTech：你們的大模型是自己的嗎？

程思婕：我們和阿里通義現(xiàn)在是獨家戰(zhàn)略合作的狀態(tài)，所以我們會有阿里這邊的支持。另外在有些智能體上面我們會選擇做一些自研，會做模型的微調(diào)。

DeepTech：微調(diào)都是基于千問？

程思婕：對。

語音交互的重要性

DeepTech：眼鏡涉及到很多維度，除了視頻，還有聲音等等，你們是怎么處理這些多維信息的？

程思婕：第一人稱視角更多還是在視覺輸入上會有差異。聲音維度的話，因為眼鏡最大的優(yōu)勢就是能采集不同維度的信息，我們也會針對聲音做一些相關(guān)處理。而且我的判斷是，語音這件事未來會變得越來越重要。

一方面原因是語音是我們眼鏡最重要的交互入口。在交互過程中，很多時候都是通過語音和眼鏡做對話，去做相關(guān)智能體的調(diào)用。我覺得在未來智能硬件里面，語音是非常重要的入口。

第二個原因是我覺得文本大模型本身是具有一定局限性的，尤其是在對情感的理解上。對沒有顯示的眼鏡來說，語音交互是非常重要的東西。一方面需要它效率高，另一方面希望它盡可能像人一樣，能提供一些情緒價值。如果希望它提供情緒價值，就得學(xué)會怎么和語音融合在一起。

現(xiàn)在其實已經(jīng)有這樣的形式了，大家開始做全模態(tài)的模型，把語音加進去。語音里面的感情能夠被大模型識別到，然后做相應(yīng)的 TTS 輸出。我們其實也在做一些相關(guān)的研究和推進。

DeepTech：你們現(xiàn)在有遇到什么困難嗎？比如在很嘈雜的環(huán)境，會對眼鏡造成困擾？

程思婕：這就涉及到另外一塊了。我最近也有學(xué)習(xí)很多前端聲學(xué)相關(guān)的東西。眼鏡或者語音的輸入，我們現(xiàn)在更多還是用傳統(tǒng)路徑：聲學(xué)變成語音輸入后轉(zhuǎn)成文本，文本給到大模型做處理。所以語音轉(zhuǎn)文本這部分如果錯誤累積非常嚴(yán)重，對大模型效果影響非常大。

我們也在考慮怎么打造前半段的鏈路，讓效果變得更好?，F(xiàn)在在聲學(xué)里面會涉及到降噪，做一些語音分離，還有遠場近場的拾取，整個這塊我們都有在做相關(guān)研究和推進。

主要困難對我而言，更多還是因為我過去純做大模型，現(xiàn)在涉及到得考慮硬件的東西，還得考慮聲學(xué)方向的東西。整體的話我們團隊會大家一塊配合解決這些問題。

硬件公司與軟件公司的 AI 之爭

DeepTech：你們是怎么實現(xiàn)內(nèi)部協(xié)作的？因為你可能開發(fā)了一個模型效果非常好，但它跑在硬件上會對硬件造成很大壓力。

程思婕：首先我覺得，我前段時間在和一個產(chǎn)品經(jīng)理聊的時候，他之前有非常多和硬件合作智能硬件相關(guān)的經(jīng)驗，他教會了我一個詞叫“敬畏硬件”。

這個詞給我感觸非常深。因為我覺得過去我總是會覺得大家迭代速度非?？欤绕湓诖竽Ｐ瓦@個行業(yè)里，一個月就發(fā)生了天翻地覆的變化。但硬件不是這樣的，它不是說我今天就要攻克這個難題，今天就把攝像頭提到多少分辨率、NTF 做到多好。

所以我們會選擇和硬件團隊溝通。比如如果我希望我的 AI 未來能夠達到什么樣的能力，我會希望有什么樣的硬件能夠上去，或者希望硬件在選型上面能夠變得更好，或者希望加什么硬件。這些可能會在一開始確定一個產(chǎn)品的時候就聊好。

產(chǎn)品那邊也會有他們的一些 trade-off：我的 key point 到底是什么？當(dāng)前這個產(chǎn)品是不是以 AI 作為主打的功能定位？我們會先做溝通，溝通完之后，如果硬件選型已經(jīng)確定，那可能就不是硬件給我們妥協(xié)，我們得去考慮在當(dāng)前這個 constraint（限制）下我們可以做什么，把什么東西做到極致，什么樣的場景是我們能達到用戶體驗閉環(huán)的。

DeepTech：你們在規(guī)劃下一個產(chǎn)品的時候，會設(shè)想多遠？比如像摩爾定律每 18 個月晶體管數(shù)量會怎么變，你們會在這個基礎(chǔ)上考慮嗎？

程思婕：像 AI 這塊，我自己 prefer 的風(fēng)格是以終為始。我可能會有一個我覺得特別長期的判斷：這個眼鏡加 AI，AI 眼鏡上的硬件該怎么選，能夠把 AI 的潛力發(fā)揮到極致。這是我可能會考慮的一個戰(zhàn)略上的東西。

但在真正每代產(chǎn)品的決策上，我們可能還得考慮比如市場的變化，在當(dāng)下這個產(chǎn)品到底大家會為什么東西買單，我們還得面對當(dāng)前的競爭。所以整體的話，一個是未來的理想，一個是當(dāng)下的現(xiàn)實，我們都會做綜合考量。

DeepTech：現(xiàn)在雷鳥的頻率大概是每年推幾個產(chǎn)品？

程思婕：我們其實還是走的多產(chǎn)品線。一方面是眼鏡這個形態(tài)，我覺得還沒有被最終確定。包括現(xiàn)在 Meta 確實做得很好，但我也不會覺得它就是終局形態(tài)的眼鏡了。眼鏡值得被顛覆的東西還有很多。

大家沒有一個人可以指出來說“我就看清了未來眼鏡終局長什么樣子”。所以當(dāng)下我們更多走的是多產(chǎn)品線的路線，覆蓋的品類會更多一些，整體迭代速度也會更快一些。

我覺得雷鳥做得非常好的一個點是，比如我們的 V 系列眼鏡，是當(dāng)時整個市面上創(chuàng)業(yè)公司里最早實現(xiàn)量產(chǎn)上市的眼鏡。我們內(nèi)部執(zhí)行力各方面還是非常強的。

DeepTech：你覺得一個硬件公司做 AI 和一個軟件公司做硬件，比如 OpenAI 現(xiàn)在也在接觸一些公司，可能要做一些硬件的東西，你怎么看？

程思婕：首先，我就不舉軟件公司做硬件沒做成的例子了。我覺得這個事情難度還是比較大的，不同公司有不同的基因，就像我總是說我做不了抖音之類的產(chǎn)品，因為我自己就不喜歡內(nèi)容沉浸的東西。

對于軟件公司來說，尤其是體量已經(jīng)非常大的公司去做硬件，他們的基因里面可能就不一定帶著硬件。OpenAI 可能還好一些，因為它總體體量沒有那么大。

說到硬件公司做軟件，我覺得這是另外一套邏輯。現(xiàn)在越來越多的硬件公司，雖然是硬件公司，但實際上最終讓用戶付費的是它的訂閱式服務(wù)，是軟件的服務(wù)。

我覺得未來硬件本身，跑到最后是不會有太大差異的，可能會有很多家都在做這樣的產(chǎn)品。最終可能很多硬件之所以火起來，背后的邏輯還是因為 AI 賦能了它們。比如現(xiàn)在 Cloud 是個非常火的智能硬件，它其實提供的就是會議紀(jì)要這種做得非常細(xì)的 AI 服務(wù)。

未來的智能硬件，不管是錄音筆、智能眼鏡、機器人，甚至玩偶這些，長期來看會變成硬件服務(wù) AI 這么一個局面。

眼鏡能取代手機嗎？

DeepTech：在你的想象里，以后當(dāng)機器人也達到很厲害的狀態(tài)時，我們周圍的這些 AI 硬件應(yīng)該是怎樣的？

程思婕：眼鏡和機器人在我眼里是兩套不同的邏輯。眼鏡會更像手機一些，可能最后大家都會以它作為硬件載體。但機器人，我之前和別人溝通時改變了認(rèn)知，它會更像車一些。

機器人會有很多垂類的產(chǎn)品，我不需要每一個機器人都像人。比如現(xiàn)在的洗碗機我也覺得可能就是一個機器人，掃地機也可能是個機器人，它不一定長得像人。

所以會既有垂類的很多不同機器人去干具體的事情，這是我覺得未來一兩年內(nèi)有些機器人廠商的機會所在。另外，未來也會有很多人形的，或者超越人形的機器人，以各種各樣的身份存在。

DeepTech：會起到陪伴的作用？

程思婕：對，陪伴，或者去——雖然我不想這么說——但肯定會取代掉很多崗位，做一些更加……我覺得這不一定是壞事，只要我們能夠考慮得更長遠。

DeepTech：我們之前也聊過一些公司，他們覺得人可能不應(yīng)該去做那些體力勞動的事兒，人應(yīng)該更多去做德智體美的部分。

程思婕：對，這也是個很有意思的問題。前段時間我也在思考 AI for good，就是 AI 向善這件事。對國內(nèi)來說，大家可能確實比較關(guān)心技術(shù)的突破，導(dǎo)致在人文上面可能會有一些忽視。但我相信過去一代代的技術(shù)革命都不斷往前突破了，所以我整體是樂觀的。關(guān)鍵在于我們怎么利用這些技術(shù)，以及在前進過程中怎么更多關(guān)心人文上的東西。

DeepTech：你剛才提到一個點，你覺得眼鏡以后有可能會取代手機。為什么會有這樣的想法？

程思婕：我堅信它會取代手機，它應(yīng)該成為下一代的計算平臺。因為眼鏡上也有 display、也有顯示，也會有完整的一套操作系統(tǒng)。它可以不用拿出來。

但理性來說，我會覺得它也會相對更遠。短期之內(nèi)我可能更多還是覺得眼鏡會取代掉一些需要解放雙手的場景，比如有時候我實在不想掏出手機了。目前我覺得眼鏡更多定位是去做數(shù)據(jù)采集，以及作為眼鏡加手機的輔助角色。但長期來說，我希望眼鏡能取代手機。對我而言，我希望出門能帶的東西越少越好。

DeepTech：如果眼鏡取代手機以后，你覺得會不會對人的思維造成一些影響？從按鍵手機到屏幕手機其實對人產(chǎn)生了一定影響。

程思婕：這也是很有意思的問題。我在考慮做眼鏡的時候，一開始就講到我更喜歡真實世界。所以我對眼鏡的定位一定是真實世界大于數(shù)字世界。我希望讓大家走出手機來擁抱真實物理世界。

所以我非常希望做 AR，就是增強現(xiàn)實，它是一個增強的東西，幫助你在真實世界里更好地做一些有意思的事情。比如讓我去做 VR 我就可能不會考慮，因為它完全沉浸在虛擬世界里去創(chuàng)造元宇宙這么一個概念。

肯定會有人喜歡物理世界，也會有人喜歡虛擬世界。但我自己的偏好是，我希望讓大家離真實世界更近一點，可以放下手機。比如我看到前面一個風(fēng)景，過去我可能需要掏出手機在小紅書查一下是什么，但未來我可能只要 enjoy、享受我看到的事情就夠了，不需要沉浸在虛擬世界里。AI 只要給我不停的信息提示，告訴我、幫我增強我對現(xiàn)實世界的理解。

DeepTech：所以你會覺得眼鏡這件事不會讓人沉浸？

程思婕：或者說這是我自己的價值觀導(dǎo)致的。也不一定，比如總會有人當(dāng)眼鏡變成熟了之后，拿著抖音的思想放在眼鏡里面，讓大家短平快地接受各種各樣的信息。一定會有這樣的產(chǎn)品。但從我的初心出發(fā)，我希望大家更多地?fù)肀д鎸嵤澜纭?/p>

智能體需要完成哪些目標(biāo)

DeepTech：在你的哲學(xué)里，你覺得以后在眼鏡上的智能體需要完成哪些目標(biāo)？

程思婕：這對我來說是個比較難的事情，大家都沒有想得特別清楚。眼鏡上的智能體，我覺得更多是輔助我的生活。

比如現(xiàn)在我最直接想到的就是解放雙手的場景。像做飯，眼鏡能主動告訴我這個菜該怎么做、每步該怎么弄，像一個專業(yè)廚師一樣指導(dǎo)我。像打球，之前有個同學(xué)跟我分享，他喜歡打網(wǎng)球，最好能類似一個教練一樣幫他預(yù)測網(wǎng)球的落點落在哪兒，他能馬上跑過去接住。我覺得這些東西在我眼里是更有意思的。

DeepTech：你會不會覺得這種幫助人去思考的功能會降低人們思考的能力？

程思婕：我覺得不會。因為懶惰這件事就是人的天性，很多很聰明的人都是為了自己能夠更懶一些。解放大家的時間，短期來看可能會有一些人文上的顧慮，但我覺得長期來看，大家可以真正有更多時間去思考自己想要什么東西、想做什么樣的事情?？傮w是更好的。

隱私問題怎么解決

DeepTech：在很多帶有攝像頭的設(shè)備上都會存在安全隱私的問題，你們是怎么思考的？

程思婕：剛剛我說到 AI 向善的事情，我最近也在思考隱私問題。我自己之前還做過一些聯(lián)邦學(xué)習(xí)，就是在模型上怎么保護隱私。最近我也在拜訪很多做隱私的老師，也在考慮怎么能夠保護隱私。

因為眼鏡代替人第一人稱視角拍照這件事，確實是具有一定侵略性的。對很多人來說，尤其是現(xiàn)在還沒有普及，當(dāng)普及的時候早晚會成為一個社會問題。

我們考慮了幾個層面。第一，現(xiàn)在很多眼鏡都會有提示燈。第二，我們希望在拍照的輸入層面就做處理——比如我拍張照片，但外面的人不希望我拍，那我的眼鏡廠商可以先對他做一層打碼之類的。第三，我可以在模型層面做一些處理，在端上做相關(guān)處理，確保數(shù)據(jù)不會被攻擊、不能被復(fù)原出來，上傳時不會有任何問題。

甚至未來如果端側(cè)能力更好了，我可能就把一些模型放在端上。最后在云端上，其實現(xiàn)在大家對云端的接受度總體來說是越來越高的，因為大模型廠商其實都是放在云端上的，但也還會有那么多人去使用。云端上也會有一些相關(guān)的保護機制，比如我們會要求環(huán)境完全被隔離，上傳之后可能會做加密。

整個鏈路上我們非常希望能夠關(guān)注用戶的隱私，讓眼鏡這個產(chǎn)品不會被大眾所抵觸。

DeepTech：我之前也看到有人拿眼鏡來拍照，可能會對有一些人造成困擾。

程思婕：對，我們也在想一些技術(shù)層面的方案，比如在什么樣的場景就不允許拍照了。這些東西我們都在考慮整個鏈路上到底怎么做，能夠確保用戶的隱私最大程度上得到保護。這是我們非常關(guān)注的問題。

DeepTech：這讓我想到另一個層面，如果假設(shè)每個人都戴著智能硬件，我就可以跟我的智能硬件說“我不希望被別人拍進去”，一旦形成聯(lián)網(wǎng)的情況，這種問題就比較容易解決。

程思婕：是的，昨天下午我在和一個清華老師討論的時候就說這個事情——大家都會有一個自己的 profile，就是我的隱私 profile，我的設(shè)定是我希望我自己不被別人拍下來或者怎么樣，那其他的眼鏡就能收到這個東西，互相之間聯(lián)網(wǎng)。

理解用戶意圖

DeepTech：你們對于人的意圖識別是怎么做到的？是需要主動呼叫嗎？

程思婕：這也是非常有意思的問題，可能我還不能談?wù)撎?，但我們確實非常關(guān)注這一塊。

眼鏡非常好的點在于它能拿到和人一致的這些信息。但讓人永遠都主動去提個問題，這對人來說成本比較高，尤其是在有些場合。比如我現(xiàn)在和你在開會的時候，或者開一些正式會議的時候，我總不能總是呼喚“小雷幫我……”，我突然想不起一個東西，我希望有人能提示我一下過去談過的事情到底是什么樣的結(jié)果，但我想不起來了。我也不方便喚醒說“小雷幫我查一下”。眼鏡就應(yīng)該能夠敏銳地感受到我這時候需要幫助。

我們現(xiàn)在也在推進這方面的東西，希望眼鏡能夠更懂用戶一些。

DeepTech：那你覺得腦機接口會對眼鏡造成一定的顛覆嗎？

程思婕：我對終局的判斷是，我非常希望或相信腦機接口能夠讓眼鏡或其他硬件都更懂用戶。但理性來說，我會覺得它會有點遠。在我的認(rèn)知內(nèi)稍微還遠了一些。

目前腦機接口我也和不同的腦機廠商聊過，感覺目前可能更多還是有一些粗粒度上的識別。如果你希望它非常精準(zhǔn)地告訴你“我當(dāng)前這個意圖就是什么”，那可能還有一定距離。但我還是希望能演變成腦機接口直接讀取的狀態(tài)。

DeepTech：比如我們戴眼鏡睡覺的時候就摘掉了，你覺得我們在睡覺時還需要這樣一個 AI 助手嗎？比如它可能有幫我們睡覺的功能？

程思婕：我之前也和一個朋友討論過。比如現(xiàn)在也會有那種睡前讓你戴一個什么東西，通過一些技術(shù)能讓你加快睡眠的速度。

在睡前你可以戴著眼鏡。假設(shè)我知道你的日常行為，知道你每天大概什么時候睡，那我可能在判斷了你今天大概這個點睡的時候，提前 20 分鐘幫你打開助眠的那一系列 sensor——可能除了音樂之外還有別的。然后當(dāng)你摘下眼鏡之前，我就停止、關(guān)機。但你其實已經(jīng)接受了這些服務(wù)。

有一些東西可能在戴著的時候就可以做，沒有必要在睡的時候直接戴著。睡眠監(jiān)控的功能，真正有這方面需求的人可能用手表或其他方式就替代了。

國內(nèi)外市場的差異化

DeepTech：你最開始也提到 Meta 的一些聯(lián)名，針對比如運動或者喜歡新奇特的人群。你們覺得對于國外這種喜歡新奇特的，和中國產(chǎn)品可能更應(yīng)該做本土化的，這兩個方向怎么看？你們會走哪個方向還是兩者兼顧？

程思婕：我們的產(chǎn)品本身國內(nèi)和海外都會賣，所以總體上會兼顧這兩個不同的人群。我非常認(rèn)可說海外和國內(nèi)之間人群是有差異化的。

但目前對我們來說，最主要的目標(biāo)是希望把產(chǎn)品做到極致。功能性這件事，一方面眼鏡本身是個眼鏡，我們也會考慮怎么讓它更像或者本身就是一副眼鏡，把眼鏡的特性維持到最好。另一方面，我們覺得功能性上如果一個電子產(chǎn)品把功能性拉到最好，對大家來說，我們也希望能夠破圈、變得更加普及。

我們現(xiàn)在更多還是一些科技發(fā)燒友在做購買的策略，但我們希望它能夠變得更加普及，把各種各樣的體驗拉上去，有更多的功能之后，破圈的概率也會更大一些。

DeepTech：你們覺得什么樣的人物畫像會是買 AI 智能眼鏡的？

程思婕：當(dāng)下在國內(nèi)肯定主要是一些科技發(fā)燒友。其他的得看不同公司對自己產(chǎn)品和目標(biāo)人群的定位。比如有些公司主要看重運動人群，因為最自然想到的就是眼鏡比手機更大的好處是解放雙手。有些公司特別看重拍攝人群，發(fā) vlog 的那些人，因為眼鏡上有第一人稱視角拍攝，可以做一些相關(guān)內(nèi)容。更多還是看產(chǎn)品自己本身的定位。

AI for Good：讓眼鏡幫助更多人

DeepTech：我最近有一個非常剛需的事情，但目前還沒有看到做得特別好的。我外公他有白內(nèi)障非常嚴(yán)重，嚴(yán)重到他往外面溜達的時候，如果很近他看不見，會撞在上面。我就在想有沒有一種眼鏡可以告訴這種視障人士……因為老人有另外一個心理，就是他不愿意做手術(shù)。

程思婕：這個事情我非常有共鳴。為什么我做眼鏡，潛意識里面可能還有一個原因是我的外婆她眼睛非常不好，很多東西在家里面都得放在固定的位置，來確保自己能夠找到。這可能也是我做眼鏡的一方面原因。

我們內(nèi)部，一方面可能我來了之后很多東西要從 0 到 1 做，所以更多落地的事情會花更大精力。另一方面，前段時間我就已經(jīng)在組織小伙伴們，我們會用一些 20％的時間考慮一下。

您提到視障人群，其實聽障人群我自己也讓小伙伴們多去了解用戶。我們會經(jīng)常做用戶訪談，雖然我們是個算法團隊，但我們了解到用戶里面有一部分聽障人群，他們對眼鏡產(chǎn)品也是非常需要的。尤其像我們的 X 系列會有顯示，對聽障人群來說也會有比較好的幫助。

所以我們會花一些 20％的時間來做一些希望能夠?qū)ι俨糠秩巳河袔椭氖虑?。我們很早之前就?CEO 討論過這個事情。其實最大的顧慮是我們會擔(dān)心技術(shù)沒有成熟到它能百分之百安全。

比如一個視障人群，尤其是在過馬路的時候，我因為時延的問題跟你說“那是綠燈”，結(jié)果馬上就跳紅燈了，那我還是有一定擔(dān)心的。所以這件事我很希望去做，但確實有一定顧慮。

不過我們現(xiàn)在在激烈討論這個事情，還是希望能夠至少有一些推進。比如避障的場景，我們其實一定程度上是可以做的，很早就想干這件事了，但一直因為顧慮也沒有往下推。

前段時間有挺多聽障人群聯(lián)系到我們，他們想體驗眼鏡，看看能不能提供幫助。我們更加認(rèn)識到，這個產(chǎn)品對于少部分人群來說真的會有很大幫助，或者說它至少有潛力提供很大幫助。所以我上周專門拉了一個群，問大家有多少人對這件事感興趣，我們要用 part-time 去努力解決這個事情，希望能夠多往前再走一走。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.