夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

萬(wàn)字對(duì)談 Physical Intelligence(π):具身智能的卡點(diǎn)和下一步突破,到底在哪?

0
分享至

具身智能今天的卡點(diǎn)到底在哪里?

這個(gè)問(wèn)題,追求具身智能通用智能的 Physical Intelligence(π)可能最適合回答。

OpenAI、紅杉資本領(lǐng)投,估值達(dá)到 20 億美元,去年開(kāi)源了旗下的 π0 VLM 模型,展示了機(jī)器人自動(dòng)疊衣服的案例。某種意義上說(shuō),有點(diǎn)類似于 GPT-2 開(kāi)源模型的發(fā)布。

今年 4 月份,發(fā)布新一代模型 π0.5,主打「開(kāi)放世界泛化能力」。能讓機(jī)器人在完全陌生的家庭環(huán)境中完成如整理房間、清潔廚房等復(fù)雜任務(wù),顯著提升了機(jī)器人在現(xiàn)實(shí)世界中的適應(yīng)性和泛化能力。

今天的具身智能到底是什么狀態(tài),大語(yǔ)言模型領(lǐng)域的認(rèn)知能不能復(fù)用到具身智能,機(jī)器人訓(xùn)練數(shù)據(jù)問(wèn)題到底如何解決?

在接受 Redpoint Ventures 的采訪時(shí),Physical Intelligence 的聯(lián)創(chuàng)兼 CEO Karol Hausman 和核心研究科學(xué)家 Danny Driess 對(duì)這些問(wèn)題進(jìn)行了深入的討論。

從他們的對(duì)談中,我們能了解到當(dāng)前具身智能領(lǐng)域最前沿的技術(shù)進(jìn)展、卡點(diǎn)與思考。

TLDR:

  • 當(dāng)前具身機(jī)器人領(lǐng)域的主要瓶頸不在于硬件,硬件早在十多年前就已經(jīng)「準(zhǔn)備就緒」,限制發(fā)展的是賦予機(jī)器人自主決策能力的「智能」軟件。

  • 實(shí)現(xiàn)具身智能有三大難關(guān),分別為:完成復(fù)雜任務(wù)的「能力」、適應(yīng)未知環(huán)境的「泛化」以及高可靠性的「性能」。目前,前兩者已取得突破性進(jìn)展,高可靠性的「性能」是當(dāng)前從「演示階段」走向「部署階段」的最大障礙。

  • 機(jī)器人操控的本質(zhì),是與物體發(fā)生物理接觸,而「接觸」這個(gè)行為,會(huì)讓問(wèn)題的難度呈指數(shù)級(jí)上升。這跟自動(dòng)駕駛是完全不同的。

  • 我們目前并沒(méi)有受制于底層大語(yǔ)言模型的性能。如果那些 VLM 更好,我認(rèn)為整個(gè)系統(tǒng)會(huì)工作得更好,但我認(rèn)為那不是目前的主要瓶頸。

  • 完全可以把生成式視頻模型當(dāng)作一個(gè)模擬器來(lái)使用。當(dāng)你想在你所處的特定場(chǎng)景中解決一個(gè)新任務(wù)時(shí),你可以嘗試不同的動(dòng)作軌跡,看看哪一個(gè)是最好的。如果這個(gè)模型真的泛化得非常好,我認(rèn)為那將從根本上改變行業(yè)。

  • 我們對(duì)于世界的多樣性可能被高估了。模型在約 100 個(gè)多樣化的家庭環(huán)境中訓(xùn)練后,就能很好地泛化到全新的家庭。從模型的角度看,不同環(huán)境間的共性遠(yuǎn)大于差異,實(shí)現(xiàn)泛化所需的數(shù)據(jù)量可能比我們直覺(jué)上認(rèn)為的要少得多。

  • 通用機(jī)器人基礎(chǔ)模型的價(jià)值被嚴(yán)重低估了,現(xiàn)在公眾媒體的焦點(diǎn)常在于是否是人形機(jī)器人或者完成特定任務(wù)。

超 10000 人的「AI 產(chǎn)品市集」社群!不錯(cuò)過(guò)每一款有價(jià)值的 AI 應(yīng)用。

邀請(qǐng)從業(yè)者、開(kāi)發(fā)人員和創(chuàng)業(yè)者,飛書(shū)掃碼加群:

進(jìn)群后,你有機(jī)會(huì)得到:

  • 最新、最值得關(guān)注的 AI 新品資訊;

  • 不定期贈(zèng)送熱門新品的邀請(qǐng)碼、會(huì)員碼;

  • 最精準(zhǔn)的AI產(chǎn)品曝光渠道

01具身的難題:復(fù)雜任務(wù)執(zhí)行、泛化能力、穩(wěn)健性

主持人:介紹下,你們現(xiàn)在處于什么階段?在當(dāng)今的機(jī)器人基礎(chǔ)模型世界里,你們?nèi)绾蝿澐旨夹g(shù)的有效性?

Karol Hausman:在我們剛開(kāi)始的時(shí)候,考慮了三個(gè)我們認(rèn)為對(duì)這些模型至關(guān)重要的軸心。

第一個(gè)是「能力」,我們能否讓這些模型完成我們以前從未見(jiàn)過(guò)機(jī)器人做過(guò)的任務(wù),那些非常靈巧、非常長(zhǎng)周期、非常復(fù)雜的任務(wù)?

下一步是「泛化能力」。我們?nèi)绾巫屵@些模型真正像語(yǔ)言模型那樣泛化,你可以向它們提出要求,或者把它們放在一個(gè)它們從未見(jiàn)過(guò)的環(huán)境中,它們也能正確地行動(dòng)?

最后一個(gè)是「性能」。它們能否像人類一樣表現(xiàn)出色,具有非常高的成功率和非常強(qiáng)的穩(wěn)健性?

所以我們從第一個(gè)開(kāi)始,也就是能力。在公司成立的頭五六個(gè)月里,隨著基礎(chǔ)模型π0 的發(fā)布,我們展示了這些模型能夠執(zhí)行的那些極其靈巧的任務(wù),比如折疊衣物、組裝盒子、收拾桌子等。你可以在各種不同的機(jī)器人上實(shí)現(xiàn)它,而且它確實(shí)有效。這證明了:如果一件事能被人類遠(yuǎn)程遙控完成,那么模型大概率也能學(xué)會(huì)。

接下來(lái),我們開(kāi)始解決泛化問(wèn)題。我們能否讓這些模型在它們以前從未去過(guò)的環(huán)境中工作?

這就是我們最近發(fā)布的 π0.5 模型,你可以把機(jī)器人帶到一個(gè)它從未見(jiàn)過(guò)的新家里,它可以完成長(zhǎng)周期的任務(wù),比如打掃你的臥室、整理床鋪或者收拾碗碟之類的。

我們選擇家,因?yàn)榧沂亲罹叨鄻有缘沫h(huán)境,所以這有點(diǎn)像是這個(gè)挑戰(zhàn)中最難的版本。結(jié)果還算不錯(cuò),雖然它不是每次都能成功。我們也開(kāi)始更好地理解,要讓這些模型更好地泛化需要什么。

現(xiàn)在最大的挑戰(zhàn)是性能,我認(rèn)為這個(gè)方面的不確定性更大,我不認(rèn)為有一個(gè)非常清晰的解決方案,比如你只需要更多的數(shù)據(jù),或者你需要更多的多樣性之類的,然后它就能成功。

我認(rèn)為這需要一些算法上的工作和新的想法,但這差不多就是我們今天的處境。我們需要讓這些模型的性能變得更好。它們?nèi)匀唤?jīng)常失敗,目前的狀態(tài)更像是「演示就緒」(demo ready),而不是「部署就緒」(deployment ready)。但我認(rèn)為我們也會(huì)實(shí)現(xiàn)這一點(diǎn)的。

主持人:我看了一些視頻,感覺(jué)機(jī)器人在折疊襯衫上的表現(xiàn)已經(jīng)比我強(qiáng)了。你們?nèi)绾慰创龣C(jī)器人需要達(dá)到的性能門檻?比如,也許它們花費(fèi)的時(shí)間是我的 10 倍,但只要能在夜里完成任務(wù),也是可以接受的。

Karol Hausman:我認(rèn)為這可能取決于任務(wù)。有些任務(wù)對(duì)速度和準(zhǔn)確度要求很高。在某些行業(yè),失敗是不可接受的。而對(duì)于另一些任務(wù),則完全沒(méi)問(wèn)題。即使機(jī)器人花一整晚的時(shí)間,但只要能把衣服疊好,你早上起來(lái)仍然會(huì)很高興。

我記得有一次在辦公室,我們的洗手間就在機(jī)器人工作站旁邊。當(dāng)時(shí)有個(gè)機(jī)器人在折疊一件襯衫。我看著它,一邊走向洗手間,一邊被它的動(dòng)作和一切所吸引。我當(dāng)時(shí)有點(diǎn)失望,覺(jué)得它太慢了,而且還在犯錯(cuò)。那還是模型的早期版本。

當(dāng)我從洗手間出來(lái)的時(shí)候,看到了一整堆疊好的衣服。那一刻我感覺(jué),「哇!」

對(duì)于這個(gè)任務(wù)而言,耗時(shí)多久已經(jīng)變得不再重要。機(jī)器人完成了任務(wù),它把一堆雜亂的襯衫,變成了一堆疊得整整齊齊的衣物,那真是令人大開(kāi)眼界。那一刻我才真正內(nèi)化了這一點(diǎn):是的,對(duì)于某些任務(wù)來(lái)說(shuō),速度并不重要。它最終會(huì)完成的。

主持人觀看這么多演示視頻,令人印象深刻的是,即使它們?cè)谀撤N程度上失敗了,它們?cè)谙朕k法解決問(wèn)題時(shí)實(shí)際上也相當(dāng)有韌性。

Karol Hausman:它們的行為模式也因此更像人類。過(guò)去的機(jī)器人一旦犯錯(cuò)就無(wú)法挽回;它的一切行動(dòng)都必須極其精確,必須分毫不差、盡可能快地到達(dá)預(yù)定位置。而這些新模型驅(qū)動(dòng)的機(jī)器人,表現(xiàn)方式更像人類。它們會(huì)犯錯(cuò),但會(huì)自我糾正;如果它們認(rèn)為自己做得不夠好,就會(huì)重做任務(wù)。是的,這是一種非常不同的機(jī)器人技術(shù)。

02具身的瓶頸不在于硬件,而是智能

主持人:我來(lái)問(wèn)一個(gè)外行最常問(wèn)的問(wèn)題:人們總喜歡把機(jī)器人和自動(dòng)駕駛汽車做比較。你們?cè)趺纯催@個(gè)比較,哪些地方貼切?哪些地方可能不正確?

Danny Driess:這兩個(gè)都是非常困難的問(wèn)題。而且這兩個(gè)問(wèn)題一旦被解決,都將對(duì)人類產(chǎn)生巨大的影響。

我們可以做一個(gè)小小的思想實(shí)驗(yàn)。如果你把世界上所有的人類和道路上所有其他的汽車都移走,自動(dòng)駕駛會(huì)變得相當(dāng)簡(jiǎn)單。但對(duì)于機(jī)器人操控,如果我們移走所有的人類或其他機(jī)器人,問(wèn)題依然同樣困難。

一輛自動(dòng)駕駛汽車必須實(shí)時(shí)做出許多決策,而每一個(gè)決策都可能產(chǎn)生災(zāi)難性的后果,并且環(huán)境會(huì)以不可預(yù)測(cè)的方式迅速變化。但是,自動(dòng)駕駛汽車從不需要與環(huán)境互動(dòng),它從不需要觸摸任何東西(但愿如此)。

然而,機(jī)器人操控的本質(zhì),是與物體發(fā)生物理接觸,而「接觸」這個(gè)行為,會(huì)讓問(wèn)題的難度呈指數(shù)級(jí)上升。假設(shè)你知道一輛自動(dòng)駕駛汽車可以安全地從 A 點(diǎn)行駛到 B 點(diǎn),那么執(zhí)行這個(gè)動(dòng)作就非常簡(jiǎn)單。但對(duì)于機(jī)器人操控來(lái)說(shuō),即使任務(wù)只是「把襯衫疊好」,這仍然是超級(jí)困難的。所以,從這個(gè)角度來(lái)看,它們是根本不同的。

但兩者在「長(zhǎng)尾性能」上面臨著相似的挑戰(zhàn)。自動(dòng)駕駛要達(dá)到 99.999%以上的可靠性,就必須處理現(xiàn)實(shí)世界中無(wú)窮無(wú)盡的罕見(jiàn)(長(zhǎng)尾)事件,這恰恰是問(wèn)題的關(guān)鍵。類似的情況也可能發(fā)生在機(jī)器人操控上,如果我們希望機(jī)器人在各地普及,同樣會(huì)面臨一個(gè)巨大的長(zhǎng)尾問(wèn)題。所以我認(rèn)為這些是相似的經(jīng)驗(yàn)教訓(xùn)。

Karol Hausman:我認(rèn)為這項(xiàng)技術(shù)的發(fā)展軌跡也可能類似。對(duì)于 ChatGPT 和語(yǔ)言大模型,它們的出現(xiàn)仿佛是一夜之間,讓所有人都感到驚訝。但自動(dòng)駕駛并非如此,那是一條非常漫長(zhǎng)的道路。大約十年前,我們就看到了能夠初步進(jìn)行自動(dòng)駕駛的汽車,但之后進(jìn)展非常緩慢。然后突然之間,Waymo 的自動(dòng)駕駛出租車就出現(xiàn)了,你可以在舊金山的任何地方乘坐它。我認(rèn)為類似的事情也可能發(fā)生在機(jī)器人領(lǐng)域,這將是一條漫長(zhǎng)的道路,可能比人們預(yù)期的要長(zhǎng)。但在某個(gè)時(shí)刻,它們會(huì)出現(xiàn),就像我們對(duì) Waymo 的體驗(yàn)一樣。

主持人:你們是否和自動(dòng)駕駛公司面臨著相似的數(shù)據(jù)問(wèn)題?對(duì)他們來(lái)說(shuō),很大一部分工作就是獲取足夠多的「長(zhǎng)尾數(shù)據(jù)」。你認(rèn)為這在機(jī)器人領(lǐng)域最終也會(huì)成為一個(gè)類似的問(wèn)題嗎?

Danny Driess:有一件事已經(jīng)發(fā)生了:在我們目前的規(guī)模下,我們可以收集大量的數(shù)據(jù),并且在某種意義上,我們可以收集大量錯(cuò)誤的數(shù)據(jù)。

主持人:我看到在一些演示中,你總是在「干擾」機(jī)器人。

Danny Driess:我的意思是,如果你只看你擁有的數(shù)據(jù)點(diǎn)的數(shù)量,這并不一定能帶來(lái)更好的策略。你必須收集正確的數(shù)據(jù)。這和大多數(shù)自動(dòng)駕駛車輛的情況類似,如果你擁有這些數(shù)據(jù),它們?cè)诤艽蟪潭壬弦呀?jīng)沒(méi)什么幫助了。

主持人:你們正在構(gòu)建的系統(tǒng)有很多引人入勝的部分,或許可以從硬件方面開(kāi)始。目前機(jī)器人領(lǐng)域的硬件狀況如何?有哪些痛點(diǎn)?

Karol Hausman:我可以先說(shuō)一個(gè)我認(rèn)為相當(dāng)普遍的誤解,那就是我們整個(gè)領(lǐng)域在硬件上遇到了瓶頸。我認(rèn)為情況并非如此。

十多年前,有一個(gè)著名的 PR2 機(jī)器人演示,那是一個(gè)非常老的機(jī)器人,它在家里四處走動(dòng),整理房間,做得非常出色。即使在今天,這也會(huì)是一個(gè)頂級(jí)的類人機(jī)器人演示。但關(guān)鍵在于,那臺(tái)機(jī)器人是由人類在背后遠(yuǎn)程操控的。我認(rèn)為這證明了硬件在很早以前就已經(jīng)準(zhǔn)備好了。

主持人:任何可以通過(guò)遙控操作完成的事情,硬件都沒(méi)問(wèn)題。

Karol Hausman:沒(méi)錯(cuò),硬件沒(méi)問(wèn)題。我們一直都能看到這一點(diǎn),靠遙控操作,機(jī)器人已經(jīng)能做一些令人難以置信的事情。

主持人:就像很多其他機(jī)器人公司的演示一樣。

Karol Hausman:所以,非常清楚的是,瓶頸在于智能。如果機(jī)器人擁有和遙控操作機(jī)器人的人類一樣的智能,我們就會(huì)看到它能做更多各種各樣的事情,它們不會(huì)受到硬件的限制。所以,智能才是整個(gè)行業(yè)真正的瓶頸和關(guān)鍵所在。

就硬件本身而言,我們看到了巨大的進(jìn)步?,F(xiàn)代的類人機(jī)器人,以及現(xiàn)在每天都在涌現(xiàn)的各種機(jī)器人,都極其令人印象深刻,它們是了不起的機(jī)電一體化作品。但我不認(rèn)為它們是瓶頸,我不認(rèn)為那是真正限制我們的因素,可能之后它會(huì)成為瓶頸,但現(xiàn)在最大的瓶頸是智能不足。

03VLM性能不是核心卡點(diǎn)
設(shè)計(jì)通用任務(wù)「配方」是關(guān)鍵

主持人在你列出的這三個(gè)方面中,似乎你們?cè)诠境闪⒊跗诰鸵呀?jīng)搞定了兩個(gè)。這符合你的預(yù)期嗎?

Karol Hausman:我個(gè)人完全沒(méi)有預(yù)料到,我預(yù)期的時(shí)間線要長(zhǎng)得多。這或許說(shuō)明我應(yīng)該對(duì)這些事情更加樂(lè)觀,我應(yīng)該改變我的思維模式。我原以為至少需要三四年才能達(dá)到我們今天的水平。

Danny Driess:我堅(jiān)信「大模型+大數(shù)據(jù)」的模式。當(dāng)然,仍然有很多未解決的問(wèn)題。并不是說(shuō),我們只要做到那三個(gè)目標(biāo)就萬(wàn)事大吉了。

有句老話說(shuō)「想法很廉價(jià)」,在機(jī)器學(xué)習(xí)領(lǐng)域確實(shí)如此。很多人都有某些想法,但要在一個(gè)擁有如此多活動(dòng)部件的復(fù)雜系統(tǒng)中真正實(shí)現(xiàn)它們——比如真實(shí)的數(shù)據(jù)收集、真實(shí)的硬件、不同的模型尺寸、實(shí)時(shí)性約束等——并讓它真正奏效,仍然有很多困難。所以,能夠超預(yù)期的完成目標(biāo),感覺(jué)很好。

Karol Hausman:是啊,我們有時(shí)候會(huì)聊到,對(duì)于做大語(yǔ)言模型的人來(lái)說(shuō),事情是多么容易。

主持人:因?yàn)樗麄冇谢ヂ?lián)網(wǎng)。

Karol Hausman:是的,所以他們?cè)u(píng)估非常容易。他們不需要任何真實(shí)的機(jī)器人,數(shù)據(jù)就在那里。他們的評(píng)估目標(biāo)和訓(xùn)練目標(biāo)基本是一致的。這方面有很多我們機(jī)器人領(lǐng)域所沒(méi)有的便利。

主持人沿著這條思路,我們正處在大語(yǔ)言模型改進(jìn)的瘋狂指數(shù)級(jí)曲線上。如果LLM變得更強(qiáng),這會(huì)顯著改變你們?cè)跈C(jī)器人領(lǐng)域的時(shí)間表嗎?

Karol Hausman:說(shuō)實(shí)話,這有點(diǎn)難說(shuō)。最初的希望是,在 RT-2 那個(gè)時(shí)刻,一旦我們將現(xiàn)實(shí)世界的數(shù)據(jù)與視覺(jué)語(yǔ)言模型(VLM)連接起來(lái),我們就會(huì)像是搭上了順風(fēng)車,一旦 VLM 變得更好,我們也會(huì)不斷進(jìn)步。

但我認(rèn)為我們還沒(méi)有完全看到這一點(diǎn)。我不認(rèn)為我們已經(jīng)到了可以僅僅從這些模型變得越來(lái)越好中獲益的階段。有很多間接的方式讓我們可以從中受益,比如模型變得更快、更便宜,推理效果更好等。但我們目前并沒(méi)有受制于底層大語(yǔ)言模型的性能。

我們看到視覺(jué)能力在我們所做的事情中是一個(gè)相當(dāng)大的問(wèn)題。即使我們有能夠很好地執(zhí)行任務(wù)的模型,仍然需要用語(yǔ)言來(lái)指令它們?cè)诋?dāng)前情況下做什么。為此,我們通常使用 VLM。如果那些 VLM 更好,我認(rèn)為整個(gè)系統(tǒng)會(huì)工作得更好,但我認(rèn)為那不是目前的主要瓶頸。

主持人:你之前提到的,機(jī)器人把可口可樂(lè)放到 Taylor Swift 的照片上,是一個(gè)你覺(jué)得「這將是一個(gè)值得銘記的時(shí)刻」。那么未來(lái)有哪些有意義的里程碑,是你可能也會(huì)銘記的?

Karol Hausman:我們剛剛實(shí)現(xiàn)的一個(gè)重大里程碑,對(duì)我來(lái)說(shuō)意義非凡,就是「泛化」里程碑——把機(jī)器人帶到一個(gè)新家。因?yàn)檎?Danny 所說(shuō),在過(guò)去,基本上每一個(gè)機(jī)器人演示,我們都必須在完全相同的環(huán)境中收集數(shù)據(jù)。

稍微有一點(diǎn)改變,它可能就不工作了,而大家對(duì)此都習(xí)以為常。我們真的想擺脫那種情況,在一個(gè)它從未見(jiàn)過(guò)的家中進(jìn)行評(píng)估。光照、小的干擾物等,都是不同的。機(jī)器人來(lái)到一個(gè)新家,會(huì)感到非常困惑。桌面是不同的,物體都在不同的位置。它需要有大量的理解才能知道如何在這個(gè)空間里操作。而 π0.5 能夠做到這一點(diǎn),對(duì)我們來(lái)說(shuō)是一個(gè)非常非常重要的時(shí)刻。

Danny Driess機(jī)器學(xué)習(xí)中,有時(shí)候退一步思考是件好事。想一想,能夠在一個(gè)訓(xùn)練集上達(dá)到零錯(cuò)誤的最佳機(jī)器學(xué)習(xí)算法,不過(guò)是一個(gè)查找表。而在機(jī)器人技術(shù)中,你根本做不到這一點(diǎn),因?yàn)槟阌肋h(yuǎn)無(wú)法將場(chǎng)景重置到完全相同的狀態(tài)。盡管如此,很長(zhǎng)一段時(shí)間以來(lái),很多人都有這樣一種感覺(jué)或想法,即如果你在你的測(cè)試分布上進(jìn)行訓(xùn)練,性能必然會(huì)更好。

π0.5 最酷的事情之一是,我們的論文有一張圖表顯示,如果你在一個(gè)足夠大或足夠多樣化的場(chǎng)景集上進(jìn)行訓(xùn)練,那么你可以在一個(gè)未見(jiàn)過(guò)的廚房里達(dá)到與你擁有該廚房數(shù)據(jù)時(shí)相同的性能。我認(rèn)為這是一個(gè)非常神奇的時(shí)刻:即使你沒(méi)有見(jiàn)過(guò)數(shù)據(jù),也能達(dá)到與一個(gè)在該廚房見(jiàn)過(guò)數(shù)據(jù)的模型完全相同的性能。

主持人當(dāng)你們下一代模型,能夠在性能上做到某件什么事時(shí),你們會(huì)認(rèn)為它前進(jìn)了一大步?

Karol Hausman:我們傾向于一步步地審視,看看到底是什么阻礙了這些模型的廣泛部署。最初是能力,然后是泛化的問(wèn)題,因?yàn)槿绻饩€一變,它就停止工作了,部署起來(lái)會(huì)非常困難?,F(xiàn)在很明顯,我們已經(jīng)越過(guò)了這些障礙,或者說(shuō)我們至少對(duì)它們有了足夠的了解。

現(xiàn)在我們真的需要讓它們工作起來(lái),讓它們的穩(wěn)健性變得非常強(qiáng)。過(guò)去有一些跡象表明這個(gè)問(wèn)題可以在小范圍內(nèi)解決,有很多關(guān)于使用強(qiáng)化學(xué)習(xí)等方法的研究論文。我認(rèn)為挑戰(zhàn)在于,你如何創(chuàng)造一個(gè)可以大規(guī)模應(yīng)用于任何任務(wù)的「配方」,你只需有一個(gè)小配方,然后一個(gè)接一個(gè)地應(yīng)用,每個(gè)任務(wù)都能接連解決,而不管你使用的是什么硬件。

這個(gè)問(wèn)題仍未解決。所以,預(yù)測(cè)它會(huì)是什么樣子,這個(gè)配方會(huì)是什么樣子,最終結(jié)果會(huì)是什么,都有點(diǎn)困難。但如果過(guò)去能預(yù)示未來(lái),我希望它能很快發(fā)生。

04視頻生成模型仍然不夠好,還幫不到具身

主持人在機(jī)器人領(lǐng)域,有哪些非常重要但沒(méi)有解決的問(wèn)題,讓你覺(jué)得「如果我能快進(jìn)到兩三年后,知道這些問(wèn)題的答案,那對(duì)我們今天的研究會(huì)非常有幫助」?

Danny Driess:對(duì)我來(lái)說(shuō)有兩個(gè)。一個(gè)是關(guān)于生成式視頻模型,如果你在機(jī)器人場(chǎng)景中嘗試生成式視頻模型,它們?nèi)匀徊粔蚝?;另一個(gè)是,現(xiàn)有的機(jī)器人基礎(chǔ)模型的訓(xùn)練「配方」(recipe)問(wèn)題。

主持人嘗試一個(gè)生成式視頻模型是什么意思?

Danny Driess:比方說(shuō),你將一個(gè)條件模型(conditional model)置于一個(gè)場(chǎng)景中,比如這張桌子,然后提示它用機(jī)械臂將玻璃杯移動(dòng)到另一個(gè)位置。生成的視頻動(dòng)態(tài)通??雌饋?lái)非常不真實(shí),其中的物理規(guī)律也常常是錯(cuò)誤的。這些模型在其他場(chǎng)景中,在物理規(guī)律方面取得了很大進(jìn)展,但只要生成的場(chǎng)景中涉及到機(jī)器人,效果就差強(qiáng)人意。

不幸的是,如果我們想在現(xiàn)實(shí)世界中執(zhí)行動(dòng)作,像一毫米的偏差這樣微小的事情都可能產(chǎn)生巨大的影響。所以我想知道生成式視頻模型是否能克服這個(gè)問(wèn)題,然后變得對(duì)機(jī)器人技術(shù)非常有用,或者這個(gè)問(wèn)題是否會(huì)一直存在。

主持人:如果它們真的克服了這個(gè)問(wèn)題,那會(huì)徹底改變你們使用的架構(gòu)嗎?

Danny Driess:至少,很多關(guān)于如何實(shí)現(xiàn)泛化的擔(dān)憂可以得到解決,比如泛化到新的任務(wù)。因?yàn)槟阃耆?strong>可以把生成式視頻模型當(dāng)作一個(gè)模擬器來(lái)使用。當(dāng)你想在你所處的特定場(chǎng)景中解決一個(gè)新任務(wù)時(shí),你可以嘗試不同的動(dòng)作軌跡,看看哪一個(gè)是最好的。如果這個(gè)模型真的泛化得非常好,我認(rèn)為那將從根本上改變行業(yè)。它會(huì)為在未見(jiàn)過(guò)的環(huán)境中泛化到新任務(wù)提供一條更快的路徑。

主持人那么關(guān)于「配方」呢?會(huì)不會(huì)有那么一個(gè)時(shí)刻,我們現(xiàn)有的東西已經(jīng)可以工作了,而我們自己卻沒(méi)有意識(shí)到?

Danny Driess:是的,這里的「工作」是指,它不再是一個(gè)研究問(wèn)題,而是一個(gè)執(zhí)行問(wèn)題,盡管仍然非常困難。

Karol Hausman:我認(rèn)為另一個(gè)我非常想知道答案的問(wèn)題是某種形式的「規(guī)模化定律」(scaling laws)。通常當(dāng)我們想到規(guī)?;蓵r(shí),我們想到的是大語(yǔ)言模型。我認(rèn)為我們真正在機(jī)器人領(lǐng)域追求的規(guī)?;煞浅2煌K悄撤N像「投入的美元與模型能力」這樣粗略的關(guān)系,并且擁有某種單調(diào)的規(guī)?;?,并理解其底層的「配方」以及如何將一個(gè)轉(zhuǎn)化為另一個(gè)。我認(rèn)為我們還沒(méi)有達(dá)到那個(gè)階段,但我想如果有了那樣的東西,那么它就會(huì)變成一個(gè)純粹的執(zhí)行問(wèn)題。

主持人「美元」是指分配給數(shù)據(jù)收集和計(jì)算的資金嗎?

Karol Hausman:無(wú)論是什么,無(wú)論是計(jì)算、數(shù)據(jù)收集,還是用于視頻模型的計(jì)算或其他什么。

主持人你們是否遇到過(guò)一套基礎(chǔ)設(shè)施需求,讓你們覺(jué)得,「如果有人能開(kāi)發(fā)這個(gè)就好了?這會(huì)讓我們的工作以及所有未來(lái)的機(jī)器人公司都變得更容易。」

Danny Driess:機(jī)器人技術(shù)處理的數(shù)據(jù)類型都是時(shí)間序列數(shù)據(jù),而且是多模態(tài)的,有多個(gè)不同的攝像頭視角,你還有機(jī)器人的狀態(tài)和動(dòng)作。然后你還有語(yǔ)言標(biāo)注。這些語(yǔ)言標(biāo)注的方法本身就是一個(gè)研究課題,因此需要不斷地進(jìn)行迭代優(yōu)化。

因此,我們正在構(gòu)建的數(shù)據(jù)基礎(chǔ)設(shè)施,都是內(nèi)部自己開(kāi)發(fā)的。要讓它足夠快,同時(shí)又能足夠好地存儲(chǔ),以便你還能在上面進(jìn)行迭代,這是一個(gè)真正的挑戰(zhàn)。我們?cè)谶@方面有一些定制化的需求,這與你一次性收集的靜態(tài)數(shù)據(jù)集不同,因?yàn)槲覀兊臄?shù)據(jù)每天都在增長(zhǎng)。像數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管道等,那是一個(gè)非常重要的基礎(chǔ)設(shè)施問(wèn)題。

Karol Hausman:是的,這可能是我在開(kāi)始做這件事時(shí)低估的一點(diǎn),就是機(jī)器人產(chǎn)生的數(shù)據(jù)量有多大。我們知道會(huì)很多,但它增長(zhǎng)得很快,數(shù)據(jù)量非常大。它們收集的每一條信息在某種程度上都是「地面實(shí)況」,它都告訴你世界是如何運(yùn)作的,即使你在折疊衣物時(shí)失敗了,它仍然告訴你,如果你這樣移動(dòng)手臂,襯衫就會(huì)這樣變形。而這在大語(yǔ)言模型中并非如此,有些數(shù)據(jù)就是錯(cuò)誤的、壞數(shù)據(jù)。我們處理的數(shù)據(jù)量有點(diǎn)瘋狂。

如果有人能解決數(shù)據(jù)基礎(chǔ)設(shè)施問(wèn)題,那將會(huì)非常好。我們正試圖在內(nèi)部解決的,就是如何決定收集什么數(shù)據(jù),并圍繞這一點(diǎn)構(gòu)建所有的機(jī)制。比如,如何理解你到目前為止收集的數(shù)據(jù)的質(zhì)量?你如何在這種規(guī)模下進(jìn)行質(zhì)量保證?你如何以正確的方式在這種規(guī)模下進(jìn)行語(yǔ)言標(biāo)注?你如何知道模型還需要多少數(shù)據(jù)?你如何知道用什么策略來(lái)收集這些數(shù)據(jù)?你如何培訓(xùn)那些實(shí)際收集數(shù)據(jù)的人來(lái)大規(guī)模地做這件事?所有圍繞這些的基礎(chǔ)設(shè)施,以及管理其性能,理解這些數(shù)據(jù),并能對(duì)我的數(shù)據(jù)集有一個(gè)鳥(niǎo)瞰式的理解,知道它大致是怎樣的。那會(huì)非常有幫助。

主持人你們?nèi)绾沃酪占男?shù)據(jù)?你們是如何選擇任務(wù)的?

Karol Hausman:目前,我們選擇任務(wù)的目的是為了盡可能快地推進(jìn)。所以我們選擇那些非常困難的任務(wù),如果你能折疊衣物,你可能也能組裝 iPhone 和做很多其他事情。這些都是非常復(fù)雜的任務(wù),我們認(rèn)為過(guò)去機(jī)器人是無(wú)法完成的。

然后,我們選擇那些對(duì)我們來(lái)說(shuō)容易理解、容易部署機(jī)器人去收集數(shù)據(jù)的任務(wù)。我們每個(gè)人都有家,我們都折疊過(guò)衣物,我們知道一件成功折疊的 T 恤是什么樣的,一個(gè)干凈的廚房是什么樣的。這樣做比與制造商合作要容易得多。所以我們只是想非??斓剡M(jìn)行迭代,因?yàn)檫@項(xiàng)技術(shù)是通用的,我們認(rèn)為它之后也會(huì)適用于所有其他任務(wù)。

Danny Driess:或許可以補(bǔ)充一點(diǎn)。我們一開(kāi)始談到泰勒·斯威夫特的那個(gè)時(shí)刻,當(dāng)時(shí)那個(gè)成果受到了很多人的批評(píng),他們說(shuō):「你只要運(yùn)行一個(gè)物體檢測(cè)器」?,F(xiàn)在我們也可以用類似的技術(shù)來(lái)解決折疊衣物的問(wèn)題,但很明顯,你不能簡(jiǎn)單地用同樣的方法,比如用一個(gè)物體檢測(cè)器和一個(gè)軌跡規(guī)劃器來(lái)折疊衣物。所以,這也是我們選擇任務(wù)的一種方式,即選擇那些能推動(dòng)能力邊界,并且我們?nèi)匀幌嘈抛约河泄ぞ呷ソ鉀Q它們的任務(wù)。

主持人對(duì)于「這個(gè)任務(wù)對(duì)機(jī)器人來(lái)說(shuō)會(huì)很難」的直覺(jué)是什么?

Karol Hausman:我覺(jué)得這很難描述。我不認(rèn)為有一個(gè)清單,比如「如果有可變形的物體就難,如果以前沒(méi)見(jiàn)過(guò)就難」。我感覺(jué)這更像是一種在長(zhǎng)期解決問(wèn)題的過(guò)程中,逐漸積累起來(lái)的直覺(jué)。當(dāng)我們?cè)O(shè)定目標(biāo)并討論某些任務(wù)時(shí),你可以看看房間里人們的表情,看他們有多害怕……(笑)

是的,有些事情機(jī)器人做起來(lái)真的很差,這有點(diǎn)反直覺(jué)。這些事情通常涉及到每次都不一樣的情況。例如,如果你從洗衣籃里拿出衣物,襯衫的形態(tài)總是不同的。你以前從未見(jiàn)過(guò)一件襯衫處于完全相同的形態(tài),這使得任務(wù)變得困難。那種初始狀態(tài)分布的方差使得任務(wù)非常困難。如果任務(wù)非常長(zhǎng),那也會(huì)讓它變難,因?yàn)檫@些錯(cuò)誤會(huì)累積。如果任務(wù)非常精確,或者任務(wù)過(guò)程中有某個(gè)瓶頸使得它必須非常精確,那也是一個(gè)困難的任務(wù)。我可以嘗試列舉幾個(gè)維度,但這遠(yuǎn)不足以涵蓋所有復(fù)雜情況。

主持人在評(píng)估方面:你們?nèi)绾沃肋@些模型正在變得更好?機(jī)器人領(lǐng)域并沒(méi)有一個(gè)像 SWE-bench 那樣的東西。

Karol Hausman:答案就是真實(shí)世界本身。

Danny Driess評(píng)估非常重要,而且是一個(gè)非常困難的問(wèn)題。有趣的是,你永遠(yuǎn)無(wú)法將場(chǎng)景重置到完全相同的方式。因此,我們只能通過(guò)大量的重復(fù)運(yùn)行和嚴(yán)格的統(tǒng)計(jì)分析,來(lái)判斷實(shí)驗(yàn)結(jié)果是否具有統(tǒng)計(jì)學(xué)意義。我們還學(xué)到的一點(diǎn)是,要真正證明一個(gè)策略比另一個(gè)更好,通常需要在許多不同的任務(wù)和許多不同的環(huán)境中運(yùn)行它,然后你才可能會(huì)看到差異。但評(píng)估可能是最難的。

我們還會(huì)做的是,我們從不真正比較今天和幾周前的絕對(duì)性能,而總是同時(shí)運(yùn)行基線模型和新模型,由同一個(gè)操作員運(yùn)行,然后看相對(duì)排名。當(dāng)然,對(duì)于一些我們已經(jīng)充分理解的任務(wù),我們也會(huì)看絕對(duì)性能,但這只是為了考慮到各種變量,即使只是光線變化,或者機(jī)器人變了,或者換了一個(gè)可能對(duì)襯衫更挑剔的操作員。

Karol Hausman:還有一個(gè)問(wèn)題是,這方面的發(fā)展趨勢(shì)并不樂(lè)觀,因?yàn)殡S著這些模型的能力越來(lái)越強(qiáng),我們需要在越來(lái)越多的任務(wù)和越來(lái)越多的機(jī)器人上對(duì)它們進(jìn)行評(píng)估。所以,你需要運(yùn)行越來(lái)越多的評(píng)估,才能知道你的模型是否變得更好了。所以這是一個(gè)問(wèn)題,它需要很長(zhǎng)時(shí)間,操作上非常繁重,而且其中有很大的方差。這是我們非?!讣刀省棺龃笳Z(yǔ)言模型的人的另一個(gè)優(yōu)勢(shì)。

但我們正在探索一些方法來(lái)嘗試克服這個(gè)問(wèn)題。除了好的運(yùn)營(yíng),努力把這件事做得非常好之外,還可以開(kāi)始在這些用例中使用模擬、視頻模型之類的東西。人們已經(jīng)研究這個(gè)有一段時(shí)間了,我們還沒(méi)有看到它們的穩(wěn)健性好到可以減少方差級(jí),給我們更多信心說(shuō)這個(gè)模型是好的,但是有一些希望它們未來(lái)能達(dá)到那個(gè)水平。

05Diffusion Model 的方式預(yù)測(cè)下一個(gè)動(dòng)作

主持人你們?cè)谌绾胃斓赜?xùn)練這些模型方面做了一些非常有趣的工作,分享一下。

Danny Driess:當(dāng)我們構(gòu)建一個(gè)機(jī)器人基礎(chǔ)模型時(shí),我們通常從一個(gè)預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型(VLM)開(kāi)始。我們之前討論過(guò),當(dāng) VLM 變得更好時(shí),我們是否能從中受益?到目前為止,情況是VLM 本身還沒(méi)有適應(yīng)機(jī)器人技術(shù),它所擁有的特征對(duì)于機(jī)器人技術(shù)來(lái)說(shuō)還不夠好。所以我們必須在我們的機(jī)器人問(wèn)題上對(duì)它進(jìn)行微調(diào)。

但是,如果你只用機(jī)器人數(shù)據(jù)進(jìn)行微調(diào),結(jié)果就是模型會(huì)喪失部分原有的能力,它不再是一個(gè)好的 VLM 了。這有多種影響。一方面,它降低了模型的泛化能力,在某種意義上,模型忘記了它在互聯(lián)網(wǎng)上學(xué)到的很多東西。但另一方面,訓(xùn)練動(dòng)態(tài)也不那么好,因?yàn)樗仨毟淖兲?,以至于?xùn)練可能會(huì)非常緩慢。所以我們一直在做的是找出如何解決這個(gè)問(wèn)題的方法。

我們想出了一個(gè)我們稱之為「知識(shí)絕緣」(knowledge insulation)的概念,這是一個(gè)多方面的概念。我們嘗試修改訓(xùn)練「配方」,來(lái)保持模型的大部分能力。


我們是怎么做的呢?我們?nèi)匀辉诰W(wǎng)絡(luò)數(shù)據(jù)上訓(xùn)練模型,也就是非機(jī)器人相關(guān)的數(shù)據(jù),這很有幫助,尤其對(duì)泛化有幫助。但這并不是唯一的事情。另一個(gè)重要的見(jiàn)解是,目前構(gòu)建機(jī)器人模型的最佳配方是使用流匹配或擴(kuò)散(diffusion)來(lái)生成機(jī)器人動(dòng)作。但事實(shí)證明,如果你用這種方法來(lái)訓(xùn)練模型的骨干網(wǎng)絡(luò),它的訓(xùn)練速度會(huì)非常慢,而且你得到的梯度會(huì)有點(diǎn)破壞骨干網(wǎng)絡(luò),即使你正在使用其他數(shù)據(jù)源。

因此,我們想出了一個(gè)巧妙的思路:將機(jī)器人動(dòng)作進(jìn)行「標(biāo)記化」(tokenize)處理,使其變得像文本一樣,然后用這種方式來(lái)訓(xùn)練 VLM 的骨干網(wǎng)絡(luò)。事實(shí)證明,這使得 VLM 能夠適應(yīng)機(jī)器人技術(shù),而不會(huì)失去其能力。然后我們可以在此基礎(chǔ)上嫁接上這些「動(dòng)作專家」(action experts),或者用流匹配,讓他們之間不要有太多的交流,停止梯度,然后就能有非常好的動(dòng)作預(yù)測(cè)。


這件很酷的事情是,我們把訓(xùn)練速度加快了 10 倍,也提升了泛化能力。我們大大縮短了迭代速度。這也是我們需要注意的一點(diǎn)。在機(jī)器人領(lǐng)域,你收集數(shù)據(jù),這需要一段時(shí)間;然后你訓(xùn)練模型,這需要好幾周;然后你必須進(jìn)行真實(shí)的機(jī)器人評(píng)估。直到你得到一個(gè)信號(hào),判斷你在這些流程中的任何決策是否合理,可能需要很長(zhǎng)的時(shí)間。所以,如果你能讓任何一個(gè)階段變得更快,你的研究不僅會(huì)因此而加速,而且會(huì)因?yàn)槟隳芨绲刈龀鰶Q策而加速更多。

主持人你們最近還有一個(gè)研究方向是讓這些模型在推理時(shí)工作得更快,你們?nèi)绾谓鉀Q大型模型帶來(lái)的延遲問(wèn)題?

Danny Driess:最近有一項(xiàng)來(lái)自 Kevin Zakka 的研究,他就在研究這個(gè)問(wèn)題。機(jī)器人場(chǎng)景下,你先得到一個(gè)觀察結(jié)果,然后你開(kāi)始查詢模型,而推理過(guò)程可能需要幾百毫秒。在這段時(shí)間里,你假設(shè)世界是靜止的。但這顯然不是世界的運(yùn)作方式,世界可能已經(jīng)繼續(xù)前進(jìn)了。

注:Kevin?Zakka 是機(jī)器人領(lǐng)域的一位學(xué)者,現(xiàn)為加州大學(xué)伯克利分校 Robot?Learning?Lab 的博士生,導(dǎo)師為 Pieter?Abbeel。

我們的模型總是預(yù)測(cè)下一個(gè)動(dòng)作,它是一個(gè)完整的動(dòng)作軌跡,我們稱之為「動(dòng)作塊」(action chunk),供機(jī)器人執(zhí)行。假設(shè)推理時(shí)間延遲之后,當(dāng)新的動(dòng)作塊準(zhǔn)備好時(shí),世界可能已經(jīng)改變了,或者這個(gè)新預(yù)測(cè)的動(dòng)作塊與舊的那個(gè)不一致。那就會(huì)出現(xiàn)問(wèn)題。

所以 Kevin 想出了一個(gè)方法,利用了圖像修復(fù)(inpainting)的技術(shù)。比如,用于生成圖像的擴(kuò)散模型,你可以移除一塊,然后它們就會(huì)填補(bǔ)那塊??梢詰?yīng)用類似的技術(shù)來(lái)基本上「修復(fù)」軌跡的其余部分,前提是你已經(jīng)執(zhí)行了其中的一部分。這是一個(gè)純粹的算法進(jìn)步。你甚至不需要為此重新訓(xùn)練模型,你可以在事后應(yīng)用它,而且效果非常好。所以基本上發(fā)生的是,系統(tǒng)仍然在執(zhí)行一個(gè)動(dòng)作,同時(shí)它正在計(jì)算未來(lái)的新動(dòng)作。然后它們像是被融合在一起了。

但正如你所說(shuō),作為一種替代方案,如果能有讓模型推理速度大大加快的進(jìn)步,我們也會(huì)極大地受益。那也會(huì)解決很多問(wèn)題。

主持人從填補(bǔ)圖像中得到靈感,這簡(jiǎn)直就是「研究品味」的最佳體現(xiàn)。那么想象未來(lái),如果你們的研究都成功了,在 10 年后會(huì)是什么樣子?

Danny Driess:我希望,至少如果我成功的話,就不會(huì)有后期訓(xùn)練(post-training)了。

我真的希望我們能提供越來(lái)越好的基礎(chǔ)模型,它們更易于引導(dǎo)和預(yù)測(cè),這樣它們就能在特定的速度下,以特定的性能完成任務(wù)。這就像現(xiàn)在的大語(yǔ)言模型一樣。你不需要真的對(duì)它們進(jìn)行后期訓(xùn)練,當(dāng)你把它們給用戶時(shí),它們就能工作。

Karol Hausman:我們開(kāi)始在我們最新的研究中看到一些這樣的跡象。最初,當(dāng)我們想讓這些任務(wù)成功時(shí),特別是像折疊襯衫這樣復(fù)雜的任務(wù),我們總是需要做非常特定的后期訓(xùn)練程序。但現(xiàn)在,隨著我們得到越來(lái)越好的預(yù)訓(xùn)練模型,我們意識(shí)到其中一些模型在零樣本情況下的表現(xiàn),和舊的經(jīng)過(guò)后訓(xùn)練的基礎(chǔ)模型的表現(xiàn)一樣好。看到這一點(diǎn)超級(jí)酷,這就像我們從 GPT-3.5 到 GPT-4 所看到的,整個(gè)范式突然改變了。

我認(rèn)為后期訓(xùn)練會(huì)繼續(xù)存在,但其具體形式還有待確定。究竟是需要用戶提供少量額外的演示,還是通過(guò)更豐富的指令來(lái)引導(dǎo)機(jī)器人,還是讓機(jī)器人自主探索,這些都還是未知數(shù)。但我個(gè)人猜測(cè),最終會(huì)是某種形式的輕量級(jí)引導(dǎo)——用戶只需提供少量輸入,就能換來(lái)機(jī)器人執(zhí)行效率和最終性能的顯著提升。

06通用機(jī)器人基礎(chǔ)模型被嚴(yán)重低估了

主持人:在過(guò)去的一年里,你們改變了對(duì)哪一件事的看法?

Danny Driess:對(duì)我來(lái)說(shuō),是看到了那條「環(huán)境擴(kuò)展曲線」(environment scaling curve),即如果你有來(lái)自某個(gè)環(huán)境的訓(xùn)練數(shù)據(jù),你可以在一個(gè)未見(jiàn)過(guò)的環(huán)境中達(dá)到同樣的性能。這真的改變了我的想法。我之前認(rèn)為那會(huì)有一個(gè)難過(guò)的「坎」,或者說(shuō)需要更多的多樣性。我們討論過(guò)世界是如此地難以置信地多樣化。

Karol Hausman:我們?cè)陧?xiàng)目開(kāi)始前有過(guò)這樣的對(duì)話,比如你需要見(jiàn)過(guò)多少個(gè)家才能泛化到下一個(gè)?當(dāng)時(shí)拋出的數(shù)字好像是一百萬(wàn),因?yàn)槊總€(gè)家的環(huán)境都很不同。然后結(jié)果是 100 個(gè),這對(duì)我來(lái)說(shuō)仍然有點(diǎn)令人難以置信。這似乎確實(shí)表明,也許我們過(guò)去高估了世界的多樣性。

另一個(gè)是視頻模型,我認(rèn)為它們?nèi)〉昧司薮蟮倪M(jìn)步,比我預(yù)期的要快得多。我還記得幾年前玩它們的時(shí)候,看到了各種各樣的問(wèn)題,現(xiàn)在它們正在變得非常好,非???。

主持人你覺(jué)得在關(guān)于人工智能和機(jī)器人的討論中,有什么是被過(guò)度炒作的,又有什么是被低估的?

Karol Hausman:我認(rèn)為通用機(jī)器人模型被嚴(yán)重低估了。如果它成功了(到目前為止,所有的跡象都表明這個(gè)想法是有道理的),它將從根本上改變我們對(duì)物理世界和那個(gè)世界中智能的看法。就像我們前邊提到的 Waymo 的例子一樣,如果你坐在自動(dòng)駕駛的車?yán)?,那是一種與你擁有最智能的聊天機(jī)器人完全不同的體驗(yàn),非常直觀。

我不認(rèn)為現(xiàn)在有很多東西被過(guò)度炒作了。我認(rèn)為或許圍繞人形機(jī)器人的狂熱有點(diǎn)過(guò)頭了。對(duì)我來(lái)說(shuō),這主要來(lái)自于對(duì)人工智能將如何發(fā)展的誤解。對(duì)于這些模型來(lái)說(shuō),是這種機(jī)器人還是那種機(jī)器人并不重要,它可以從所有不同形態(tài)的機(jī)器人中獲取數(shù)據(jù),并在所有這些機(jī)器人之間進(jìn)行泛化。它將成為你能應(yīng)用到所有不同領(lǐng)域的,最通用的東西。

主持人有一種說(shuō)法是,我們生活的世界是為人類形態(tài)而優(yōu)化的。

Karol Hausman:我聽(tīng)過(guò)這個(gè)說(shuō)法。我的意思是,這有一定道理,但可以更進(jìn)一步。實(shí)際上,對(duì)這些模型來(lái)說(shuō),數(shù)據(jù)來(lái)自什么機(jī)器人并不重要。它們可以從各種各樣的機(jī)器人那里獲取數(shù)據(jù)。可以是汽車,可以是無(wú)人機(jī),各種各樣的東西,而那將帶來(lái)這些模型更強(qiáng)的能力。所以我認(rèn)為,如果你把這個(gè)論點(diǎn)再往前推一點(diǎn),你最終會(huì)進(jìn)入一個(gè)世界,那里有一個(gè)巨大的基礎(chǔ)模型,驅(qū)動(dòng)著所有的機(jī)器人,其中一些是人形的。

主持人你認(rèn)為到哪一年,會(huì)有一百萬(wàn)美國(guó)人家里有機(jī)器人?

Danny Driess:我認(rèn)為我們已經(jīng)有一百萬(wàn)了(指掃地機(jī)器人等)。

主持人如果是能夠折疊衣物和做所有事情的由AI模型驅(qū)動(dòng)的機(jī)器人呢?

Karol Hausman:正如我所說(shuō),我應(yīng)該對(duì)我的預(yù)測(cè)更樂(lè)觀一些。鑒于過(guò)去進(jìn)展的速度和我當(dāng)時(shí)的錯(cuò)誤判斷,我認(rèn)為我們可能會(huì)在今年或明年看到機(jī)器人被部署,做一些我們以前從未見(jiàn)過(guò)機(jī)器人做的事情,如果我們繼續(xù)沿著這個(gè)軌跡發(fā)展的話。

至于它們何時(shí)會(huì)被部署在家庭中,做各種各樣的事情,我認(rèn)為討論的焦點(diǎn)已經(jīng)從「永遠(yuǎn)不可能」或者「問(wèn)題從根本上無(wú)法解決」轉(zhuǎn)變?yōu)榱恕复蟾旁?5 到 10 年之間」這樣的時(shí)間范圍。我認(rèn)為大部分業(yè)內(nèi)人士都同意現(xiàn)在是這個(gè)時(shí)間框架。我認(rèn)為如果進(jìn)展繼續(xù),并且我們成功了,那么我預(yù)計(jì)會(huì)在未來(lái)五年內(nèi)實(shí)現(xiàn)。

主持人當(dāng)這些東西普及時(shí),你對(duì)未來(lái)有什么預(yù)測(cè),關(guān)于這些模型普及的影響是我們今天沒(méi)有足夠思考的?

Karol Hausman:我想或許可以反過(guò)來(lái)從軟件的角度看。我沒(méi)想到「vibe coding」會(huì)成為現(xiàn)實(shí),這太酷了。我們辦公室里有非技術(shù)背景的人在做一些令人難以置信的事情,為自己構(gòu)建工具,變得對(duì)編程充滿熱情。各種各樣的儀表盤,各種各樣的運(yùn)營(yíng)工具,超級(jí)酷。

我前幾天在想,對(duì)于硬件來(lái)說(shuō),「vibe coding」會(huì)是什么樣子?你可以直接提示模型,智能就在那里為你服務(wù)。你只需創(chuàng)造一個(gè)物理實(shí)體,然后就能為其注入智能。這就像我們熟悉的卡通片里的世界一樣:制造實(shí)體是困難的部分,可一旦造出來(lái),它就擁有了生命。我認(rèn)為那將是一個(gè)非常瘋狂的轉(zhuǎn)變。

主持人那會(huì)很好,當(dāng)你能創(chuàng)造任何硬件,然后給它注入這些模型。

Karol Hausman:沒(méi)錯(cuò),就是給它注入智能。

Danny Driess:我基本同意。我真的很期待一個(gè)家里再也沒(méi)有家務(wù)活的時(shí)代。比如,回頭來(lái)看 ChatGPT 時(shí)刻,其中一個(gè)方面是,很多人從來(lái)沒(méi)聽(tīng)說(shuō)過(guò)什么是語(yǔ)言模型,然后突然之間全世界都知道了。但如果我給任何人看一個(gè)機(jī)器人視頻,他們總是說(shuō),「我馬上就想要這個(gè)?!顾运麄円呀?jīng)對(duì)它將如何改變他們的生活有了一個(gè)非常清晰的概念,這很有趣。但我很好奇,當(dāng)人們?cè)僖膊挥脧南赐霗C(jī)里拿出碗碟時(shí),他們會(huì)做什么?這將使人類能夠?qū)W⒂谑裁?,我認(rèn)為那也會(huì)非常令人興奮。

Karol Hausman:是的,我家里有個(gè)一歲的孩子,我發(fā)現(xiàn)自己為了能多陪陪她,需要做各種各樣的事情。給瓶子消毒,清理這個(gè),清理那個(gè),把碗碟放進(jìn)洗碗機(jī)再拿出來(lái),所有這些事情我都不想做。我不想把時(shí)間花在這上面。我只想有更多的時(shí)間陪她。所以,如果不用做那些事,并且家里能一直保持我想要的狀態(tài),那會(huì)非常酷。

07行業(yè)還很早期,開(kāi)源才能一起進(jìn)步

主持人我很好奇你們研究策略的另一個(gè)方面。你們開(kāi)源了π0,也發(fā)表了很多研究。你們是如何考慮,哪些應(yīng)該開(kāi)源,哪些見(jiàn)解要和世界分享?

Karol Hausman:這是一個(gè)非常深思熟慮的選擇。如果最近在社交媒體上待得太久,可能會(huì)覺(jué)得機(jī)器人技術(shù)馬上就要被解決了,我們今天就能在家里擁有能為我們做任何事情的類人機(jī)器人。而我們認(rèn)為,我們還處于非常早期的階段,仍然有待突破,技術(shù)還沒(méi)有到位。

對(duì)我們公司和整個(gè)領(lǐng)域來(lái)說(shuō),最大的風(fēng)險(xiǎn)不是有人會(huì)比我們先到達(dá)那里,我們會(huì)被別人超越。最大的風(fēng)險(xiǎn)在于,如果我們失敗了,如果科學(xué)界不能通力合作,那么整個(gè)問(wèn)題最終將無(wú)法解決。到那時(shí),你是否分享了你的成果,你的策略是什么,你在建造什么樣的機(jī)器人,都無(wú)關(guān)緊要了。所以我們想確保這種情況不會(huì)發(fā)生,并降低這種風(fēng)險(xiǎn)。

你想確保將這些想法暴露給盡可能多的人,并邀請(qǐng)他們加入。因?yàn)槲覀兿嘈牛覀冋谧叩牡缆肥墙鉀Q這個(gè)問(wèn)題的正確道路。所以,越多人認(rèn)同它,去玩這些模型,去理解它們的發(fā)展方向,去為它們做出貢獻(xiàn),我們成功的可能性就越大,不僅是作為公司,也是作為整個(gè)領(lǐng)域,解決這個(gè)問(wèn)題的可能性就更高。

當(dāng)問(wèn)題非常清楚地正在被解決時(shí),情況可能會(huì)有所改變。但我認(rèn)為到目前為止,我們的策略一直是非常深思熟慮的,而且坦率地說(shuō),對(duì)我們來(lái)說(shuō)非常成功。比如,這對(duì)招聘也很有幫助,人們希望分享他們的工作,以確保他們可以和朋友討論,并讓更多的人來(lái)幫助他們。同時(shí),也看到了開(kāi)源這些模型的巨大影響,π0 被用在了非常多的地方。

主持人:你們最喜歡它被以什么方式使用?

Karol Hausman:我見(jiàn)過(guò)很多,很奇怪,也很瘋狂的方式。比如那個(gè)無(wú)人機(jī)的應(yīng)用就非??幔?π0 進(jìn)行預(yù)訓(xùn)練,實(shí)現(xiàn)了抓取物體的能力。我在手術(shù)機(jī)器人上見(jiàn)過(guò),在自動(dòng)駕駛汽車上見(jiàn)過(guò)。我見(jiàn)過(guò)它做了很多我甚至沒(méi)想過(guò)π0 能幫上忙的不同任務(wù)。所以能夠帶來(lái)那樣的影響真的非???。

Danny Driess:把模型放出來(lái)讓人們使用,也是一個(gè)很好的學(xué)習(xí)方式,了解這最終如何能作為一個(gè)真正的部署來(lái)實(shí)現(xiàn),并看到模型與其他參與者的互動(dòng)等。所以,這其中有巨大的價(jià)值。

Karol Hausman:是的,這有點(diǎn)涉及到機(jī)器人技術(shù)的評(píng)估問(wèn)題。很難比較,這個(gè)團(tuán)隊(duì)發(fā)布的這個(gè)模型更好,還是另一個(gè)團(tuán)隊(duì)的更好?沒(méi)有既定的基準(zhǔn),即使有,如果任何東西發(fā)生變化,方差也非常大,你也無(wú)法判斷。所以,我同意,就是應(yīng)該把它放出來(lái),讓人們使用它。

主持人同樣的事情在大語(yǔ)言模型領(lǐng)域也適用,對(duì)嗎?在很多方面,評(píng)估的價(jià)值也是有限的。事實(shí)證明,用戶會(huì)告訴你,他們更喜歡哪個(gè)模型。

Danny Driess:沒(méi)錯(cuò)。我還喜歡的一點(diǎn)是,我認(rèn)為當(dāng)大語(yǔ)言模型問(wèn)世時(shí),人們并不能真正知道大家都能想出什么來(lái)。我期待著同樣的故事能在物理世界重演,也期待看到當(dāng)這些工具交到大眾手中時(shí),會(huì)催生出哪些我們今天無(wú)法想象的創(chuàng)新應(yīng)用。



轉(zhuǎn)載原創(chuàng)文章請(qǐng)?zhí)砑游⑿牛篺ounderparker

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
美國(guó)攔不住了,耿爽新身份一亮相,聯(lián)大120國(guó)集體力挺中國(guó)!

美國(guó)攔不住了,耿爽新身份一亮相,聯(lián)大120國(guó)集體力挺中國(guó)!

一個(gè)有靈魂的作者
2025-09-08 14:26:02
金正恩離開(kāi)之前,水杯、指紋、排泄物、甚至每根毛發(fā)都被處理干凈

金正恩離開(kāi)之前,水杯、指紋、排泄物、甚至每根毛發(fā)都被處理干凈

熊貓君點(diǎn)評(píng)
2025-09-07 11:47:41
從17.14億降至4.66億,重慶商業(yè)巨無(wú)霸降至評(píng)估價(jià)22%仍無(wú)人問(wèn)津

從17.14億降至4.66億,重慶商業(yè)巨無(wú)霸降至評(píng)估價(jià)22%仍無(wú)人問(wèn)津

石辰搞笑日常
2025-09-09 01:48:56
法國(guó)媒體被女兵妝容嚇到,香奈兒老家開(kāi)始夸中國(guó)化妝品!

法國(guó)媒體被女兵妝容嚇到,香奈兒老家開(kāi)始夸中國(guó)化妝品!

深析古今
2025-09-07 09:54:38
香港真實(shí)生活:撕開(kāi)表面光鮮,這才是真實(shí)的香港

香港真實(shí)生活:撕開(kāi)表面光鮮,這才是真實(shí)的香港

原廣工業(yè)
2025-09-08 15:48:58
女民兵拉著五顏六色拉桿箱返程,閱兵靴子沒(méi)來(lái)得及換,穿衣很時(shí)尚

女民兵拉著五顏六色拉桿箱返程,閱兵靴子沒(méi)來(lái)得及換,穿衣很時(shí)尚

甜檸聊史
2025-09-05 11:51:37
重要通知:銀行存取款方式重大調(diào)整,ATM機(jī)已完成升級(jí),儲(chǔ)戶須知

重要通知:銀行存取款方式重大調(diào)整,ATM機(jī)已完成升級(jí),儲(chǔ)戶須知

慧眼看世界哈哈
2025-09-08 05:55:40
三八線再次傳來(lái)槍聲!韓國(guó)用機(jī)槍掃射朝鮮軍人,朝方發(fā)出戰(zhàn)爭(zhēng)警告

三八線再次傳來(lái)槍聲!韓國(guó)用機(jī)槍掃射朝鮮軍人,朝方發(fā)出戰(zhàn)爭(zhēng)警告

boss外傳
2025-09-08 01:00:05
精簡(jiǎn)49%!鐵飯碗收縮,加速了

精簡(jiǎn)49%!鐵飯碗收縮,加速了

西部城市
2025-09-08 21:11:40
海外市場(chǎng),可不會(huì)慣著中國(guó)車!

海外市場(chǎng),可不會(huì)慣著中國(guó)車!

華庭講美食
2025-09-06 13:20:21
奧布拉克太絕望:3次被攻破球門,曼聯(lián)超級(jí)新援啞火:6場(chǎng)0進(jìn)球

奧布拉克太絕望:3次被攻破球門,曼聯(lián)超級(jí)新援啞火:6場(chǎng)0進(jìn)球

足球狗說(shuō)
2025-09-09 06:31:32
丈夫洗澡時(shí)妻子發(fā)現(xiàn)其身上粉色蟲(chóng)卵,醫(yī)院檢查后,醫(yī)生:趕快報(bào)警

丈夫洗澡時(shí)妻子發(fā)現(xiàn)其身上粉色蟲(chóng)卵,醫(yī)院檢查后,醫(yī)生:趕快報(bào)警

罪案洞察者
2025-09-03 13:34:42
父母給房別直接過(guò)戶,這種方法省錢省心幾百塊搞定,很多人不知道

父母給房別直接過(guò)戶,這種方法省錢省心幾百塊搞定,很多人不知道

詩(shī)意世界
2025-08-30 10:20:18
最新! 楊蘭蘭高檔餐廳聚餐照曝光,全身LV愛(ài)馬仕,看到記者立馬溜

最新! 楊蘭蘭高檔餐廳聚餐照曝光,全身LV愛(ài)馬仕,看到記者立馬溜

熱點(diǎn)菌本君
2025-09-07 14:34:51
已確認(rèn)!是奧運(yùn)冠軍吳敏霞

已確認(rèn)!是奧運(yùn)冠軍吳敏霞

晉江電視臺(tái)
2025-09-08 13:17:56
杭州燒鳥(niǎo)店的“擦邊營(yíng)銷”事件:是一場(chǎng)對(duì)“餐飲”和“女性”的雙重侮辱

杭州燒鳥(niǎo)店的“擦邊營(yíng)銷”事件:是一場(chǎng)對(duì)“餐飲”和“女性”的雙重侮辱

黑蟻先生
2025-09-08 11:39:19
九三閱兵后第四天,日本首相“體面”辭職,臨走前留給中國(guó)兩句話

九三閱兵后第四天,日本首相“體面”辭職,臨走前留給中國(guó)兩句話

影孖看世界
2025-09-08 20:09:42
值得珍藏:科技主線+半導(dǎo)體龍頭+低空經(jīng)濟(jì)+軍工+電力設(shè)備+航運(yùn)等

值得珍藏:科技主線+半導(dǎo)體龍頭+低空經(jīng)濟(jì)+軍工+電力設(shè)備+航運(yùn)等

前沿天地
2025-09-08 07:38:44
大媽帶3L大桶薅山姆飲料,店員勸阻無(wú)效,嘴臉太貪婪,子女被牽連

大媽帶3L大桶薅山姆飲料,店員勸阻無(wú)效,嘴臉太貪婪,子女被牽連

墨印齋
2025-09-08 17:43:51
排面拉滿!詹姆斯登上《人民日?qǐng)?bào)》:籃球是連接彼此的橋梁

排面拉滿!詹姆斯登上《人民日?qǐng)?bào)》:籃球是連接彼此的橋梁

羅說(shuō)NBA
2025-09-08 10:54:46
2025-09-09 06:48:49
FounderPark incentive-icons
FounderPark
關(guān)注AI創(chuàng)業(yè),專注和創(chuàng)業(yè)者聊真問(wèn)題
956文章數(shù) 140關(guān)注度
往期回顧 全部

科技要聞

王騰承認(rèn)離開(kāi)小米:犯了錯(cuò),感謝雷總培養(yǎng)

頭條要聞

柯文哲出來(lái)第一秒就瞄準(zhǔn)賴清德:把臺(tái)灣搞得四分五裂

頭條要聞

柯文哲出來(lái)第一秒就瞄準(zhǔn)賴清德:把臺(tái)灣搞得四分五裂

體育要聞

二十年,屬于詹姆斯和中國(guó)球迷的雙向奔赴

娛樂(lè)要聞

2天5個(gè)瓜!個(gè)個(gè)離譜

財(cái)經(jīng)要聞

千億均和集團(tuán)暴雷 建行等多家銀行追債

汽車要聞

對(duì)話曹東杰:用智能重構(gòu)越野 猛士M817的爆款邏輯

態(tài)度原創(chuàng)

本地
時(shí)尚
手機(jī)
教育
公開(kāi)課

本地新聞

食味印象 | 夜未央 在自由時(shí)光邂逅煙火氣

比白襯衫更時(shí)髦,今年秋天“巧克力棕襯衫”太高級(jí)了!

手機(jī)要聞

努比亞Z80 Ultra新機(jī)入網(wǎng),影像能力再次升級(jí)

教育要聞

浙大博士求職211被拒,原因是第一學(xué)歷,那么多論文和課題看不見(jiàn)

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 国产色视频一区二区三区| 日韩欧激情一区二区三区| 欧美国产妇女日逼视频| 欧美日韩免费| 中文字幕久久精品无码| 日本一道视频免费| 狼人影院在线观看高清版| 中国老太婆bb无套内射| 91九色丨PORNY丨国产jk| 欧美吃奶呻吟60分钟免费看| 欧美xxxx做受欧美| av网在线看| 美女裸体a级毛片| 亚洲无码网站在线免费播放| 国产乱伦一二三四区| 韩国无码一区二区三区免费视频| 国产成人无码区免费视频| 少妇急喘 在线视频| 国产成a人亚洲精品无码性色| 成年人黄色电影久久| 人妻激情偷乱一区二区三区| 成人免费视频国产免费麻豆 | 亚洲无码成人高清久久| 五月激情片黄片| 国产精品色内内在线观看| 被两个两个黑人吃奶4P视频| 久久国产成人精品av| 久久久无码人妻精品一区二区| 欧美喷潮久久久xxxxx| 成 年 人 黄 色 视频 网 站| 福利成人午夜国产一区| 97久久精品人妻人人搡人人玩| 亚洲精品一区久久久久一品av| 欧美巨茎精品一区二区三区| 亚洲欧美自拍一区| 亚洲小说专区| 亚洲成av人片高潮喷水| 欧美操屄视频| 亚洲日韩AV动态图| heyzo无码综合国产精品| 不卡无码AV一区二区三区|