夜夜躁很很躁日日躁麻豆,精品人妻无码,制服丝袜国产精品,成人免费看www网址入口

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

AI大潮下的具身和人形,中國在跟跑還是并跑?

0
分享至

當(dāng)特斯拉Optimus再度更新、波士頓動(dòng)力Atlas秀后空翻,全球目光再次聚焦“具身智能”與“人形機(jī)器人”。觀察者網(wǎng)在2024 WAIC現(xiàn)場邀請(qǐng)智源、美的、格靈深瞳、真格基金四位一線操盤手,追問一個(gè)核心命題:在AI大潮奔涌的當(dāng)下,中國究竟是在“跟跑”美國的腳步,還是已經(jīng)與之“并跑”甚至準(zhǔn)備“彎道超車”?從電機(jī)供應(yīng)鏈、強(qiáng)化學(xué)習(xí)算法,到落地場景與資本路徑,這場一個(gè)半小時(shí)的尖峰對(duì)話給出了答案——也留下了更大的懸念。

以下是7月27日上午,北京智源人工智能研究院研究員趙仲夏、美的人形機(jī)器人創(chuàng)新中心主任奚偉、格靈深瞳技術(shù)副總裁兼算法研究院院長馮子勇、真格基金投資經(jīng)理陳勉諾在觀察者直播間的對(duì)話實(shí)錄:


從左至右:北京智源人工智能研究院趙仲夏、美的集團(tuán)奚偉、格靈深瞳馮子勇、真格基金陳勉諾 (點(diǎn)擊觀看直播回放)

文字實(shí)錄:

趙仲夏:各位線上的觀眾大家好,歡迎來到 WAIC 觀察者網(wǎng)直播間,現(xiàn)在我們在 WAIC 的現(xiàn)場,看到進(jìn)場的時(shí)候會(huì)有一個(gè)鎮(zhèn)館之寶,是我們的人形機(jī)器人。我們本次直播的主題是“具身向左、人形向右——的人工智能和機(jī)器人產(chǎn)業(yè)將走向何方?”,首先我們來問一下奚老師。我們知道在大眾的理解中,美的是一個(gè)家電或者是一個(gè)智能硬件的品牌,我想知道為什么美的要去做人形機(jī)器人?做人形機(jī)器人的初心是什么?

奚偉:大家對(duì)于美的可能一開始的印象都是家電行業(yè),包括我加入美的之前,也對(duì)美的業(yè)務(wù)并不了解。但事實(shí)上,美的在 2016 年開始就開始做一些全球化的布局,包括To B的轉(zhuǎn)型,從2016 年開始收購包括庫卡機(jī)器人相關(guān)的機(jī)器人的領(lǐng)域,目前美的To B領(lǐng)域有四大板塊:第一是樓宇科技,借助美的在暖通上面的積累,把技術(shù)應(yīng)用在樓宇相關(guān)領(lǐng)域,尤其商業(yè)樓宇;第二個(gè)是工業(yè)技術(shù),也是美的在核心零部件上對(duì)整個(gè)工業(yè)進(jìn)行賦能,包括電機(jī)、減速機(jī)相關(guān)的一些產(chǎn)品;第三個(gè)就是機(jī)器人與自動(dòng)化,是在 2016 年收購庫卡之后建立一個(gè)新的業(yè)務(wù)板塊;第四個(gè)是正在建立的一些新業(yè)務(wù)板塊,包括美的醫(yī)療、美云智數(shù)等一些新的 AI 的技術(shù)。

人形機(jī)器人是我們?nèi)ツ瓴砰_始做規(guī)劃的,我們認(rèn)為美的進(jìn)入人形機(jī)器人是有天然的優(yōu)勢的:第一,我們在零部件上有已經(jīng)有一些技術(shù)的一些積累;第二,在整機(jī)上我們已經(jīng)開始有完整的產(chǎn)品線,人形機(jī)器人作為下一個(gè)階段的一個(gè)新賽道,我們應(yīng)該當(dāng)仁不讓,要去切入這個(gè)賽道。所以說從去年開始,我們在人形機(jī)器人上去做一些嘗試,通過一些項(xiàng)目去積累技術(shù)。今年,我們開始大力發(fā)展人形機(jī)器人相關(guān)的一些產(chǎn)品,包括應(yīng)用的一些嘗試。

趙仲夏:原來美的不只是一個(gè)家電公司,還是一個(gè)智能制造的公司,同時(shí)還是一個(gè)機(jī)器人的公司。說到智能制造,我想知道美的從2016 年收購庫卡到現(xiàn)在已經(jīng)快十年了,這十年中我們服務(wù)的主要客戶是什么?

奚偉:庫卡機(jī)器人在服務(wù)的行業(yè)有很多,目前主要集中在是汽車制造,同時(shí)也在像3C、船舶、飛機(jī)制造方面以及一些相關(guān)拓展。除了庫卡機(jī)器人之外,我們還有其他的一些行業(yè),比如物流、電商相關(guān)行業(yè),美的服務(wù)的行業(yè)跨度是非常大的。另外,美的本身也在制造行業(yè),也需要很多機(jī)器人的支持,所以庫卡機(jī)器人在我們所有的美的燈塔工廠,應(yīng)用量也非常大。

趙仲夏:太棒了,汽車制造、船舶,都是中國制造業(yè)最關(guān)鍵的行業(yè)。然后我們來問一下馮院長。我們知道格靈深瞳應(yīng)該是中國第一家 AI 領(lǐng)域的計(jì)算機(jī)視覺公司,也是中國第一家上市的 AI 領(lǐng)域的計(jì)算機(jī)視覺公司。能不能跟我們介紹一下格靈深瞳和您這邊所在研究院?

馮子勇:對(duì),格靈深瞳是首個(gè)科創(chuàng)板上市的 AI 企業(yè),在2013 年開始到現(xiàn)在已經(jīng) 12 年,我們一直深耕的是視覺技術(shù)。主要做的是圖像,還有視頻的分析跟理解。先介紹一下業(yè)務(wù),譬如在金融行業(yè),我們?yōu)榻鹑阢y行的上萬家營業(yè)網(wǎng)點(diǎn),做邊緣端加中心端的視頻分析,在安防領(lǐng)域大家比較熟悉了,像人臉、人體、車輛這些都已經(jīng)落地到千家萬戶。我們最近也新增了大模型相關(guān)的工作,譬如說以文搜圖,幫助公安去找人更有價(jià)值。另外關(guān)于人體分析這一塊,我們也進(jìn)入到智慧體育方向,我們幫助中小學(xué)做體育考試訓(xùn)練,幫助中小學(xué)生們提升體育素養(yǎng)。隨著大模型的發(fā)展,我們也做了一些信創(chuàng)的這個(gè)工作,像 AI PC 大模型一體機(jī),也在我們的產(chǎn)品范圍內(nèi)。再如剛才講到的視覺技術(shù),我們發(fā)布了自己的視覺基礎(chǔ)大模型,叫MVT,最近有一個(gè)更新的版本,等一下再詳細(xì)介紹。

趙仲夏太棒了,格靈深瞳在大模型時(shí)代依然有自己的動(dòng)態(tài)、多模態(tài)的基礎(chǔ)模型誕生,這很難得,因?yàn)槎嗄B(tài)賽道已經(jīng)沒有太多玩家了。然后是勉諾,至少從我一個(gè)外行人角度思考,真格基金應(yīng)該是我最開始聽到的三家投資機(jī)構(gòu)之中的一家。能不能介紹一下真格基金在做什么?您個(gè)人會(huì)比較關(guān)注什么方向?最近有沒有在投一些好玩的項(xiàng)目?

陳勉諾:真格基金是一家早期風(fēng)險(xiǎn)投資機(jī)構(gòu),主要是面向天使階段投資,我們最開始由新東方的聯(lián)合創(chuàng)始人徐小平老師和王強(qiáng)老師創(chuàng)辦,一直關(guān)注前沿科技領(lǐng)域,在 AI 和機(jī)器人領(lǐng)域我們一直有超前的布局,像之前投的月之暗面、Manus、Genspark、Momenta、包括格靈深瞳等都是作為第一輪投資人進(jìn)行投資的創(chuàng)業(yè)項(xiàng)目,我們希望能夠在這個(gè)時(shí)代去推動(dòng)創(chuàng)業(yè)者在新的科技領(lǐng)域去做一些早期布局,能作為投資機(jī)構(gòu)給大家助力。


趙仲夏:對(duì),在產(chǎn)學(xué)研端的話投資是必不可少的。那我們就進(jìn)入到人形的話題,奚老師給我們介紹一下人形機(jī)器人這個(gè)品類?人形機(jī)器人到底是由什么組成的?它主要在做什么?

奚偉:好的,人形機(jī)器人一直是一個(gè)大家關(guān)注的熱點(diǎn),最近可能更熱一些。其實(shí)早在 70 年代,人形機(jī)器人就開始發(fā)展了,中間也發(fā)展了很多代。但我覺得比較有特色的就幾個(gè)。一個(gè)是 2000 年的時(shí)候,本田出的阿西莫機(jī)器人,2011年又做了一些改版。然后是波士頓動(dòng)力的Atlas,都是一個(gè)標(biāo)桿性的產(chǎn)品,但從我們歷史發(fā)展來看,之后到 2022 年,特斯拉發(fā)布了 Optimus 之后,把人形機(jī)器人帶到了一個(gè)新高度。

我覺得中國中間的過程主要是剛開始的時(shí)候,我們的機(jī)電系統(tǒng)沒有那么強(qiáng),學(xué)習(xí)能力、對(duì)機(jī)器人的控制能力也不夠,就導(dǎo)致了機(jī)器人發(fā)展一直在停滯不前。隨著如今強(qiáng)化學(xué)習(xí)、具身智能、大模型的一些突破性進(jìn)展,讓人形機(jī)器人得到了一個(gè)巨大發(fā)展。人形機(jī)器人,顧名思義就是像人一樣的機(jī)器人,它的復(fù)雜度在于,如果像人一樣去做,我們知道人大概身上有 200 多個(gè)骨頭,所以就有 200 多個(gè)關(guān)節(jié)。如果做這么復(fù)雜、精密的系統(tǒng)是非常困難的。

目前我們的人形機(jī)器人大概平均在 40 個(gè)左右的關(guān)節(jié),包括手的關(guān)節(jié),如果是全身的關(guān)節(jié)大概是在 30 個(gè)左右,控制這樣復(fù)雜結(jié)構(gòu)的系統(tǒng),如果用傳統(tǒng)的基于模型計(jì)算方法是不太容易實(shí)現(xiàn)的,但現(xiàn)在引入了強(qiáng)化學(xué)習(xí)之后,我們可以看到,不同的炫技視頻越來越多。核心原因是,因?yàn)閺?qiáng)化學(xué)習(xí)的出現(xiàn),使得將調(diào)試機(jī)器人變成了一個(gè)非常簡單的工作,另外就是仿真的一些能力。此外,因?yàn)橛蠥GI等技術(shù),機(jī)器人的操作能力方面也得到了一個(gè)巨大進(jìn)步。

當(dāng)然我覺得是離實(shí)際的應(yīng)用還有一段距離,但隨著技術(shù)的不斷發(fā)展, 5 到 10 年之內(nèi)應(yīng)該會(huì)有很大進(jìn)步。

從應(yīng)用角度來去看,現(xiàn)在人形機(jī)器人是有一定瓶頸的,大家還在探索階段。最近看到有幾個(gè)新的投資事件,比如上汽要引入 500 臺(tái)人形機(jī)器人,真正進(jìn)工廠開始做嘗試。所以我覺得通過應(yīng)用的牽引,會(huì)使人形機(jī)器人發(fā)展迭代速度越來越快,我也相信在未來3到5年,整個(gè)機(jī)器人產(chǎn)業(yè)的發(fā)展會(huì)有一個(gè)巨大進(jìn)步。

從產(chǎn)業(yè)鏈的角度來去看,人形機(jī)器人這幾年,尤其是核心部件產(chǎn)品,包括關(guān)節(jié)模組、傳感器也有巨大的進(jìn)步,所以成本會(huì)大幅下降,這些都是機(jī)器人大發(fā)展的重要原因。

趙仲夏: 好的,我們感覺就是人形機(jī)器人已經(jīng)發(fā)展很多年了,就像您剛剛聊到的,日本那邊有阿西莫,美國 20 年前就開始做波士頓動(dòng)力,也有一些出圈的工作,但從來沒有像最近的中國和美國一樣百花齊放。此外,以前都是一兩個(gè)出圈的機(jī)器人,這次感覺有上百個(gè)出圈的機(jī)器人了。

我也想問一下馮博士和勉諾,人形機(jī)器人發(fā)展這么多年,本次的像美的、宇樹、智元的人形機(jī)器人和早期的阿西莫和波士頓動(dòng)力相比,到底有什么區(qū)別?

馮子勇:從我的角度來說,剛才也講到,過去很多機(jī)器人的控制是以規(guī)則或者以硬編碼為主。現(xiàn)在我們有了強(qiáng)化學(xué)習(xí),有了VLA,可以把這個(gè)模型的訓(xùn)練融合到機(jī)器人里面。我們可以看到,隨著數(shù)據(jù)的積累,機(jī)器人的能力會(huì)不停地提升。比起我們手寫規(guī)則,它的上限會(huì)更高,效果也會(huì)更好。這是我從機(jī)器學(xué)習(xí)這個(gè)層面上去看到的。

趙仲夏: OK,然后勉諾是否能來表達(dá)一下,您覺得這次人形機(jī)器人和之前的有什么主要區(qū)別?

陳勉諾:我們也一直在關(guān)注具身領(lǐng)域的發(fā)展。我們看到波士頓動(dòng)力早年的時(shí)候,其實(shí)以液壓傳動(dòng)為主,今天的機(jī)器人大家都普遍用電動(dòng)傳動(dòng),這個(gè)是一個(gè)很大的本質(zhì)區(qū)別,因?yàn)橐簤簜鲃?dòng)到電動(dòng)傳動(dòng)能夠在里面加入到很多新的智能算法。第二個(gè)點(diǎn)是以前大家是基于rule-base的方式去做控制學(xué)來實(shí)現(xiàn)機(jī)器人的運(yùn)動(dòng),今天我們可以用 learning-base 的方式來去實(shí)現(xiàn)更多任務(wù)的泛發(fā)性,比如說可能在 manipulation 操作層面上帶來一些新的可能性。

在今天,中國本土的供應(yīng)鏈能力也得到了這個(gè)大幅的提升,所以在這一波的機(jī)器人浪潮里,中國的企業(yè)玩家越來越多,可以推導(dǎo)到當(dāng)年的電動(dòng)汽車領(lǐng)域。我們最開始電動(dòng)汽車領(lǐng)域整個(gè)產(chǎn)業(yè)鏈也是相對(duì)落后的,但在整個(gè)的電動(dòng)車領(lǐng)域發(fā)展之后,我們對(duì)于新的產(chǎn)業(yè)鏈有了巨大的技術(shù)提升。

趙仲夏: 您說得很對(duì),之前大部分波士頓動(dòng)力都是液壓形式的,這次我們看到的幾乎所有人機(jī)器人都是電機(jī)形式的,而中國在電機(jī)領(lǐng)域做了很多很多的技術(shù)儲(chǔ)備,供應(yīng)鏈的優(yōu)勢也很高。

下一個(gè)話題,我們在場館里也看到,人形機(jī)器人有兩類,全人形和輪式的人形機(jī)器人。奚老師,您覺得人形機(jī)器人一定要具備雙足嗎?

奚偉:從我的角度來講,它是以應(yīng)用來去驅(qū)動(dòng)的。雙足式的人形機(jī)器人它是一個(gè)通用機(jī)器人的載體,這也是行業(yè)的共識(shí),未來如果是通用的人形機(jī)器人,我覺得應(yīng)該是雙足這個(gè)形態(tài)的。但是對(duì)于我們很多工程,即智能制造場景,尤其是工廠的智能制造場景,其實(shí)用輪式的更方便。因?yàn)樵诠S里邊大部分的場內(nèi)環(huán)境相對(duì)比較標(biāo)準(zhǔn),用輪式機(jī)器人更容易。我們目前的機(jī)器人自動(dòng)化制造領(lǐng)域就是如此,尤其是和我們的 AGV 以及其他工業(yè)機(jī)器人進(jìn)行配合。

另一個(gè)是家庭場景,尤其中國的小戶型場景,用輪式機(jī)器人也是比較適合的。像掃地機(jī)器人,也是輪式的,所以家庭場景第一個(gè)是用輪式機(jī)器人,也會(huì)更安全。用雙足機(jī)器人還是要解決安全的問題,才能真正進(jìn)到家庭里。

而通用機(jī)器人,是先有機(jī)器人再去找應(yīng)用。但在美的面向智能制造過程中,很多時(shí)候是先有應(yīng)用,再去找對(duì)應(yīng)適合的產(chǎn)品。從這個(gè)角度來講,我們就更希望有了合適的釘子去找更適合的這個(gè)錘子。目前來講,我們有三類產(chǎn)品,一個(gè)叫類人形,即剛才您說的基于輪式的機(jī)器人加上雙臂的操作能力,第二個(gè)是全人形機(jī)器人,我們也在探索通用型人形機(jī)器人的使用方式,第三個(gè)是我們在提的一個(gè)概念,叫超人形機(jī)器人。

趙仲夏: 超人形機(jī)器人?

奚偉: 所謂超人形機(jī)器人,就是在工業(yè)應(yīng)用場景,比如像智能制造,有六大核心應(yīng)用,尤其工組裝線上核心的應(yīng)用,包括搬運(yùn)、上下料、打螺絲、端子插接、面板裝配、焊接等,每一個(gè)領(lǐng)域需要的技能等要求是比較高的,用傳統(tǒng)的通用機(jī)器人,雖然能適應(yīng)不同任務(wù),但速度不夠快,達(dá)不到目前人的操作效率,所以我們希望設(shè)計(jì)一種可以突破人的效率的形態(tài),更定制化的機(jī)器人,真正適應(yīng)到我們的工廠里邊去突破現(xiàn)在人形機(jī)器人的一些缺陷和不足。我覺得中間階段,一定會(huì)有這樣的一種機(jī)器人出現(xiàn)。

趙仲夏:明白,甚至最終的人形機(jī)器人也都是一個(gè)超人形的機(jī)器人,因?yàn)殡姍C(jī)的能量密度有可能會(huì)超過人類未來。

勉諾這塊我記得你說過,可以提供一些好玩的觀點(diǎn),我覺得當(dāng)前從落地角度看的話,輪式可能會(huì)比人形會(huì)更好落地一些。因?yàn)殡p足的關(guān)節(jié)比較復(fù)雜,運(yùn)動(dòng)起來或在跨樓梯等特殊地形,會(huì)出現(xiàn)一些危險(xiǎn)情況。這塊話您有什么見解?您覺得人形機(jī)器人需要雙足嗎?

陳勉諾: 這是一個(gè)非常有爭議的話題,我們作為投資人也會(huì)經(jīng)常去思考。我自己經(jīng)歷過很大的思想轉(zhuǎn)變,最開始我認(rèn)為輪式非常重要,因?yàn)槿祟惏l(fā)展了這么多年,通過技術(shù)推進(jìn),終于將雙腿這種行走效率低的方式進(jìn)行進(jìn)化,出現(xiàn)了自行車,又進(jìn)化了汽車出來,進(jìn)化了各種各樣的輪式產(chǎn)品,已經(jīng)說明輪式的效率比雙足更高。

結(jié)果也是如此,輪式被使用得要多得多,但一個(gè)很有意思的現(xiàn)象是特斯拉為代表的一些企業(yè),始終在堅(jiān)持要走人形的路線。我跟特斯拉 Optimus 的核心成員有過交流,他的觀點(diǎn)還挺打動(dòng)我的:我們自己做機(jī)器人動(dòng)力學(xué)都知道,如果輪式加上半身的雙手,很容易面臨一些彎曲身體的動(dòng)力學(xué)平衡問題。如果用雙足形態(tài),就能夠做出有效的支撐。而且能做彎曲身體形態(tài),隨時(shí)調(diào)整全身的動(dòng)態(tài)性,這是雙足人形的優(yōu)勢,是一個(gè)很有意思的觀點(diǎn)。

所以我的觀點(diǎn)已經(jīng)改變了,今天我認(rèn)為,人形雙足的形態(tài)是一個(gè)有必要的形態(tài)。


特斯拉二代人形機(jī)器人Optimus在上海2024世界人工智能大會(huì)首次亮相 視頻截圖

但它到底在場景中有多少實(shí)用性,取決于這個(gè)場景的動(dòng)態(tài)復(fù)雜性。如果在一個(gè)非常固定的場景,比如家庭,沒有樓梯,沒有動(dòng)態(tài)復(fù)雜性的場景下,我覺得輪式就 OK 了。但如果在像工廠等有一些跨越階梯的場景,或者室外一些復(fù)雜場景,甚至可能未來移民火星,在這些高復(fù)雜動(dòng)態(tài)性的場景下,我覺得雙足形態(tài)是非常必要的,這也是我自己從認(rèn)知的一端轉(zhuǎn)向另外一端的一個(gè)極大轉(zhuǎn)變。

趙仲夏: 你剛剛有點(diǎn)說服到我了,我在過去的時(shí)候從左端偏到了右端,剛剛聽你講完之后,我又感覺又從右端到了左端。這么看人形的話,在它可以同時(shí)保持一些平衡性,然后并且有些地形跨越能力,從某種意義上它更靈活一些。

陳勉諾: 在動(dòng)態(tài)性的調(diào)整上,我覺得雙足還是有巨大的優(yōu)勢的,但只是說今天我們無法去解決的問題是這里邊使用了太多的電機(jī)。我也跟特斯拉Optimus的團(tuán)隊(duì)去交流如何考量成本的問題,他們思考把電機(jī)換算成原材料,有多少用了稀有金屬,有多少可以用常規(guī)金屬,在這個(gè)金屬成本下,到底能把人形機(jī)器人成本控制到多低?也許有不同的視角,我覺得這是一個(gè)大家今天可能都值得思考的一個(gè)問題。

如果成本降到足夠低,有一天,這種動(dòng)態(tài)性的人機(jī)器人就能解決高價(jià)值的、復(fù)雜的、今天輪式解決不了的場景問題,那它就帶來了巨大的場景價(jià)值。

趙仲夏:我記得騰訊出過一款輪足的機(jī)器人,它是一個(gè)這樣的形態(tài)(雙足交叉),用來攙扶老人,這種形態(tài)也許會(huì)更穩(wěn)定。我看您之前有打過 RoboMaster,RoboMaster 輪足也是一個(gè)非常好玩的品類。然后您在RoboMaster經(jīng)歷里面怎么看待輪足這件事情呢?

陳勉諾:我覺得有一個(gè)形態(tài)大家可以去關(guān)注一下,智元前段時(shí)間發(fā)布了一個(gè)將輪式跟雙足進(jìn)行有機(jī)結(jié)合的,可以將輪式進(jìn)行折疊,變成一個(gè)雙足的形態(tài)。但這里邊有一些關(guān)鍵的技術(shù)問題,比如從輪式變成雙足的過程中,對(duì)于中間關(guān)節(jié)的磨損是非常嚴(yán)重的。在這種關(guān)節(jié)的磨損上,其實(shí)現(xiàn)在有一些大的技術(shù)難題以及它的工程穩(wěn)定性難題解決不了,但這種形態(tài)本質(zhì)上解決了動(dòng)力學(xué)動(dòng)態(tài)穩(wěn)定性和在平坦地面上運(yùn)行效率兩者平衡的問題。我們在大量的直行道路上,其實(shí)輪式由于摩擦系數(shù)的原因,它的效率是最高的。所以我覺得這是一個(gè)今天值得關(guān)注的形態(tài)。而之前定義的輪足形態(tài)還是有一定的挑戰(zhàn),比如在動(dòng)態(tài)穩(wěn)定性上,尤其是跨越樓梯之類場景的動(dòng)態(tài)穩(wěn)定上,因?yàn)榈紫率禽喪?,還是無法做到完全的平衡。但智元做的那一款機(jī)器人是有一定啟發(fā)性的,可以將輪式變成一個(gè)真的雙足步態(tài)行走的狀態(tài)。

趙仲夏: OK。輪足可以跳躍嗎?我看到你們早期的比賽里面輪足很多是用來跳躍的。

陳勉諾:跳躍是一個(gè)很重要的技術(shù)問題,當(dāng)你的環(huán)境變成動(dòng)態(tài)復(fù)雜的時(shí)候,控制會(huì)變得非常難做。所以在 RoboMaster里經(jīng)常會(huì)設(shè)置一些動(dòng)態(tài)復(fù)雜的問題。這些問題的解決,對(duì)于整個(gè)機(jī)器人控制學(xué),以及我們今天看到有 learning-base 的方式來去做機(jī)器人的這個(gè)系統(tǒng)來說,都會(huì)有巨大幫助。

趙仲夏: 這很酷。馮老師,我聽說您最近有在看靈巧手的項(xiàng)目,您怎么看待靈巧手這件事情?您覺得這種通用的手的末端,它后面的演進(jìn)方向是什么樣的?是通用末端好還是專有末端好?

馮子勇:這個(gè)要分場景的,從兩個(gè)維度上去看,一個(gè)是在數(shù)據(jù)采集維度,手的末端比較好的,就是我直接能跟人的手很好地對(duì)應(yīng)上,這時(shí)候人采集數(shù)據(jù)就很容易,也能把數(shù)據(jù)比較容易地投影到機(jī)器靈巧手上,這就是一個(gè)很好的數(shù)據(jù),而且這個(gè)數(shù)據(jù)源非常多。但在有的場景,它的效率不夠高,像剛才奚老師說的打螺絲之類,可能用一個(gè)專用器具會(huì)更好,這種情況下,如果我們的場景還能采到更多的數(shù)據(jù),用專用末端的優(yōu)勢還會(huì)更大。

另外,我自己覺得,靈巧手這個(gè)東西,對(duì)于“像人”是非常大的執(zhí)念,即人形機(jī)器人就應(yīng)該像人一樣,我覺得這在人的思維里面是非常重的。

趙仲夏:對(duì),您之前跟我聊過人形人工智能是一個(gè)跟信仰有關(guān)的故事,我發(fā)現(xiàn)人形機(jī)器人某種意義上也是一個(gè)跟信仰有關(guān)的。

奚老師,美的的場景中也有各式各樣需要各種末端的,您是如何看待現(xiàn)在的靈巧手?在您這邊所有場景之間落地,您覺得靈巧手會(huì)是一個(gè)更好的未來嗎?

奚偉:我覺得通用人形機(jī)器人一定是要靈巧手的,尤其是五指靈巧手。因?yàn)槲覀円呀?jīng)習(xí)慣了和像人一樣的載體進(jìn)行交互了,而且我認(rèn)為可能將來人形機(jī)器人有一個(gè)階段會(huì)像阿凡達(dá)這樣,它會(huì)變成一個(gè)人的另外一個(gè)載體,如果有技術(shù)的話,可以把我們的意識(shí)去直接加載到機(jī)器人上來,進(jìn)行遠(yuǎn)程的操控,這個(gè)可能再有一階段會(huì)形成。它(人形機(jī)器人)不一定必須要完全自主,或許是變成我們另外一個(gè)替身,要在另外一個(gè)空間里你來進(jìn)行操作。如果是這樣的話,就需要用人的一個(gè)載體,讓我們所有的動(dòng)作在另外一個(gè)載體上進(jìn)行完全一對(duì)一的復(fù)刻,從這個(gè)角度來講,是需要有這樣的五指靈巧手的。

但我們現(xiàn)在很多的從應(yīng)用角度來講,我剛才也說了,大部分場景并不需要這么復(fù)雜的結(jié)構(gòu),而且復(fù)雜機(jī)構(gòu)會(huì)帶來很多的不穩(wěn)定性,尤其是行業(yè)還在發(fā)展階段,我們要迅速落地的話,必須要解決它的可靠性、穩(wěn)定性、待機(jī)時(shí)間、續(xù)航時(shí)間,很多現(xiàn)實(shí)問題想解決,所以我覺得中間一定有很長的發(fā)展過程。

趙仲夏:了解。Mario(陳勉諾),你最近有看什么靈巧手的項(xiàng)目嗎?我看樓上有好多家靈巧手公司,并且最近也在陸續(xù)出一些更高關(guān)節(jié)度、更多自由度的更高維度的手。您是如何看待靈巧手這個(gè)品類的?你本身投資的偏好里面會(huì)重點(diǎn)關(guān)注靈巧手這個(gè)方向嗎?


資料圖:樂聚“夸父”人形機(jī)器人

陳勉諾:靈巧手也是一個(gè)爭議比較多的話題,大家普遍認(rèn)為,今天再怎么便宜的手都得幾萬塊錢,因?yàn)樗旧斫Y(jié)構(gòu)的復(fù)雜性在這里,靈巧手成本無法降到一個(gè)非常低的狀態(tài)。我跟很多業(yè)界和學(xué)界的朋友探討過,我們生活中和工作中到底有多少是真的需要五指狀態(tài)來解決?其實(shí)大量的場景兩指夾爪形態(tài)就能完成,大約70%吧。所以今天兩指夾具在所有的具身智能里邊是大家演示 Demo 和場景實(shí)際使用最多的形態(tài),因?yàn)?70% 的任務(wù)能夠在這個(gè)場景下得到有效解決,在這場景里面到底有多少任務(wù)可能是兩指夾解決不了的?比如說當(dāng)你拿握起水(瓶)的時(shí)候,其實(shí)兩指也能夠握取,但這個(gè)握的過程中是點(diǎn)接觸,點(diǎn)接觸就意味著摩擦系數(shù)比較高,所以會(huì)有一些力的精準(zhǔn)掌控難題。但是如果你是握的方式,就會(huì)變得比較的容易。再比如擰轉(zhuǎn)的過程,可能五指會(huì)更加的靈活,所以我覺得在一些細(xì)分的場景下五指是非常有必要的。但五指確實(shí)要去解決一個(gè)問題,就是在場景的實(shí)際使用過程中,如何考慮場景的價(jià)值和成本之間的 trade off。

在我們的視角下,也認(rèn)為五指靈巧手是一個(gè)非常必要的存在,但成本如果沒有下降到一定程度,可能在場景應(yīng)用過程中會(huì)有一定挑戰(zhàn),但我們作為一個(gè)早期的風(fēng)險(xiǎn)投資機(jī)構(gòu),在無論是對(duì)于這種五指靈巧手,還是對(duì)于人形,對(duì)于整個(gè)具身,我們都是非常積極地去看,積極地去布局,我們認(rèn)為這里有很多的機(jī)會(huì)??赡苡幸惶煳覀儼l(fā)現(xiàn) pick and place 能解決的任務(wù)成本已經(jīng)非常低了,剩下那些高復(fù)雜任務(wù)的場景,它的價(jià)值就必然會(huì)抬升起來。之后它的價(jià)值和成本之間達(dá)到一定平衡的時(shí)候,這些五指靈巧手就能得到場景的應(yīng)用。

趙仲夏: 這個(gè)給了我們一個(gè)更好地去看待行業(yè)的思路。最近我們發(fā)現(xiàn)夾爪有的越做越大,有的越做越小,如果要做一些精細(xì)的情況就要點(diǎn)接觸,如果要做一些更好的方便抓握的話會(huì)做得更大。這個(gè)好像就包含了您剛剛說的為什么人類是手,簡單地抓取任務(wù),人類有的時(shí)候也會(huì)不一樣。

陳勉諾:是的,有個(gè)視角可以給大家提供參考,從數(shù)據(jù)采集方面,如果你是五指形態(tài)也許更容易,今天有很多路線之爭,比如模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí),有一條路線是通過大量視頻的數(shù)據(jù)學(xué)習(xí)來調(diào)整機(jī)器人整個(gè)形態(tài),那顯然是人的數(shù)據(jù)最容易采集。所以我們認(rèn)為這里有大量的機(jī)會(huì)空間,你可以更容易采集到數(shù)據(jù)。而兩指夾具的數(shù)據(jù)采集,顯然是你需要真的在實(shí)際場景去使用,采集數(shù)據(jù)的成本會(huì)比較高,所以我們也認(rèn)為五指可能在這個(gè)層面上更容易實(shí)現(xiàn)在場景中的一些任務(wù)的泛化性。這也是一個(gè)視角。但還是回歸到本質(zhì)的問題,就是成本跟場景價(jià)值之間的tradeoff 問題。

趙仲夏: 了解。好的,我們剛剛聊了很多跟人形機(jī)器人有關(guān)的爭議話題,要不來轉(zhuǎn)到另一個(gè)好玩的話題,就是人工智能和具身智能,想聽聽大家對(duì)具身智能這個(gè)概念的定義和看法,是不是像宇數(shù)那樣翻跟頭、跳舞就應(yīng)該算是具身智能?還是說具身智能有另外一些更廣更大的概念?奚老師,要不您先聊一聊。

奚偉: 好的,具身智能我接觸比較早, 2016 年在 Berkeley 訪問 Peter 的時(shí)候,他就提出具身智能的概念,當(dāng)時(shí)他們主要提出的是傳統(tǒng)的我們做機(jī)器人控制分三部分,一部分是perception,一部分是planning,還有一部分control。所有東西要通過代碼來去實(shí)現(xiàn),先做物體的識(shí)別定位,再做規(guī)劃,最后再做執(zhí)行。其實(shí)是,能不能把這個(gè)東西壓縮起來,直接從圖像到動(dòng)作一步完成。他提出這個(gè)東西,叫具身智能,因?yàn)楫?dāng)時(shí)我們對(duì)這個(gè)概念還是相對(duì)比較陌生,在 2016 年的時(shí)候就做機(jī)器人來講,一肯定要做這些,把它分解開,就是 divide and conquer,但是我覺得從現(xiàn)在發(fā)展來看,就像宇數(shù)做的強(qiáng)化學(xué)習(xí),可以認(rèn)為是一種具身智能,它的輸入傳感器是通過力傳感器,通過電流,也是通過傳感器形成最后的一個(gè)具身動(dòng)作,但它這動(dòng)作是通過仿真來實(shí)現(xiàn)的。

我們更多更廣義上的一些具身智能,是能夠從現(xiàn)實(shí)的環(huán)境中通過視覺,通過多模態(tài)的傳感器獲取到的經(jīng)驗(yàn),能夠?qū)崿F(xiàn)更高意義上的這個(gè)決策和推理,最后能夠達(dá)到通用的操作的能力。所以從這個(gè)角度來講,我覺得目前的技能學(xué)習(xí),或者說像宇數(shù)這種跳舞動(dòng)作是屬于相對(duì)初級(jí)的階段,它的目標(biāo)比較明確,但通用的具身智能,它的目標(biāo)是比較復(fù)雜的,這個(gè)能力的具身智能還在一個(gè)需要發(fā)展的階段。

趙仲夏: OK,了解,感謝奚老師對(duì)具身智能概念的分享,讓我想到了之前有一個(gè)概念叫做視覺私服。從控制學(xué)角度去討論的話,有點(diǎn)回到了當(dāng)時(shí)大家講通過視覺去牽引一個(gè)任務(wù)完成,然后來適應(yīng)一些不同的泛化。

馮老師,您這邊從人工智能,然后 AGI 到大模型這個(gè)角度,研究得會(huì)比較深刻一些,您是如何看待具身智能這個(gè)概念的?能不能幫我們從人工智能角度聊一聊。

馮子勇:因?yàn)槲覀冊瓉碜鲆曈X,沒有機(jī)器人就相當(dāng)于我只有感知,到最后我的決策就是一個(gè),譬如原來是輸出一些 label 框或什么東西,現(xiàn)在可以輸出語言,但是最終執(zhí)行還是給到人,就是我只能說相當(dāng)于他輔助出了一些信息,然后人再去做操作。整個(gè)閉環(huán)是沒辦法進(jìn)行的。在我看來,具身智能是希望這個(gè)閉環(huán)能在整個(gè)模型,或者說整個(gè)智能模型里面自己去產(chǎn)生閉環(huán),我的這個(gè)傳感器進(jìn)來,我自己產(chǎn)生判斷,具體產(chǎn)生的action,最后 action 改變的世界又重新回來了,這個(gè)閉環(huán)是完全的。

我認(rèn)為這就是具身智能非常重要的一個(gè)概念,需要把整個(gè)東西閉環(huán),并且是跟物理世界去交互,隨之就是我們可以在物理世界中隨著這種閉環(huán),不停地去提升我的智能能力,而不是靠采集數(shù)據(jù)標(biāo)注員,智能來自于標(biāo)注員,而不是來自于這個(gè)智能體本身。

趙仲夏: 多少人工就有多少智能。

馮子勇:對(duì),這個(gè)其實(shí)不太符合大家對(duì)智能的需求,所以我覺得具身智能在這個(gè)層面上應(yīng)該是,它會(huì)自主計(jì)劃,隨著他跟物理世界的接觸不停地去學(xué)習(xí),這樣的一個(gè)概念。

趙仲夏:了解。說到這個(gè),我有些概念想請(qǐng)教一下馮老師,我們常聽的LLM、VLM、 VLA 這些都是什么樣的概念?能不能稍微給我們解釋一下?

馮子勇:LLM 大家可能也比較熟悉了,這個(gè)現(xiàn)場大家都看到很多大語言模型,當(dāng)然在我看來,它雖然叫做大語言模型,但不只是語言模型,其實(shí)是邏輯模型,因?yàn)檎Z言是有邏輯的,我不會(huì)隨便說一些奇奇怪怪的話,所以你也可以認(rèn)為它是大邏輯模型。

很多時(shí)候現(xiàn)在只有語言的輸入,但接上了vision,就像我剛才講了我們也在做 vision 相關(guān)的工作,我們在大概2021 年就開始去摸索大視覺模型,當(dāng)時(shí)不叫大視覺模型,因?yàn)楫?dāng)時(shí)沒有這個(gè)概念,叫視覺基礎(chǔ)或者預(yù)訓(xùn)練模型。

這就是我們現(xiàn)在做的,我們把它叫做MVT,已經(jīng)到了 1.5 這個(gè)階段,它能夠把視覺傳感器進(jìn)來的圖像變化成視覺的token,這個(gè) token 就能進(jìn)到這個(gè)語言模型里面去。使得這個(gè)語言模型能夠作為一種視覺外語去理解它,這個(gè)邏輯至少在視覺跟語言上,或者視覺跟邏輯上融合在一起了,這就是大家能看到的 VLM 。

隨著機(jī)器人的發(fā)展,我不只想出一個(gè)文本,不想只出一句話,我還要有動(dòng)作,我還要有操作,我還要改變世界,那么就是 action 也出來了。

可能我們看到有很多技術(shù)路線,從一個(gè) hidden state,一個(gè)隱空間,就剛才說的某一坨邏輯,然后 decode 出來怎么去操作,這里面有很多專門的技術(shù),譬如說DP,把這樣的一些技術(shù)操作去做,在我看來可能導(dǎo)航也是一種操作,再把這三者有機(jī)地聯(lián)系在一起,那么它就變成了一個(gè)VLA。

趙仲夏: OK,太棒了。感覺好像跟我們講了一下大模型下發(fā)展的一個(gè)歷史。Mario 你是如何看待具身智能這個(gè)概念的?這個(gè)概念真的非?;穑呛孟翊蠹覍?duì)它的定義也沒有完全特別清晰。

陳勉諾:我自己原來就是做機(jī)器人,在我的認(rèn)知里邊,它其實(shí)只是說把機(jī)器人做了延伸,因?yàn)榇竽P统鰜碇螅悄苡辛诉M(jìn)一步的提升,所以原來可能大家對(duì)機(jī)器人還是局限在傳統(tǒng)的控制學(xué)范疇,然后今天終于加上了 AI 范疇。所以提出一個(gè)新的概念,讓大家可以有更多的研究話題。

第二點(diǎn)是,對(duì)于具身智能概念的理解,主要因?yàn)樗?EmbodiedAI,其實(shí)是在于本身具備物理實(shí)體、然后能與環(huán)境做有效的交互,這可能區(qū)別于LLM范疇或者VLM范疇更偏數(shù)字世界,EmbodiedAI一定要有跟物理世界進(jìn)行交互,以及一個(gè)物理的實(shí)體。

從概念上去理解的話,廣義上不單單只局限于在機(jī)器人領(lǐng)域,只不過機(jī)器人是大家最fancy也是最容易想到的一個(gè)主要形態(tài),這也是大家普遍提到具身智能就理解成機(jī)器人的原因。我的理解在廣義上來說,它只要跟物理世界進(jìn)行交互,然后有具備一定的物理實(shí)體,可能具備一些這個(gè)物理感知,其實(shí)都可以被稱之為 EmbodiedAI具身智能。但在整個(gè)與物理世界交互的形態(tài)里面,最重要的還是機(jī)器人的形態(tài),因?yàn)闄C(jī)器人形態(tài)才能夠跟物理進(jìn)行有效的交互。有效交互指的是一定要跟物理世界有接觸,發(fā)生物理反應(yīng)才能夠叫有效交互。所以我們認(rèn)為 EmbodiedAI這個(gè)概念是機(jī)器人概念的一個(gè)延伸,但不限于機(jī)器人概念。


趙仲夏: 對(duì),我感覺每次聽勉諾講話都有點(diǎn)頓悟的感覺。馮老師,我們這邊關(guān)注到,最近有一個(gè)新的概念叫 world model世界模型,大家認(rèn)為也會(huì)在具身智能方向上產(chǎn)生一些比較好的潛力。您是怎么看這件事情的?我聽說您最近在做一些視頻模型,我們怎么理解視頻模型和 world model 呢?它們對(duì)具身智能是否有幫助?

馮子勇:OK,首先世界模型我認(rèn)為它是希望有一些視覺輸入之后,預(yù)測這個(gè)世界是怎么發(fā)展的,相當(dāng)于自己內(nèi)部會(huì)有一個(gè)預(yù)測模型,但這個(gè)模型有一些是顯示的,要生成下一幀或者下面一段時(shí)間的圖片或視頻。也有些就覺得,不需要顯示,拿到隱藏空間或者表達(dá)就 OK ,并不一定到 Pixel 像素層面去還原它。從我的角度更偏向于后者一點(diǎn),只要大概知道接下來是怎么做的就 OK 了。

世界模型可以幫助我們?nèi)ヌ嵘齎LA,因?yàn)楝F(xiàn)在大家說的 VLA 可能更狹義一點(diǎn),就是直接到操作,但是那具體怎么到操作可能中間會(huì)有,但都是直接做。

當(dāng)然你可以用COT,就說我做一些thinking,reasoning 這樣的序列來到達(dá)那個(gè)操作,但最后壓縮起來,還是應(yīng)該在這個(gè)模型的 latent 的 space 里面,是有一些預(yù)測的,但這個(gè)預(yù)測究竟是什么東西,我覺得學(xué)術(shù)界也在探討。

但我覺得世界模型還很重要,它不一定是顯示的表達(dá)出來,視頻模型是這樣的,就是我們自己,因?yàn)閯偛乓舱f了,我們很多研究都是基于圖像,但不只基于圖像,而是原來基于視頻的技術(shù)發(fā)展有點(diǎn)落后。圖像一是因?yàn)閿?shù)據(jù)多,另外容易訓(xùn),但視頻不太好去搜集標(biāo)注,從這個(gè)層面上訓(xùn)練的復(fù)雜度跟對(duì)算力的需求也非常大。

我們現(xiàn)在去看這個(gè)視頻是因?yàn)椋覀冎啦还苁钦嬲厝シ治鲞@個(gè)世界,還是機(jī)器人,它對(duì)于這個(gè)連續(xù)動(dòng)作還是非常有需求的,而不是我就看一張一張的圖,當(dāng)然現(xiàn)在很多 VLM 也好, VLA 都是我先把這個(gè)視頻流切成一張一張的圖,然后送到這個(gè)模型里面,這個(gè)相當(dāng)于我可以讓這個(gè)大語言模型它自己去串這個(gè)邏輯。

在我們自己做視覺的這個(gè)角度來看,很多視頻流在前端就已經(jīng)有一點(diǎn)被壓縮掉了,特別是我們在視覺領(lǐng)域上,它是冗余的,特別是我們大部分視覺元素是不變的,視頻是可以做得更高效、更緊致,而且去表達(dá)我們真正關(guān)注的東西,像人的 forbia 一樣,他只關(guān)注到動(dòng)的東西,我們做機(jī)器人很多時(shí)候關(guān)注的也是這個(gè)狀態(tài),世界狀態(tài)變化,別的可能不太關(guān)注。我覺得在這里面視頻的模型應(yīng)該是有可以做的空間,而且最后它肯定是也能服務(wù)到機(jī)器人上。因?yàn)槲覀兪且粋€(gè)動(dòng)態(tài)的場景,它不是靜態(tài)的。如果我們視頻能做得更好,那我相信機(jī)器人對(duì)場景的理解,對(duì)最終自己動(dòng)作的判斷也能做得更好。

趙仲夏: 了解。奚老師,您從應(yīng)用端角度來看的話,會(huì)去關(guān)注 world model 或者是視頻模態(tài)的進(jìn)展嗎?您覺得它對(duì)您這邊實(shí)際的人形機(jī)器人或者是區(qū)分智能落地會(huì)有很大幫助嗎?

奚偉: 我覺得這是對(duì)于復(fù)雜場景肯定是有幫助的。像勉諾剛才講的,對(duì)于通用的人形機(jī)器人,是要進(jìn)和世界進(jìn)行反復(fù)交互的,我們也在探索,比如在家庭場景四大件就是最典型的應(yīng)用,收納、清潔、洗衣、做飯,這四件事情看似簡單,但非常復(fù)雜,比我們剛才說的在工業(yè)場景應(yīng)用復(fù)雜得多。因?yàn)楣I(yè)場景已經(jīng)高度細(xì)分了,它每一個(gè)內(nèi)容是一個(gè)一個(gè)動(dòng)作,只要把它做得精準(zhǔn)就可以了,它就有產(chǎn)業(yè)價(jià)值。但是我們希望這些機(jī)器人真正像人一樣能夠在家庭里邊給我們應(yīng)用。


所以我覺得 world model 就是物理世界模型,它是建立物理之間相對(duì)關(guān)系一個(gè)更好的表述,因?yàn)槲覀兪侨狈Ρ磉_(dá)的,因?yàn)槿狈Ρ磉_(dá)才沒有推理的手段,才沒有范式。所以我覺得進(jìn)入到家庭來講, world model 是一個(gè)比較重要的基礎(chǔ)。

趙仲夏: 謝謝。勉諾,你最近有在看 world model 一些相關(guān)的公司嗎?你如果看 world model 的。

陳勉諾:我們也一直在關(guān)注學(xué)術(shù)前沿進(jìn)展。 world model 到具身智能之間的衍生其實(shí)是在一些主流具身智能學(xué)派里面的一個(gè)分支路線。我們有交流過一些學(xué)者在順著 world model 方式來去做 Robotics 領(lǐng)域,我們也認(rèn)為這條路線是非常行之有效的。我有跟 MIT 和 Physical Intelligence 等里面同學(xué)去交流,這條路線是可以行得通的,因?yàn)?worldmodel本質(zhì)上是對(duì)物理世界的數(shù)字重建,如果可以將物理世界進(jìn)行重建得非常完善的情況下,它就能夠很有效地將機(jī)器人也能在數(shù)字世界重建,就能夠有效地 train 機(jī)器人的model。但這里邊有一個(gè)很大的問題,因?yàn)?world model 需要將物理世界重建,所以需要采集大量的數(shù)據(jù),它的成本會(huì)變得非常高,要把物理世界完全數(shù)字實(shí)現(xiàn)難度是非常高的。在這條路線上

如果問 world model 對(duì)具身智能發(fā)展是不是有幫助?絕對(duì)是有幫助的,但能不能構(gòu)建完全行之有效的 world model 這個(gè)事情,成本是非常非常昂貴的,而且很難去完全實(shí)現(xiàn)。所以在我的認(rèn)知里面,一直也在關(guān)注 world model 實(shí)際進(jìn)展。但從 world model 到具身的實(shí)際使用過程,我覺得是一個(gè)非常長期的過程,而且可能world model 本身構(gòu)建的過程也非常困難,我們當(dāng)然希望有一天能夠把 world model 重建出來,那這樣的話我們就能在數(shù)字世界映射一個(gè)真實(shí)的物理世界,那這個(gè)時(shí)候很多物理世界的客觀物理規(guī)律甚至可能新的科研發(fā)現(xiàn)都能在這個(gè)數(shù)字世界進(jìn)行重建。就不單單只是機(jī)器人領(lǐng)域了,整個(gè)科研領(lǐng)域,整個(gè)人類的進(jìn)步都能夠得到更快的一個(gè)進(jìn)展。

趙仲夏: 太棒了,之前有聽我的老師講,傳統(tǒng)的大源模型是讀萬卷書,那 world model 或者說具身有點(diǎn)像是行萬里路。這樣的話最終會(huì)發(fā)生一些概念,完成一些對(duì)現(xiàn)實(shí)上的一個(gè)對(duì)齊,一旦對(duì)齊之后將會(huì)誕生一個(gè)更棒的超級(jí)智能。

說完 world model,我們想聊一下強(qiáng)化學(xué)習(xí)。奚老師覺得強(qiáng)化學(xué)習(xí)在這次具身智能中扮演一個(gè)什么樣的角色?您覺得強(qiáng)化學(xué)習(xí)要如何使用?

奚偉:我是這么想的,大語言模型是一個(gè)概率模型,它生成內(nèi)容,但是并不保證它的準(zhǔn)確性。強(qiáng)化學(xué)習(xí)是一個(gè)優(yōu)化模型,它去把結(jié)果根據(jù)你的需求進(jìn)行優(yōu)化,比如跳舞,在訓(xùn)練過程中都要根據(jù)你的目標(biāo)來進(jìn)行優(yōu)化,所以強(qiáng)化學(xué)習(xí)是一個(gè)必要的工具。基本上現(xiàn)在所有的應(yīng)用都會(huì)用到強(qiáng)化學(xué)習(xí),但它不是要取代大語言模型,這是相輔相成的,它是大語言模型的一個(gè) building block。我認(rèn)為,強(qiáng)化學(xué)習(xí)是必需的。

趙仲夏: 這個(gè)非常確定,強(qiáng)化學(xué)習(xí)是必需的,我很喜歡這個(gè)結(jié)論。馮博您如何看待強(qiáng)化學(xué)習(xí)?

馮子勇:首先從強(qiáng)化學(xué)習(xí)技術(shù)發(fā)展的歷史來先看一下,強(qiáng)化學(xué)習(xí)并不是現(xiàn)在才有,過去已經(jīng)一直在,只是過去大家發(fā)現(xiàn)強(qiáng)化時(shí)學(xué)習(xí),像這個(gè)阿巴狗這樣的,它只能存在于仿真環(huán)境里,譬如說像游戲。

過去我認(rèn)為叫小模型,就是它只能上 RL 的時(shí)候,需要大量的數(shù)據(jù)去train,就像我們以前做小模型就是我要標(biāo)很多很多的數(shù)據(jù),只訓(xùn)那一個(gè)任務(wù),在這個(gè)上面也是一樣的,當(dāng)有一個(gè)很好的預(yù)訓(xùn)練,相當(dāng)于我的知識(shí),我的邏輯,我的所有東西都已經(jīng)學(xué)得差不多了,最后才來激活他,來激發(fā)他新的這些,或者說在原來這些潛力下面去組織一些新的能力。這是這兩個(gè)的范式一點(diǎn)點(diǎn)不一樣。

RL 還是很重要,但 RL 里面還有一個(gè)最重要reward,就是做過 RL 的同事或者說研究人員都知道 reward 非常難調(diào)。那在具身里面 reward 怎么辦?我們看到有的公司比如Dana是設(shè)計(jì)了一個(gè)不錯(cuò)的reward,那我覺得在這個(gè)方面應(yīng)該也是非常有搞頭,就是大家應(yīng)該多去想想 reward 怎么搞。

趙仲夏: 說到 Daya ,勉諾,是你們投的公司對(duì)不對(duì)???要不要給我們介紹一下 Dana 在做什么?或者您如何看待強(qiáng)化學(xué)習(xí)的使用。

陳勉諾:Dyna Robotics也是朝著具身智能的方面去做努力,在不斷地收集數(shù)據(jù),嘗試在真實(shí)的場景中構(gòu)建能夠真的走進(jìn)到這個(gè)工業(yè)和生活場景中的機(jī)器人的這樣一家公司。

我說一下對(duì)強(qiáng)化學(xué)習(xí)的理解。因?yàn)槲以瓉硎亲隹刂茖W(xué)背景出身,對(duì)于可能 learning 這個(gè)方向沒有特別強(qiáng)的概念。后來學(xué)到了一個(gè)很重要的概念理解,模仿學(xué)習(xí)可以理解成就是那些只會(huì)做習(xí)題集的普通學(xué)生,然后強(qiáng)化學(xué)習(xí)是那些做了習(xí)題集之后他能夠去解更難問題的優(yōu)秀學(xué)生。所以其實(shí)強(qiáng)化學(xué)習(xí)在機(jī)器人領(lǐng)域我覺得是一個(gè)必然很重要的發(fā)展路徑。

比如 DeepSeek R1 那篇文章發(fā)出來之后,大家就看到如果你有比較大的base model ,在上面加上 RL 之后,那它其實(shí)就能夠帶來很強(qiáng)的智能的泛化性,這個(gè)理解也很簡單,就像普通一個(gè)班級(jí),同學(xué)們都做了很不錯(cuò)的習(xí)題練習(xí)之后,里邊有一些極度聰明的同學(xué),你給他一個(gè) reward 獎(jiǎng)勵(lì),給他一道更難的題這樣一個(gè)目標(biāo)函數(shù),然后他就能在這里邊去形成自己新的解題思路。

所以我們認(rèn)為在機(jī)器人領(lǐng)域也是一樣的,只不過可能今天在機(jī)器人領(lǐng)域,或者在具身智能領(lǐng)域,現(xiàn)在還沒有很好的 base model,所以大家普遍在于數(shù)據(jù)采集,然后去建立 base model 的狀態(tài)。所以RL重要嗎?我覺得未來RL非常非常重要。

還有一個(gè)路徑大家也可以去看,原來我們看四足狗的這種形態(tài),在我創(chuàng)業(yè)的時(shí)候,那個(gè)時(shí)候在 2018 年左右,四足狗整個(gè)步態(tài)穩(wěn)定性其實(shí)是比較差的。但今天四足狗整個(gè)的步態(tài)非常像狗,這里面其實(shí)就是采集了大量的狗的真實(shí)數(shù)據(jù),之前像騰訊的RoboticsX實(shí)驗(yàn)室有一段時(shí)間專門采集狗的運(yùn)動(dòng)動(dòng)態(tài)數(shù)據(jù),動(dòng)捕做了很多動(dòng)態(tài)數(shù)據(jù),把動(dòng)捕的數(shù)據(jù)放到機(jī)器人里面去 train 它的RL model,然后讓它可以去實(shí)現(xiàn)。

只不過locomotion這種運(yùn)動(dòng)學(xué)更容易實(shí)現(xiàn),它不需要非常高精度的控制,所以我們今天看到 RL+locomotion其實(shí)在場景中更容易實(shí)現(xiàn)。可能下一步具身智能要解決問題就是RL+manipulation操作層面上。但操作是一個(gè)更復(fù)雜任務(wù),你需要去定義這個(gè)任務(wù)到底是什么,它具備一定的復(fù)雜性,以及你要解決有一個(gè)能夠在數(shù)字世界里邊去建立的仿真環(huán)境,因?yàn)镽L本身是需要有真實(shí)數(shù)據(jù)在仿真環(huán)境下跑最終得到一個(gè)有效的模型,然后再把模型返回到真機(jī)的場景下去實(shí)現(xiàn)結(jié)果的這樣一個(gè)過程。這可能是今天我們要面臨的一個(gè)挑戰(zhàn),也是今天所有的具身智能的公司大家在去解決的問題。大家可能普遍去構(gòu)建仿真環(huán)境,去采集真機(jī)數(shù)據(jù),構(gòu)建仿真數(shù)據(jù),然后仿真數(shù)據(jù)去Train一個(gè)還不錯(cuò)的 base model,把真實(shí)數(shù)據(jù)去放進(jìn)來,然后定一個(gè)有效的任務(wù)目標(biāo)函數(shù),再讓它能夠在真實(shí)環(huán)境里面去解決。

另外一個(gè)我也挺認(rèn)同今天具身智能是一個(gè)更復(fù)雜的場景任務(wù),因?yàn)樗锢硎澜邕M(jìn)行交互,所以它的目標(biāo)函數(shù)更難去定義。我們都知道RL里邊最重要的是reward function的建立,其實(shí)構(gòu)建Reward Function是很難的一件事情。比如說我們今天看到大語言模型RL在什么樣的場景下是最有效?它在 coding 和math層面上很容易實(shí)現(xiàn),因?yàn)檫@個(gè)目標(biāo)函數(shù)非常容易定義。但跟物理世界的任務(wù)怎么樣去有效定義這是一個(gè)今天還沒有被完全定論的問題,也是我經(jīng)常跟具身智能行業(yè)的學(xué)者和業(yè)界人士探討的問題。什么樣的任務(wù)體系是今天能夠被定義為一個(gè)Benchmark,我們能夠讓把它作為一個(gè)很重要的任務(wù)評(píng)測集,能讓具身智能系統(tǒng)在里邊去不斷地追求它的目標(biāo)極致。

今天可能大家有一些概念,比如疊衣服任務(wù)。今天具身智能公司一個(gè)最重要的 demo 就是疊衣服,為什么疊衣服會(huì)成為一個(gè)重要的案例?因?yàn)樗袔讉€(gè)層面,第一個(gè)它有翻折的復(fù)雜性,第二個(gè)它是跟柔性物體接觸,這都是是重要的Benchmark點(diǎn),但今天坦白來說還沒有一個(gè)很有效的Benchmark ,也意味著 RL 在這個(gè)階段還沒有得到大范圍的使用,但我認(rèn)為它在未來,尤其當(dāng)我們建立了有效的 base model,會(huì)像 DeepSeek R1 那樣,有一天能夠綻放出巨大的光彩,而且我認(rèn)為是必經(jīng)之路。


趙仲夏: 您說這個(gè)讓我想到了一個(gè)好玩的概念叫 BA base model,有點(diǎn)像是人的頓悟,因?yàn)槲覀冎v智能涌現(xiàn)是頓悟時(shí)刻,然后 RL 有點(diǎn)像佛祖的點(diǎn)化,但是佛祖只能點(diǎn)化一個(gè)有慧根的模型。所以我們現(xiàn)在相當(dāng)于行業(yè)或者研究一直在做數(shù)據(jù)采集,也是為了先訓(xùn)一個(gè)聰明的有慧根的 base model,然后等待 RL 點(diǎn)化,我覺得這個(gè)很有意思。

然后我們再聊一些更寬點(diǎn)的問題,大家覺得如何看待具身智能和通用人工智能?具身智能是通用人工智能的必由之路嗎?來,要不奚老師您來跟我們講一下?

奚偉:具身智能和通用人工智能具有相關(guān)性,但完全是兩個(gè)不同的東西。具身智能一定是要和物理世界發(fā)生關(guān)系的,要通過傳感器去對(duì)物理世界進(jìn)行建模,再去通過決策操縱你的機(jī)構(gòu),然后發(fā)生關(guān)系。但通用人工智能是對(duì)我們所有的知識(shí)規(guī)則的一個(gè)一個(gè)總結(jié),它能形成一個(gè)有效的一個(gè)個(gè)推理,更多的是在一個(gè)抽象層面的能力,它并不一定需要一個(gè)具身載體,所以我認(rèn)為通用人工智能是對(duì)具身智能能力的一個(gè)巨大的提升,它應(yīng)該是一個(gè) building block,人工智能可以去賦能的一個(gè)技術(shù),它可以賦能不同的,包括機(jī)器人。美的也在提家電機(jī)器人化,也是把要把家電作為人工智能載體,結(jié)合在家電里邊放的一些傳感器,可以變成具身智能家電這樣的一個(gè)新物種。

我覺得這些東西都需要感知能力、邏輯推理和決策能力,包括一些動(dòng)運(yùn)和操作的能力。所以我認(rèn)為通用人工智能是具身智能下一階段能夠發(fā)光發(fā)熱的一個(gè)巨大的動(dòng)力。

趙仲夏: 好的,謝謝奚老師。馮老師,您是如何看待具身智能和通用人物智能的關(guān)系的呢?

馮子勇:我也覺得是這樣的,通用人工智能這個(gè)詞,不同的單位有不同的解釋方式,有些人認(rèn)為只要大語言模型到了一個(gè)非常好的時(shí)刻,它就是通用人工智能。但有些認(rèn)為,還是要跟這個(gè)世界包含在一起才叫通用人工智能。

在我看來,剛才奚老師也說了,通用人工智能肯定能幫助具身智能更好地提升,更好落地,更好發(fā)展。如果我們本身就是在這個(gè)世界里面的,這個(gè)世界的實(shí)踐也能提升我們自己的智能能力,那有沒有可能我們現(xiàn)在還沒看到,因?yàn)槲覀兌荚谟么笳Z言模型的能力,還沒有反饋給大語言模型。如果有一天,能夠做到物理的反饋,能給大語言模型帶來新的知識(shí),這時(shí)候這兩個(gè)是不矛盾的,甚至可能是一體的。

奚偉: 互為補(bǔ)充。

趙仲夏: 對(duì),勉諾你如何看待AGI?

陳勉諾: 我是這么理解,具身智能是通用人工智能的一個(gè)子集,通用人工智能追求的是在世界實(shí)現(xiàn)一個(gè)完全的智能,完全智能不可能只有數(shù)字世界里進(jìn)化,它也需要跟物理世界進(jìn)行有效交互,而且它的這個(gè)終極目標(biāo)是,我們經(jīng)常說的知行合一,也就是不單單要知道知識(shí),也能夠能行動(dòng)出來。

如果把知行合一當(dāng)做人類的最高標(biāo)準(zhǔn),那對(duì)于整個(gè)通用人工AGI來說,不單單只有智能的上限,還要需要有action,需要有行動(dòng),所以我認(rèn)為具身智能是通用人工智能的一個(gè)子集,而且是一個(gè)非常關(guān)鍵的環(huán)節(jié),只有有了具身智能,才能跟物理世界進(jìn)行交互,才能感知物理世界,采集物理世界的數(shù)據(jù),將物理世界的規(guī)律在智能的領(lǐng)域里進(jìn)一步地提升,形成一個(gè)雙向的閉環(huán)。所以我認(rèn)為具身智能、大語言模型、多模態(tài)模型其實(shí)都是整個(gè) AGI 或者通用人工智能的子集。

趙仲夏:好的,那我們進(jìn)行下一個(gè)話題。中國的人工智能和具身智能產(chǎn)業(yè)將走向何方?跟產(chǎn)業(yè)落地相關(guān)的。Mario,你最近有投資哪些具身或者機(jī)器人的企業(yè)?在調(diào)研走訪的時(shí)候有沒有看到一些跟行業(yè)落地有關(guān)的趨勢。

陳勉諾: 我們投了幾家目前比較活躍的幾家公司,一個(gè)是剛剛有提到的 Daya Robotics,第二個(gè)是方舟無限,做機(jī)械臂的,還有做靈巧手和電機(jī)的舞肌科技,以及之前投的像非夕機(jī)器人, 優(yōu)艾智和都在往具身智能這個(gè)方向形態(tài)去轉(zhuǎn)變。

在落地場景方面,坦白來說,今天還屬于在技術(shù)發(fā)展的前端,甚至我認(rèn)為今天具身智能的時(shí)代都遠(yuǎn)還沒有到 GPT 3 時(shí)刻。所以今天大家去談落地有點(diǎn)為之過早,甚至可能還有很多的彎路,大家還要去摸索、去探索,可能要給產(chǎn)業(yè)更多的時(shí)間和空間,讓大家在技術(shù)方向做更多的探索。

在落地層面上,我覺得應(yīng)該核心關(guān)注幾個(gè)點(diǎn)。第一,因?yàn)槲以瓉硎亲鯯LAM做移動(dòng)機(jī)器人的創(chuàng)業(yè)者,在那一波里邊有哪些場景是解決不了的?我理解就是手腦協(xié)同、 manipulation 和智能泛發(fā)性帶來的操作泛化性這個(gè)層面上的任務(wù)。比如今天工廠的流水線上,那些沒有被傳統(tǒng)機(jī)械臂和沒有被 AGV 去解決場景,都是既有高價(jià)又極度需要人力的場景,這種場景其實(shí)是需要今天的具身智能很容易落地可能的場景。

另一個(gè)點(diǎn)是應(yīng)用場景具備一定的復(fù)雜性,比如 Dyna Robotics,他們在解決的場景是美國的一些餐廳后廚,后廚環(huán)境復(fù)雜性強(qiáng),同時(shí)美國人力成本比較高,這種情況下需要有個(gè)機(jī)器人去解決。

我覺得今天可能真的有效的是找到一個(gè)智能程度相對(duì)比較低、人力成本非常高的場景,去替代人工成本,會(huì)是一些行之有效的場景。

趙仲夏: 了解。馮院長,剛剛勉諾提到了給智能一些時(shí)間,給研究者一些時(shí)間。我之前的感受是通用智能的每一次迭代都會(huì)摧毀在專有領(lǐng)域的所有努力,無論早期的 CV 到后面的自動(dòng)駕駛都一樣。您這邊應(yīng)該算是從 AI 1.0 走出來的公司,然后您對(duì)人形機(jī)器人和具身智能的落地是怎么看待的?有沒有一些經(jīng)驗(yàn)可以跟大家分享一下?

馮子勇:落地還早,說明就是還有的做嘛。從我的角度來看,落地還是數(shù)據(jù)先行,現(xiàn)在我已經(jīng)看到不管企業(yè)、政府還是學(xué)校,還有一些其他組織都在牽頭做各種各樣的數(shù)據(jù)采集工廠或者各種機(jī)構(gòu)什么的都有。

所以廣泛的數(shù)據(jù)采集是必不可少的,但是在采什么數(shù)據(jù)上可能大家有一些分歧,像仿真的數(shù)據(jù),動(dòng)補(bǔ)的數(shù)據(jù),各家都在說自己好的,沒有定論。從預(yù)訓(xùn)練的角度,我的想法是回顧像GPT 跟 CLIP 這樣的模型,大家用的主要是互聯(lián)網(wǎng)數(shù)據(jù),GPT 用的就是 common crawl,基本上是整個(gè)互聯(lián)網(wǎng)的語料, CLIP 也是在 common crawl 里面把圖文的 pair 給取出來了。所以我有一個(gè)幻想,可能答案還在互聯(lián)網(wǎng)里面,可能數(shù)據(jù)一直在那,只是大家還沒有找到一些非常有智慧的方法把它給找出來,去做具身的預(yù)訓(xùn)練,這是我的想法。

從 action 模型的角度,我更傾向最好是有一個(gè)設(shè)備能跟著人一起走,就像眼鏡。

趙仲夏: 今天的會(huì)場好多眼鏡。

馮子勇:對(duì),有一個(gè)對(duì)比,像特斯拉的FSD,大家在開車的時(shí)候把自己的操作給記錄下來了,就將采數(shù)據(jù)和產(chǎn)品融合到一起,這樣的話,特斯拉有多少,就得有多少數(shù)據(jù)采集員,那這個(gè)量是非??捎^的。眼鏡是這里面最像的一個(gè),我個(gè)人覺得一個(gè)是它可以適合所有人戴。在任何地方、任何場景采任何數(shù)據(jù),然后人肯定戴了之后會(huì)有操作,只要把操作也記錄下來,像Meta,他們有一個(gè)新的演進(jìn)形態(tài)是Arial好像。

趙仲夏: 對(duì),面向研究者的眼鏡,還得申請(qǐng)。

馮子勇:它有一個(gè)機(jī)電的手環(huán),相當(dāng)于我在操作的時(shí)候,把手的操作也記錄下來,是不是這樣的數(shù)據(jù)在量大了之后,就能從量變直接達(dá)到質(zhì)變?有那一刻像 FSD 最開始,也是從小模型到一個(gè)主干多個(gè)分支的模型,到 OCC 網(wǎng)絡(luò),到直接到現(xiàn)在它可能也是數(shù)據(jù)采集到了,它就可以直接上端到端了。

另外一個(gè),剛才說具身真的離落地可能還有點(diǎn)時(shí)間,我也規(guī)劃了一個(gè)項(xiàng)目,關(guān)于多模態(tài)的,這里其實(shí)在 VLM 到具身中間還加了一個(gè)叫 GUI agent,因?yàn)?GUI agent 也是操作物理的世界更加簡單,而且不停地能重復(fù)。如果我們能在上面做得好,那可以談具身,但如果在這上面都還磕磕巴巴的,就證明離具身的確有點(diǎn)距離。

趙仲夏: 對(duì),您剛剛提到眼鏡的時(shí)候,我的一個(gè)觀察是現(xiàn)在大部分的搖操也要逐漸變成 VR 搖操了,而 VR 搖操很像一個(gè)人的手眼關(guān)系。這應(yīng)該和眼鏡也是可以互通的。

奚老師,這個(gè)就是您這邊的重頭戲了。您剛才有提到家電智能化、智能家電或者具身家電這個(gè)概念,您跟我們先解釋解釋什么叫做具身家電吧?

奚偉: 具身家電我們還沒提這個(gè)詞,我們現(xiàn)在是家電機(jī)器人化的概念。現(xiàn)在智能家電會(huì)比較注重的是IoT,就是家電互聯(lián)這一塊,但是家電可能也具有一定的機(jī)器人屬性,能夠讓家電進(jìn)行主動(dòng)服務(wù),這是下一步家電需要走的方向,要把機(jī)器人屬性加入到一部分家電的能力中。

比如烤箱,大部分人做飯其實(shí)不太熟悉怎么去使用烤箱,怎么能做出更像大廚的牛排等食品。比如烤牛排,假如把一部分機(jī)器人的屬性,可能把烤箱內(nèi)部也做一些升降機(jī)構(gòu),能夠自動(dòng)升降,自動(dòng)推出,調(diào)料也可以自動(dòng)添加,或者根據(jù)它的溫度場景進(jìn)行調(diào)配。我們就把烤箱也變成一個(gè)智能體,而不是現(xiàn)在只會(huì)拉開門,東西放進(jìn)去再定個(gè)時(shí)就完了。此外,我們希望烤箱能夠更精準(zhǔn)地、定制化地給客戶服務(wù)。把視覺加進(jìn)去之后,比如把食材放進(jìn)去,它可以自動(dòng)識(shí)別,自動(dòng)給你定制菜譜,自動(dòng)根據(jù)你的需求進(jìn)行調(diào)味,這些都可以從我們的產(chǎn)品上實(shí)現(xiàn)。

趙仲夏: 客戶導(dǎo)向這個(gè)感同身受,我感覺做牛排嚴(yán)重打擊了我的積極性。我最后問了一個(gè)餐廳大廚,他跟我講要不你先把油溫升上去,先把鍋弄熱了,然后你再放,有沒有可能鍋不熱永遠(yuǎn)做不出來?我覺得這個(gè)太酷了。另外,我們看到美的既有自己的工廠,還有一個(gè)整體的制造業(yè),包含未來的面向家用的全領(lǐng)域。您覺得人形機(jī)器人未來是一個(gè)怎樣的落地格局?我們什么時(shí)候才能真的每個(gè)家庭都擁有一個(gè)或者幾個(gè)人形機(jī)器人?

奚偉: 剛才馮院長,還有勉諾也說了,這個(gè)還需要一點(diǎn)時(shí)間,但從一個(gè)從業(yè)者的角度來講,還是要應(yīng)用來牽引,否則一直在說我們要打磨技術(shù),我們要去要給一定時(shí)間、一定空間才能發(fā)展。我覺得需要不斷地在應(yīng)用上去探索,反哺我們技術(shù)上的一些缺陷,所以從我們角度來講,工業(yè)場景的應(yīng)用比較具體,也比較聚焦,它在產(chǎn)業(yè)的賦能角度來講,可能短期會(huì)產(chǎn)生比較大的價(jià)值,所以我們也像特斯拉、很多創(chuàng)業(yè)者,都是從工業(yè)場景入手。

這樣做最大的好處是,我們不一定完全需要這種通用的具身智能,才能夠達(dá)到進(jìn)入工廠的階段。我們可能把它分階段變成小模型,比如一些小的通過視覺模型,通過一些傳統(tǒng)的規(guī)劃,也可以做到一定的泛化能力。這個(gè)過程中,把這些數(shù)據(jù)采集回來,去訓(xùn)練更具有通用性的具身智能大模型,不斷地進(jìn)行迭代。就像特斯拉,先做一個(gè) FSD ready 的這樣一個(gè)車,然后放到工廠里,可以先去做一定的自主化或者自動(dòng)化。但是它不一定是要完全的自主化,過程中我們通過人機(jī)混合的方式進(jìn)行數(shù)據(jù)采集,但不斷地迭代模型,最終實(shí)現(xiàn)端到端的這種具身智能模型。這是一個(gè)必由的路徑,它一定不會(huì)是一蹴而就。今天是0,明天接到完全的具身智能。

相對(duì)來講,工業(yè)場景比較好結(jié)構(gòu)化,從工業(yè)場景我覺得下一步是商用場景,需要有一些人機(jī)交互,相對(duì)的,它的任務(wù)有一定的復(fù)雜度,但也會(huì)比較結(jié)構(gòu)的,比較具體的,比如在餐飲行業(yè)、奶茶店、咖啡店,都是比較簡單的一個(gè)任務(wù),當(dāng)他在商業(yè)行業(yè)能夠用起來之后,我覺得最終是引進(jìn)家庭的。

進(jìn)入家庭有幾個(gè)問題,一個(gè)是安全問題,再比如說真正的語言的人機(jī)交互問題、個(gè)性化的定制問題,還有一些隱私問題,都會(huì)要去解決,這時(shí)候才能真正每一個(gè)家庭或者甚至每一個(gè)人都能用上機(jī)器人的個(gè)人助手。


人民網(wǎng)研究院數(shù)據(jù)統(tǒng)計(jì),從具身智能人形機(jī)器人專利累計(jì)受理量數(shù)據(jù)看,截至 2022 年末,中國已占據(jù)40%的份額。

趙仲夏: 這個(gè)很棒啊。我們是在觀察者網(wǎng)的直播間,(時(shí)間關(guān)系)也是我們的最后一個(gè)問題。我個(gè)人的感覺,人形機(jī)器人如果真的落地,本質(zhì)上是生產(chǎn)力的解放。當(dāng)生產(chǎn)力解放之后,經(jīng)濟(jì)基礎(chǔ)決定上層建筑,整個(gè)社會(huì)結(jié)構(gòu)都會(huì)完成一次解放,然后也許就有可能實(shí)現(xiàn)大家社會(huì)學(xué)上的一些比較好的愿景。所以我覺得它應(yīng)該是一個(gè)世界人民的視野。在本次的人形機(jī)器人和具身智能的競爭與合作過程中,大家覺得中美之間有什么優(yōu)勢或者各自的劣勢?對(duì)這塊的話想問一下大家對(duì)這件事的看法,要不奚老師您先回答。

奚偉: 我覺得中國的優(yōu)勢還是很明顯的,機(jī)電優(yōu)勢、產(chǎn)業(yè)的優(yōu)勢無庸置疑。人形機(jī)器人在中國發(fā)展兩年,整個(gè)產(chǎn)業(yè)鏈發(fā)展非常迅速。尤其是今年,關(guān)鍵模組也是飛速降價(jià),讓很多的從業(yè)者能夠參與到行業(yè)來,而且進(jìn)入成本可以開始做一些規(guī)?;膽?yīng)用。這個(gè)是中國的巨大優(yōu)勢。

但在包括具身智能、 AI 技術(shù)等的發(fā)展上,我覺得中美兩國還在并肩競爭階段,我認(rèn)為從某些角度來講,美國有一定的領(lǐng)先優(yōu)勢,中國更多的還是在 follow 、了解、快速地發(fā)展。

趙仲夏: 馮老師,您怎么看待這件事情?

馮子勇:中國的人工智能的人才還是非常的強(qiáng)的,大家可以看到,不管是中國本身的,從 paper 層面,從創(chuàng)新層面,哪怕是在美國,一半的人才也都是華人,所以人才儲(chǔ)備是很強(qiáng)的,中國也有非常廣泛的落地場景,像咱們美的,今天在現(xiàn)場也看到很多。

另外,中國的政策優(yōu)勢也很明顯,政府非常大力地支持。需要改進(jìn)的,剛才也都說了,我們的創(chuàng)新性就更多的還是以 follow 為主。

趙仲夏: 了解。勉諾,你可能對(duì)中美之間都會(huì)接觸得更多一點(diǎn),你是如何看待這件事情的?

陳勉諾: 從我的視角下,我自己看到中美確實(shí)兩邊形成了更加鮮明的優(yōu)勢。在中國,大家可以看到更高的人才密度的這個(gè)涌現(xiàn),我們今天說 AI 和具身智能的整個(gè)行業(yè)的競爭,變成了中國的中國人和美國的中國人的競爭。

從我的視角下,我自己看到中美確實(shí)兩邊形成了更加鮮明的優(yōu)勢。在中國,大家可以看到更高的人才密度的涌現(xiàn),我們今天說 AI 和具身智能的整個(gè)行業(yè)的競爭變成了中國的中國人和美國的中國人的競爭。

另外一個(gè)層面上,中國的硬件優(yōu)勢還是很鮮明的。在美國可能我們只知道有特斯拉這樣一家電動(dòng)汽車公司,在中國有蔚小理,有小米等等這樣一些硬件公司,中國本身的供應(yīng)鏈的優(yōu)勢能夠讓硬件這個(gè)事情變得更容易去實(shí)現(xiàn),這也是為什么在美國可能軟件比較盛行,而在中國硬件可能做的更好,這是中國本土環(huán)境下的長足優(yōu)勢。

另外,我們也看到每一次革命的發(fā)生都會(huì)帶來一次大國之間格局的變化,比如說從農(nóng)業(yè)時(shí)代到電氣時(shí)代,再到互聯(lián)網(wǎng)時(shí)代,到今天的智能化時(shí)代。我覺得今天可能中國在更迭上是有巨大機(jī)會(huì)的。

但我們也得正視,中國在改革開放之后,整個(gè)的經(jīng)濟(jì)發(fā)展速度變快,科技的發(fā)展速度變快,但還是有一些領(lǐng)域我們?nèi)匀挥幸恍┎蛔?,比如在算力方面。其?shí)今天可能中國的人工智能瓶頸不在于人才,而在于缺乏比較好的算力,這也是有我們投的公司在去做這個(gè)事情。

此外我也看到在機(jī)器人和AI場景下還有一些現(xiàn)象,由于在美國可能人力成本比較貴,所以在真正的落地場景里邊,無論AI 還是機(jī)器人可能在美國落地會(huì)更加容易,美國的市場會(huì)更加的高效。

所以中國有大量的,無論是硬件公司還是軟件公司去做出海,這個(gè)也是我們需要去正視的問題,因?yàn)樵谥忻赖母窬窒?,中國本土的市場在這個(gè)人力的成本沒有到達(dá)很高的情況下,確實(shí)在本土市場這一塊有一定的挑戰(zhàn)。

所以我們也一直倡導(dǎo)今天的創(chuàng)業(yè)者要具備全球化視野,要去做全球化市場,利用中國本土的優(yōu)勢服務(wù)全球的市場。

趙仲夏: 太棒了,我感覺勉諾可以做我的創(chuàng)業(yè)導(dǎo)師。好的,我們也進(jìn)行了一個(gè)半小時(shí)了。我們這場具身和人形機(jī)器人的討論,今天也就到此為止,非常感謝奚老師、馮老師還有勉諾給我們帶來的非常精彩的觀點(diǎn)分享。也感謝大家,感謝各位觀眾。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
商務(wù)部:將3家美國實(shí)體列入出口管制管控名單

商務(wù)部:將3家美國實(shí)體列入出口管制管控名單

界面新聞
2025-09-25 16:03:48
大清已亡了111年,清東陵為啥還有守陵人,是誰給他們支付薪酬

大清已亡了111年,清東陵為啥還有守陵人,是誰給他們支付薪酬

老謝談史
2025-09-17 20:14:26
一次久違的飛機(jī)出行,感受到了多方的消費(fèi)降級(jí)

一次久違的飛機(jī)出行,感受到了多方的消費(fèi)降級(jí)

悠閑葡萄
2025-09-22 08:54:03
英國靈媒帕克說2026:東方一個(gè)高大的人站起來,這個(gè)人手里有火焰

英國靈媒帕克說2026:東方一個(gè)高大的人站起來,這個(gè)人手里有火焰

山九
2025-09-25 08:10:05
古代銀票就一張紙,為何沒人造假?你看看上面那行字,怎么造假?

古代銀票就一張紙,為何沒人造假?你看看上面那行字,怎么造假?

法老不說教
2025-09-19 21:24:02
佟麗婭離婚4年喜訊官宣,41歲再婚,陳思誠已無法企及

佟麗婭離婚4年喜訊官宣,41歲再婚,陳思誠已無法企及

何嗀愛捕漁
2025-09-13 18:16:33
理想汽車CEO李想:不會(huì)買iPhone 17 Pro Max,因?yàn)閷?shí)在太丑了

理想汽車CEO李想:不會(huì)買iPhone 17 Pro Max,因?yàn)閷?shí)在太丑了

TechWeb
2025-09-23 16:45:16
盒馬客服回應(yīng)“最難吃的甜品被臺(tái)風(fēng)選出來了”:主要因庫存充足

盒馬客服回應(yīng)“最難吃的甜品被臺(tái)風(fēng)選出來了”:主要因庫存充足

界面新聞
2025-09-24 11:37:46
重慶泰克公司在仁懷投資建廠遭強(qiáng)行接管?官方:成立專班展開調(diào)查

重慶泰克公司在仁懷投資建廠遭強(qiáng)行接管?官方:成立專班展開調(diào)查

界面新聞
2025-09-24 14:32:47
紹興地鐵“列車撞上保潔員致多人死傷”?浙江已提級(jí)調(diào)查!地鐵客服:會(huì)在非運(yùn)營時(shí)間派保潔員清理站臺(tái)屏蔽門

紹興地鐵“列車撞上保潔員致多人死傷”?浙江已提級(jí)調(diào)查!地鐵客服:會(huì)在非運(yùn)營時(shí)間派保潔員清理站臺(tái)屏蔽門

每日經(jīng)濟(jì)新聞
2025-09-25 00:24:05
洪灝:未來5~7年美元會(huì)大幅貶值,金銀上漲將超越市場認(rèn)知

洪灝:未來5~7年美元會(huì)大幅貶值,金銀上漲將超越市場認(rèn)知

新浪財(cái)經(jīng)
2025-09-25 07:15:57
4年之后,兩岸統(tǒng)一的希望,恐將要落在這個(gè)年輕的廣東人后代身上

4年之后,兩岸統(tǒng)一的希望,恐將要落在這個(gè)年輕的廣東人后代身上

華人星光
2025-09-25 13:46:33
笑暈!臺(tái)風(fēng)篩選出廣東“難吃榜”,網(wǎng)友:這是廣東人最后的倔強(qiáng)

笑暈!臺(tái)風(fēng)篩選出廣東“難吃榜”,網(wǎng)友:這是廣東人最后的倔強(qiáng)

夢史
2025-09-25 10:19:39
假慈善、貪污上億?被實(shí)名舉報(bào)的韓紅,如今連坐椅子都成了“錯(cuò)”

假慈善、貪污上億?被實(shí)名舉報(bào)的韓紅,如今連坐椅子都成了“錯(cuò)”

以茶帶書
2025-09-24 17:33:23
何小鵬:未來人們會(huì)住在城市中心100公里以外,10分鐘內(nèi)到達(dá)

何小鵬:未來人們會(huì)住在城市中心100公里以外,10分鐘內(nèi)到達(dá)

鳳凰網(wǎng)財(cái)經(jīng)
2025-09-25 09:09:11
全智賢這個(gè)瓜,可能和你想得不一樣

全智賢這個(gè)瓜,可能和你想得不一樣

獨(dú)立魚
2025-09-24 23:00:35
江蘇國企一把手朱超,履新三月落馬

江蘇國企一把手朱超,履新三月落馬

聽楓觀瀾
2025-09-24 18:27:51
炒股不需要一直盯盤,牢記“開盤沖3到5,橫7豎8是猛虎”,精辟!

炒股不需要一直盯盤,牢記“開盤沖3到5,橫7豎8是猛虎”,精辟!

一方聊市
2025-09-24 13:32:38
全球首條!中國正式開通,震驚西方!

全球首條!中國正式開通,震驚西方!

占豪
2025-09-24 23:49:04
崔麗麗的這個(gè)行為,我不太理解

崔麗麗的這個(gè)行為,我不太理解

皮蛋兒電影
2025-09-24 09:58:07
2025-09-26 02:12:49
科工力量 incentive-icons
科工力量
觀察者網(wǎng)工業(yè)科技專欄
130文章數(shù) 531關(guān)注度
往期回顧 全部

科技要聞

復(fù)盤與反思,一文看盡雷軍年度演講

頭條要聞

小米17售價(jià)4499元起 雷軍:拆了3輛Model Y 真的是好車

頭條要聞

小米17售價(jià)4499元起 雷軍:拆了3輛Model Y 真的是好車

體育要聞

ESPN百大球星榜:約基奇居首 庫詹杜7-9名

娛樂要聞

張馨予和李晨分手6年后 活成人生贏家

財(cái)經(jīng)要聞

基金經(jīng)理賭博被行拘 西部利得基金回應(yīng)

汽車要聞

奇瑞港股上市 募資91.4億港元成年內(nèi)最大車企IPO

態(tài)度原創(chuàng)

房產(chǎn)
藝術(shù)
教育
公開課
軍事航空

房產(chǎn)要聞

突發(fā)!儋州安居房,再出新政!

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

"考上211,你還想光宗耀祖一輩子?"教育盲盒拆出多少父母幻覺!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

外媒稱中國正建設(shè)第四艘航母 國防部回應(yīng)

無障礙瀏覽 進(jìn)入關(guān)懷版 在线a亚洲v天堂网2019无码| 亚洲AV成人片桃色在线观看| 国产在热线精品视频| 少妇老熟女乱| 国产美女极度色诱视频www| 久久蜜桃精品一区二区三区综合网| 国产成人高清精品亚洲| 婷婷亚洲综合视频| 好吊色欧美一区二区三区视频| 国产日产欧产精品精品蜜芽| 国产99视频精品免费视看9| 天美传媒一区| 九九久热不卡| 人人爽人人妻人人| 少妇1区2区| 潮喷失禁大喷水无码| 久久aⅴ免费观看| 国产乱妇乱子在线视频| 在线精品成人| 久久精品免费一区二区| 精品国产呻吟| 九九九热国产精品| 亚洲国产一二三四区在线观看| 女人的天堂av| 在线精品亚洲第一区焦香| 九九熟熟女东北女/| 亚洲黄片手机免费观看| av无码观看| 中文字幕无码av不卡一区| 777米影视| 亚洲18岁AV| 久久无码鲁丝| 欧美黄色片一区二区| 色婷婷久久| 亚洲欧洲自拍偷拍| 嗯嗯啊啊免费在线观看视频| 最新中文字幕免费色哟哟| 丰满多毛少妇泬1| 亚洲乱亚洲乱少妇无码| 国产精品一线二线三线婬女| 91亚洲一线产区二线产区|