本文來(lái)自微信公眾號(hào):衛(wèi)詩(shī)婕 商業(yè)漫談,作者:衛(wèi)詩(shī)婕,對(duì)話(huà)嘉賓:王闖(智元機(jī)器人 通用產(chǎn)品線總裁)、楊曾(安努智能 工程算法總監(jiān))、鄧揚(yáng) (富臨精工 創(chuàng)新生產(chǎn)部負(fù)責(zé)人),原文標(biāo)題:《直擊人形機(jī)器人在工廠“打工”的 3 小時(shí)|對(duì)話(huà)智元機(jī)器人》,頭圖來(lái)自:AI生成
剛剛在上海舉行的 waic 盛況空前,其中最受矚目的就是機(jī)器人大亂斗。
這就不得不講一個(gè)有趣的小故事:2024 的上海 waic ,主辦方曾試圖召集起幾十家做人形機(jī)器人的公司,希望讓人形機(jī)器人走個(gè)方陣——但當(dāng)時(shí)只有兩家機(jī)器人能支持長(zhǎng)時(shí)間行走。轉(zhuǎn)眼,2025 年的人形機(jī)器人走上了春晚跳舞,不僅如此,機(jī)器人還能跑馬拉松、打鼓、寫(xiě)書(shū)法、甚至進(jìn)工廠打工……
人形機(jī)器人能力飛躍的背后,其實(shí)有三點(diǎn)強(qiáng)支撐:
首先是深度學(xué)習(xí),大模型的能力令機(jī)器人的力控突破了去年的瓶頸。
其次是公眾注意力帶來(lái)的輿論熱度,資本也在今年快速涌入這個(gè)賽道,人形機(jī)器人行業(yè)的熱度達(dá)到新高。
除此之外,也得益于產(chǎn)業(yè)鏈里極個(gè)別的頭部公司團(tuán)結(jié)在一起——過(guò)程中,人形機(jī)器人產(chǎn)業(yè)上游的供應(yīng)鏈雛形被打造出來(lái),中游的機(jī)器人集成商生長(zhǎng)出來(lái),最終催生了機(jī)器人落地到工廠的商用元年。
七月初,我在四川綿陽(yáng),主持了智元機(jī)器人全球首次工業(yè)場(chǎng)景作業(yè)的直播,也組織對(duì)話(huà)了一場(chǎng)圓桌,圓桌上的三位嘉賓,分別來(lái)自產(chǎn)業(yè)上下游的不同身位,他們的合作,恰好是因?yàn)橄嘈磐环N未來(lái)而擁抱在一起、進(jìn)行貼身配合的典型案例。
那場(chǎng)發(fā)布會(huì)的主角,是一臺(tái)名叫A2W 的輪式類(lèi)人型工業(yè)級(jí)機(jī)器人。它的本體研發(fā),是由最近在二級(jí)市場(chǎng)大熱的明星人形機(jī)器人公司——智元所打造,經(jīng)由另一家明星創(chuàng)業(yè)公司安努智能所部署,最終落地到汽零龍頭上市公司富臨精工的工廠內(nèi)。
這場(chǎng)發(fā)布會(huì),聚齊了上游本體研發(fā)公司、中游真機(jī)數(shù)據(jù)采集-工程化落地部署商、和下游工業(yè)領(lǐng)域的應(yīng)用客戶(hù)。其中,安努智能還接受了來(lái)自智元和富臨精工的投資,本身就是產(chǎn)業(yè)上下游合力的一個(gè)產(chǎn)物。
在富臨精工的綿陽(yáng)工廠內(nèi),我和上述三家公司的代表——智元通用產(chǎn)品線總裁王闖、安努智能高級(jí)算法總監(jiān)楊曾以及富臨精工創(chuàng)新生產(chǎn)部負(fù)責(zé)人鄧揚(yáng),進(jìn)行了一場(chǎng) 3 小時(shí)的圓桌訪談。
(發(fā)布會(huì)現(xiàn)場(chǎng),富臨精工綿陽(yáng)工廠內(nèi)。從左至右分別為:衛(wèi)詩(shī)婕、王闖、鄧揚(yáng)、楊曾。)
事實(shí)上,在這場(chǎng)發(fā)布會(huì)之前,我和身邊看具身智能的投資人朋友曾反復(fù)討論:大模型背后的深度學(xué)習(xí)能力,在今天的工業(yè)機(jī)器人領(lǐng)域,到底有多深的運(yùn)用?后者在去年底悲觀地告訴我,產(chǎn)業(yè)里幾乎沒(méi)有運(yùn)用。這也一度讓我對(duì)這場(chǎng)發(fā)布會(huì)產(chǎn)生許多懷疑和疑惑。
但最終,我們用三小時(shí)完整記錄了一個(gè)通用具身機(jī)器人進(jìn)入工廠作業(yè)的全過(guò)程。事實(shí)上,這個(gè)項(xiàng)目也才僅僅跑了半年。
在具身智能爆火的 2025,這期內(nèi)容能夠非常通俗地解釋清楚:
為什么 2025,人形機(jī)器人爆火?
過(guò)去一年內(nèi),具身智能行業(yè)經(jīng)歷了怎樣的發(fā)展?
什么是真 · 人形機(jī)器人?
大模型如何成為機(jī)器人的靈魂,具身智能如何走進(jìn)工廠?
而對(duì)于業(yè)內(nèi)人士來(lái)說(shuō),這期訪談中也有大量有價(jià)值的信息:比如來(lái)自最前線的應(yīng)用情形、客戶(hù)體驗(yàn)和一手的產(chǎn)業(yè)訪談。
我在去年11月曾經(jīng)訪談過(guò)華為云 CTO 張宇昕,他曾提到過(guò),中國(guó)產(chǎn)業(yè)的豐富度和成熟度,是全球領(lǐng)先。華為認(rèn)為,中國(guó)特色的 AI 道路,一定是與產(chǎn)業(yè)緊密結(jié)合。
兩期內(nèi)容組合,能夠拼湊出一幅顆粒度更細(xì)的 AI 產(chǎn)業(yè)應(yīng)用圖。
以下為訪談節(jié)選(為方便閱讀,作者進(jìn)行了文本優(yōu)化):
一、2025,人形機(jī)器人為什么這么火?
衛(wèi)詩(shī)婕:為什么 2025 年人形機(jī)器人這么火?
王闖 :幾方面的原因。首先是 2025 的春晚(宇樹(shù)機(jī)器人表演跳舞),讓普通的老百姓真正看見(jiàn)了機(jī)器人的能力,普及度大大增強(qiáng)。第二也是很重要的,像智元這樣的頭部企業(yè),我們和產(chǎn)業(yè)鏈的合作伙伴們一起,在 2024 年做到了人形機(jī)器人量產(chǎn),并在 2025 年做到了商用部署,這是整個(gè)行業(yè)的一個(gè)共同進(jìn)步。
第三,可能也是最重要的一點(diǎn),AI 能力的演進(jìn)——強(qiáng)化學(xué)習(xí),極強(qiáng)地加持了機(jī)器人的控制力。也許你們不相信,2024 年上海舉辦 waic ,當(dāng)時(shí)主辦方召集了近 20 家做人形機(jī)器人的公司一起,希望人形機(jī)器人能列隊(duì)走一個(gè)方陣。但當(dāng)時(shí),能真正長(zhǎng)時(shí)間行走的只有兩家(智元是其中之一),這個(gè)細(xì)節(jié)能夠看出,截止到去年夏天,人形機(jī)器人整體的能力狀態(tài)。但是 2025 年,我們看到了機(jī)器人跑馬拉松、跳舞、格斗、表演……這背后其實(shí)是最新的 AI 能力加持了機(jī)器人的運(yùn)控。
衛(wèi)詩(shī)婕:機(jī)器人量產(chǎn)為什么這么困難?
王闖:人形機(jī)器人是個(gè)前沿方向, 它背后的產(chǎn)業(yè)鏈?zhǔn)窍喈?dāng)不成熟的。比如人形機(jī)器人要用到的電關(guān)節(jié)——和過(guò)去傳統(tǒng)工業(yè)機(jī)械臂所用到的關(guān)節(jié)很不一樣:人形機(jī)器人對(duì)于關(guān)節(jié)的扭矩密度、減重、噪音要求都比較高,這些零件做不好,本體就無(wú)法有很強(qiáng)的穩(wěn)定性;上游供應(yīng)鏈里做的人少,人形機(jī)器人的出貨量少,零部件價(jià)格就貴,一套下來(lái)就是負(fù)循環(huán)。
智元去年一個(gè)很大的主題,就是和供應(yīng)鏈上下游伙伴們一起,打磨人形機(jī)器人零部件的成本和可靠性。先讓供應(yīng)鏈成熟起來(lái)。
再往下走,還有生產(chǎn)一致性的問(wèn)題。比如像遠(yuǎn)征 A2(智元的人形機(jī)器人)——它有44個(gè)自由度。自由度越高,機(jī)器人能做的事情就越多,但其構(gòu)造和所需零部件的精密程度也就越復(fù)雜。如此復(fù)雜的硬件加上智能化的要求,對(duì)生產(chǎn)一致性提出了很高的要求。整個(gè)生產(chǎn)過(guò)程中,對(duì)于檢驗(yàn)和控制的要求都非常高。
打個(gè)比方:哪怕只是上肢的一點(diǎn)點(diǎn)誤差,傳導(dǎo)到末端,誤差就會(huì)變得很大。如何通過(guò)本體和算法的統(tǒng)一設(shè)計(jì),讓機(jī)器人能夠?qū)崿F(xiàn)通用化的智能,需要很高的生產(chǎn)一致性。
還有一點(diǎn),當(dāng)把機(jī)器人生產(chǎn)出來(lái)后,如何用一套代碼、一個(gè)模型,讓所有的機(jī)器人都擁有幾乎一致的性能。在汽車(chē)領(lǐng)域,這還相對(duì)好做。但是在人形機(jī)器人領(lǐng)域,這套算法需要我們自己從0到1 開(kāi)發(fā)出來(lái)。去年年底的時(shí)候,我們的研發(fā)累計(jì)有 100 人左右就住在工廠,包括我自己。從去年到現(xiàn)在,光測(cè)試消耗的就有上百臺(tái)機(jī)器人了。
去年是智元量產(chǎn)最艱難的一個(gè)沖刺階段,我們可以看到到 2025,產(chǎn)線就已經(jīng)跑得比較穩(wěn)定了。智元走過(guò)的這條路,相信對(duì)整個(gè)行業(yè)有很大貢獻(xiàn)。
鄧揚(yáng) :我從零部件供應(yīng)商的角度,也講一講,造人形機(jī)器人的電關(guān)節(jié)有多么難吧。
富臨精工是一家汽車(chē)零部件供應(yīng)商,但從2023年開(kāi)始,我們也開(kāi)始研發(fā)電關(guān)節(jié),相當(dāng)于我們的第二增長(zhǎng)曲線??偨Y(jié)下來(lái),造人形機(jī)器人的電關(guān)節(jié)有幾個(gè)難點(diǎn):
要追求電關(guān)節(jié)的高負(fù)載——說(shuō)通俗一點(diǎn)就是,讓關(guān)節(jié)越來(lái)越輕的同時(shí),也讓它越來(lái)越有力,讓機(jī)器人有更大的力氣。這就需要扭矩密度、功率密度這些維度數(shù)據(jù)的提升,這是第一個(gè)難點(diǎn)。
要追求機(jī)器人的應(yīng)用,隨著以后更多場(chǎng)景的開(kāi)放,對(duì)于零部件關(guān)節(jié)的精度要求會(huì)越來(lái)越高。所以在設(shè)計(jì)和制造過(guò)程中,就需要一個(gè)輸入和輸出的閉環(huán)控制,這涉及到編碼器的一些設(shè)計(jì),從設(shè)計(jì)上也是一個(gè)難點(diǎn)。
在工廠應(yīng)用,決定了機(jī)器人和其零部件需要有比較長(zhǎng)的壽命這就要求關(guān)節(jié)要耐久。從材料的選型到制造的加工密度,都需要重新定。
二、什么是真正的具身智能?
衛(wèi)詩(shī)婕 :鄧主任的發(fā)言透露了一點(diǎn),汽車(chē)領(lǐng)域的供應(yīng)鏈有向人形機(jī)器人行業(yè)轉(zhuǎn)移的現(xiàn)象,汽車(chē)領(lǐng)域的人才是否也是?
楊曾博士 :是的。我在 2011 年加入了一家美資的 TIER 1,叫哈曼。在哈曼,我和團(tuán)隊(duì)一起開(kāi)發(fā)出了當(dāng)時(shí)哈曼歷史上第一款可路測(cè)的 L3 的原型車(chē)。所謂智能汽車(chē),其實(shí)也是一種機(jī)器人,但它對(duì)物理世界的影響是有限的,汽車(chē)只能在路上開(kāi),沒(méi)有手臂,其實(shí)無(wú)法進(jìn)入更多人的生活空間。
隨著智駕進(jìn)入深水區(qū),這個(gè)行業(yè)的技術(shù)和產(chǎn)品已經(jīng)趨于成熟,L2++已經(jīng)開(kāi)始大規(guī)模地商用化。L3 也在量產(chǎn)前夜,但這兩年車(chē)市不是特別好,所以自動(dòng)駕駛相關(guān)人才也會(huì)有一個(gè)溢出效應(yīng),會(huì)漸漸流向較熱的具身智能領(lǐng)域。我也是其中之一,就這樣加入了安努智能。
衛(wèi)詩(shī)婕 :這是否意味著,具身智能領(lǐng)域?qū)?huì)增強(qiáng)很多算法方面的人才?
楊曾博士:是的。
衛(wèi)詩(shī)婕 :先定義一下什么是具身智能?
楊曾博士 :根據(jù)英偉達(dá)黃仁勛的定義,截至目前,具身智能有四種形態(tài):無(wú)人車(chē)、無(wú)人機(jī)、機(jī)器狗、人形機(jī)器人。其實(shí)這四種都是AI 加上一個(gè)身體。只不過(guò)身體會(huì)針對(duì)不同應(yīng)用場(chǎng)景發(fā)生一些變化。
(智元研發(fā)的工業(yè)級(jí)機(jī)器人遠(yuǎn)征A2W,正在工廠內(nèi)搬運(yùn)料箱。)
衛(wèi)詩(shī)婕 :A2W 能夠算作人形機(jī)器人嗎?
王闖 :通常人們認(rèn)為機(jī)器人有兩條腿的,才叫人形機(jī)器人,但其實(shí) A2W 只是把腿變成了輪子——所以稱(chēng)之為輪式機(jī)器人。為什么變成輪子?因?yàn)楣S的地面平整,輪式又靜音、效率又高,但是 A2W 的上半身其實(shí)跟 A2 一樣,都是七個(gè)自由度的雙臂。它也可以用夾爪,也可以用靈巧手,所以我們認(rèn)為它也是人形機(jī)器人的一種。
衛(wèi)詩(shī)婕 :人形機(jī)器人未必要長(zhǎng)得像人形才能算,我認(rèn)為標(biāo)準(zhǔn)在于它是否能像人一樣去思考、辨別、決策、行動(dòng)?
王闖 :對(duì)。
衛(wèi)詩(shī)婕 :為什么人形機(jī)器人是未來(lái)?這似乎很有爭(zhēng)議——并非所有人都看好人形機(jī)器人是未來(lái)。
王闖:雙足機(jī)器人跟人類(lèi)的形態(tài)非常非常的像,如果它生活在人類(lèi)生活的環(huán)境中,這就意味著,人類(lèi)環(huán)境里所有的物理設(shè)施它都可以直接去用,比如說(shuō)桌椅的高度、貨架等,全部都是為人設(shè)計(jì)的,機(jī)器人自然而然就夠得著,而無(wú)需對(duì)物理環(huán)境做任何的改造。且人類(lèi)對(duì)于類(lèi)人形的機(jī)器人,可能親近感更強(qiáng)。
但機(jī)器人未必要是雙足的,比如輪式更適合工廠,那么制造機(jī)器人的本體公司未必一定要做哪種形態(tài)。應(yīng)該結(jié)合應(yīng)用場(chǎng)景的需求去做改造。
智元希望做出通用的機(jī)器人,針對(duì)不同的場(chǎng)景,無(wú)需再去重新設(shè)計(jì)本體,無(wú)需再去改它的硬件。用一套模型能干很多不同的事情。這是我們想做的。
三、智元的2025:從量產(chǎn)元年,到商用元年
衛(wèi)詩(shī)婕:為什么 2024 是智元的量產(chǎn)元年,2025 就一躍進(jìn)入了商用元年?
王闖 :其實(shí)上半年我們已經(jīng)有不少的出貨了,有一些客戶(hù)想到的場(chǎng)景我們自己都沒(méi)有想到,比如有一個(gè)客戶(hù)開(kāi)業(yè),用好幾臺(tái)機(jī)器人一起敲鼓,還有不久前的 MWC 中國(guó)通訊峰會(huì)上,我們智元的機(jī)器人可以寫(xiě)書(shū)法,真的,他寫(xiě)的書(shū)法比我寫(xiě)得還要好,他一天寫(xiě)了 130 多幅書(shū)法, 手都沒(méi)有抽筋,表現(xiàn)出了非常高的穩(wěn)定性。機(jī)器人大規(guī)模的亮相和使用,也讓客戶(hù)越來(lái)越堅(jiān)定信心,也讓我們的上下游供應(yīng)鏈伙伴堅(jiān)定了信心。
今年是一個(gè)非常好的開(kāi)始,2025 年,我們真正把有思考能力的機(jī)器人——也就是具身智能,帶到客戶(hù)的現(xiàn)場(chǎng)去。
衛(wèi)詩(shī)婕 :是否要感謝這股深度學(xué)習(xí)的浪潮?
王闖 :對(duì)。機(jī)器人的交互突飛猛進(jìn),得益于大模型的加持。去年量產(chǎn),今年商用,這樣的速度是不可思議的。
衛(wèi)詩(shī)婕 :從量產(chǎn)完成到真正部署到客戶(hù)的工廠,要經(jīng)過(guò)一個(gè)怎樣的過(guò)程?
王闖:像智元這樣的本體公司擅長(zhǎng)做基座的能力、通用的算法,但是完成研發(fā)后,機(jī)器人到工廠實(shí)際部署的時(shí)候,會(huì)遇到很多挑戰(zhàn),其中的調(diào)試工作量很大,需要有人持續(xù)去提升機(jī)器人的能力,那些異常的數(shù)據(jù)也需要有人收集回來(lái)——所以,我們需要合作伙伴——安努智能這樣的機(jī)器人集成供應(yīng)商,會(huì)負(fù)責(zé)把機(jī)器人真正部署到甲方客戶(hù)的工廠里。
衛(wèi)詩(shī)婕:安努智能是專(zhuān)門(mén)做機(jī)器人部署的集成供應(yīng)商嗎?
楊曾博士 :是的。我們是一家人形機(jī)器人工程化量產(chǎn)落地的領(lǐng)先供應(yīng)商。我們的股東里還包含巨星新材料,它是中國(guó)永磁體最大產(chǎn)能的企業(yè)。部署機(jī)器人這樣的項(xiàng)目中的核心,主要基于智元對(duì)于本體底層的核心算法,加上安努智能定義的標(biāo)桿流程和交付。
衛(wèi)詩(shī)婕 :機(jī)器人的集成部署有多大的市場(chǎng)?能養(yǎng)出一個(gè)上市公司嗎?
楊曾博士 :如果只單看協(xié)作式機(jī)器人的話(huà),(集成商)上市公司里面已經(jīng)有克來(lái)機(jī)電,江蘇北人,他們的業(yè)務(wù)中有約70%都是基于系統(tǒng)集成,所以可以預(yù)見(jiàn),具身智能的機(jī)器人部署,空間會(huì)更大,類(lèi)似的公司會(huì)更多。
用一個(gè)金字塔形容,像智元這樣優(yōu)秀的本體公司可能有幾個(gè),安努這樣的系統(tǒng)集成商可以有幾百上千個(gè),一起服務(wù)像富臨精工這樣幾十萬(wàn)的工業(yè)領(lǐng)域生產(chǎn)者。
衛(wèi)詩(shī)婕 :所以安努本身是產(chǎn)業(yè)上下游共同擁抱未來(lái)的一個(gè)產(chǎn)物?
鄧揚(yáng):是的。
衛(wèi)詩(shī)婕:智元和富臨精工都投資了安努智能,你們?nèi)绞侨绾巫叩揭黄鸬模?/p>
鄧揚(yáng) :富臨精工是做大批量生產(chǎn)制造的企業(yè),我們對(duì)場(chǎng)景的認(rèn)知深度肯定更深刻。我們天天與我們的產(chǎn)品、機(jī)器設(shè)備、員工打交道??晌覀儧](méi)那么懂機(jī)器人本體的技術(shù),但又想擁抱最新的機(jī)器人技術(shù),所以我們先和智元碰到了一起。我們雙方都發(fā)現(xiàn),在研發(fā)后到落地的過(guò)程中,有一系列復(fù)雜的工作需要做,這需要專(zhuān)業(yè)的集成商,所以我們和智元都愿意投資安努智能——這樣我們?nèi)娇梢愿髯园l(fā)揮優(yōu)勢(shì),加速這件事的推進(jìn)。
衛(wèi)詩(shī)婕 :為什么最終選了料箱轉(zhuǎn)運(yùn)——這個(gè)場(chǎng)景似乎看起來(lái)很簡(jiǎn)單?
王闖 :A2W一開(kāi)始就瞄準(zhǔn)工業(yè)。我們團(tuán)隊(duì)心氣比較高,一開(kāi)始我們鎖定了很多場(chǎng)景,并且想選其中最難的場(chǎng)景,準(zhǔn)備大干一場(chǎng)。
我們最初想做一個(gè)場(chǎng)景叫“噴粉上下掛”,指的是建筑行業(yè)有很多五金零件,比如門(mén)的合葉,很多鎖扣、鎖芯、把手,需要工人把一個(gè)個(gè)零件掛到一個(gè)個(gè)掛鉤上,有點(diǎn)類(lèi)似超市的貨架。這個(gè)場(chǎng)景里有1000+個(gè)零件,每個(gè)零件形狀不同,要掛的位置也不同。最難的零件是一個(gè)五毫米的螺絲孔,要掛到一個(gè)三毫米粗的鉤子上,這意味著機(jī)械臂去掛的時(shí)候容錯(cuò)空間只有兩毫米。整個(gè)研發(fā)做了很久后,我們發(fā)現(xiàn)這個(gè)場(chǎng)景的標(biāo)準(zhǔn)化很差,精度要求高,技術(shù)的挑戰(zhàn)很大。
后來(lái)我們又去探索了一個(gè)場(chǎng)景叫“陽(yáng)極氧化上下料”,大概就是有一根長(zhǎng)長(zhǎng)的桿,還有許多彈簧,像是一個(gè)個(gè)戒指,后來(lái)我才知道那是手機(jī)攝像頭的那個(gè)金屬環(huán)。得把這些金屬環(huán)掛到桿子上的掛鉤上。后來(lái)我們發(fā)現(xiàn),這個(gè)場(chǎng)景的一致性也很差——因?yàn)檫@些金屬環(huán)都是手焊的,在陽(yáng)極氧化環(huán)境里用久了都會(huì)有形變,所以每個(gè)環(huán)的形狀不同,每個(gè)卡扣的松緊程度也不同。
經(jīng)歷了這兩段嘗試后,我們發(fā)現(xiàn)有些場(chǎng)景看似酷炫,實(shí)際上還不到技術(shù)去挑戰(zhàn)這個(gè)場(chǎng)景的時(shí)機(jī)。最終我們選擇做料箱轉(zhuǎn)運(yùn),因?yàn)檫@是客戶(hù)需求呼聲最高的場(chǎng)景之一,同時(shí)技術(shù)也能達(dá)到。那就先從這個(gè)場(chǎng)景開(kāi)始打穿、做深。
后來(lái)我們就和安努一起,在富臨精工落地 A2W。這個(gè)項(xiàng)目全程三個(gè)多月時(shí)間,我們把最初 160 秒的搬運(yùn)速度,做到了 40 秒。也逐漸做出了避障、泛化性。今天為什么做這個(gè)直播,就是想把階段性的成果分享給全行業(yè)和公眾,同時(shí),我們的心態(tài)是開(kāi)放的,技術(shù)還需要演進(jìn),也還存在不完美,但這很正常。
四、思考過(guò)程,正是具身智能發(fā)展的一個(gè)標(biāo)志
衛(wèi)詩(shī)婕 :A2W 落到車(chē)間之后,真正的使用感受是什么樣子的?
鄧揚(yáng) :目前來(lái)看, A2W 做搬運(yùn)料箱,雖然節(jié)拍還沒(méi)有達(dá)到人的速度,搬的沒(méi)有那么快,但是有一個(gè)好處,是它可以24小時(shí)作業(yè)。它支持換電,算上人類(lèi)吃飯休息的時(shí)間,它的效率幾乎可以追平人類(lèi)了。當(dāng)然,后面有機(jī)會(huì)能把節(jié)拍做得更快。
有兩方面我印象比較深刻:一個(gè)是感知避障,另一個(gè)是異常環(huán)境下,它會(huì)自動(dòng)糾錯(cuò),保證作業(yè)不中斷。
但還是想講一下我們工廠所面臨的現(xiàn)實(shí)問(wèn)題:工廠還是追求效益的,目前,機(jī)器人的成本壓力還是比較大。因?yàn)槟壳耙慌_(tái)機(jī)器人得幾十萬(wàn)(元),所以,我們肯定希望機(jī)器人的節(jié)拍能夠更加優(yōu)化——現(xiàn)在是40秒搬一個(gè)箱子,再提升 10 秒的話(huà),和人(搬箱子的效率)就差不多了。另一方面,我們公司現(xiàn)在有一個(gè)團(tuán)隊(duì)為機(jī)器人服務(wù),再加上能耗,這些都是成本。
第二,我比較關(guān)心負(fù)載,目前機(jī)器人能夠做到負(fù)載15公斤(王闖補(bǔ)充:雙臂負(fù)重是25公斤),如果能做到30公斤,那我車(chē)間的活它就包圓了。
還有一點(diǎn)我關(guān)心的,如果機(jī)器人作業(yè)能更深入挖掘其他場(chǎng)景的價(jià)值,比如不止搬運(yùn)料箱,還能運(yùn)送物料、揀選、碼垛,那整個(gè)工程的產(chǎn)線就都可以?xún)?yōu)化了。
王闖 :鄧主任說(shuō)得很好。首先,節(jié)拍優(yōu)化到30秒是完全有可能。這只是開(kāi)始。另外,不同的場(chǎng)景任務(wù)也在我們的規(guī)劃中。智元在強(qiáng)化學(xué)習(xí)、模仿學(xué)習(xí)、數(shù)據(jù)驅(qū)動(dòng)、端到端,都在布局。
我們認(rèn)為工廠里有幾個(gè)比較典型的場(chǎng)景,一個(gè)是料箱上下料,其次各種各樣的分揀,還有一類(lèi)是組裝,這幾個(gè)場(chǎng)景都很大,我們之所以選擇料箱作為第一個(gè)落地的場(chǎng)景,是因?yàn)榧夹g(shù)已經(jīng)完全滿(mǎn)足,這個(gè)場(chǎng)景的規(guī)模也夠。有了大規(guī)模應(yīng)用后,成本一定能下降到比較滿(mǎn)意的程度。
衛(wèi)詩(shī)婕 :A2W 這一批新型的人形機(jī)器人,跟過(guò)去的工業(yè)級(jí)機(jī)器人這些有什么區(qū)別?
王闖:復(fù)合機(jī)械臂是固定編程,設(shè)定好程序后,它的節(jié)拍可以很高。但是A2W 是被我們定義為用于柔性制造的通用機(jī)器人,我們希望它今天能干這個(gè),明天能干那個(gè),做什么事情都能自己學(xué)習(xí)、并閉環(huán)。同樣一個(gè)本體,在不同場(chǎng)景中應(yīng)用的時(shí)候,我們不需要在硬件上再進(jìn)行額外的改造。
另外,通用性的機(jī)器人能自動(dòng)識(shí)別環(huán)境異常并糾錯(cuò),傳統(tǒng)的復(fù)合工業(yè)機(jī)械臂做不到。舉個(gè)例子,比如說(shuō)如果工人碼垛碼得不是那么整齊,又或是料箱的顏色錯(cuò)了、又或是料架位置擺放得有點(diǎn)偏移,在等等的意外場(chǎng)景中,A2W 這樣的通用機(jī)器人都能自己察覺(jué)到、并糾錯(cuò)、做出調(diào)整。
在我們今天的泛化性任務(wù)測(cè)試中可以看到,機(jī)器人在搬運(yùn)料箱時(shí)發(fā)現(xiàn)缺了一個(gè)料箱,它先是“愣”了一下,那是在思考,隨后他開(kāi)始四處找尋這個(gè)缺失的料箱——就是用它“頭部”的那個(gè)攝像頭在到處掃描,直到找到那只被放錯(cuò)位置的料箱,然后他會(huì)開(kāi)始思考計(jì)算——在什么位置搬、怎么搬最順利,然后它才會(huì)移動(dòng)到那只料箱的旁邊,繼續(xù)搬運(yùn)。
這些都是復(fù)合機(jī)械臂做不了的。而這就是泛化性。
衛(wèi)詩(shī)婕:目前料箱搬運(yùn)這個(gè)場(chǎng)景,復(fù)合機(jī)械臂是不是也能做?而且似乎能做得比A2W這個(gè)通用機(jī)器人快?
王闖:料箱轉(zhuǎn)運(yùn)這個(gè)場(chǎng)景,目前復(fù)合機(jī)械臂確實(shí)也能做。但我剛才講了,傳統(tǒng)的機(jī)械臂沒(méi)法像 A2W 那樣,像人一樣去思考。
衛(wèi)詩(shī)婕:復(fù)合機(jī)械臂設(shè)定好程序后,能搬得很快,我們通常會(huì)以為它比較智能。但泛化性強(qiáng)的通用機(jī)器人的遲疑,停頓和思考,其實(shí)恰恰是智能的體現(xiàn)?
王闖:沒(méi)錯(cuò),機(jī)器人中間那個(gè)思考過(guò)程正是具身智能發(fā)展的一個(gè)標(biāo)志。具身智能,和以前的手機(jī)、汽車(chē)、互聯(lián)網(wǎng)不同,這些科技都是工具,但是具身智能是人類(lèi)的伙伴。但是這個(gè)伙伴現(xiàn)在還是個(gè)小孩,能力有限,目前有些情況它暫時(shí)處理不了,但是它已經(jīng)能夠幫人類(lèi)處理一些重復(fù)、枯燥的事情。比如搬運(yùn)料箱,一個(gè)箱子10公斤,如果讓一個(gè)人一天搬800個(gè)箱子,很多工人會(huì)覺(jué)得很累,但是機(jī)器人能做。
(機(jī)器人創(chuàng)新背后的程序員們。)
五、真機(jī)數(shù)據(jù)為什么寶貴?那是制造業(yè)的壁壘
衛(wèi)詩(shī)婕 :要把 A2W 這樣的機(jī)器人部署到工廠,過(guò)程是什么樣的?會(huì)有哪些難點(diǎn)?
楊曾博士 :分成幾步。
1. 首先要做現(xiàn)場(chǎng)的適配,對(duì)機(jī)器人工作的環(huán)境做一個(gè)地圖的構(gòu)建,其實(shí)就類(lèi)似于——我們買(mǎi)了一臺(tái)掃地機(jī)器人回家,得先完成地圖建模。
2. 下一步,我們要對(duì)場(chǎng)景里重要的檢測(cè)目標(biāo),比如料箱上的上料口,做視覺(jué)的注冊(cè)。
3. 再進(jìn)一步,就是要去優(yōu)化末端執(zhí)行器,比如加個(gè)夾爪,使它能夠適應(yīng)料箱的重量、寬度和抓取形態(tài)。
4. 之后通信也要打通。比如料箱運(yùn)完了,需要提前通知物流部門(mén),把空的托盤(pán)運(yùn)走,再把滿(mǎn)的運(yùn)過(guò)來(lái)。
5. 之后兩步都是比較耗時(shí)的工作,第一是要對(duì)節(jié)拍進(jìn)行長(zhǎng)期的優(yōu)化,讓機(jī)器人越干越快,這個(gè)過(guò)程我們要看如何優(yōu)化整個(gè)機(jī)器人的工作流程,讓它的動(dòng)作可以盡量并行化——比如邊移動(dòng)邊伸手抓取。第二要優(yōu)化視覺(jué)模型,讓機(jī)器人足夠精確。
6. 最后,我們要做壓力測(cè)試。針對(duì)真是工廠場(chǎng)景中的實(shí)際工況,做測(cè)試。這個(gè)過(guò)程會(huì)冒出很多很多的問(wèn)題來(lái)。
衛(wèi)詩(shī)婕 :機(jī)器人的部署周期一般會(huì)控制在多久?
楊曾博士 :由于富臨精工這個(gè)項(xiàng)目是首次,我們花了三個(gè)多月。之后隨著越來(lái)越多真機(jī)部署的數(shù)據(jù)被采集,模型和流程都會(huì)被優(yōu)化,后面的客戶(hù)和場(chǎng)景都有機(jī)會(huì)被提升效率。數(shù)據(jù)越采越多,這些數(shù)據(jù)用來(lái)反哺到一些集成經(jīng)驗(yàn)或者甚至是本體的大腦,使得機(jī)器人的智能能力越來(lái)越上升,那么它在真實(shí)落地遇到的挑戰(zhàn)就會(huì)越來(lái)越少,或者說(shuō)我們解決挑戰(zhàn)的周期就會(huì)越縮越短,它會(huì)形成一個(gè)正向循環(huán)。
衛(wèi)詩(shī)婕:所以安努未來(lái)可能也成為一家做機(jī)器人大腦的公司嗎?
楊曾博士:是的。
衛(wèi)詩(shī)婕 :你們所說(shuō)的“采集數(shù)據(jù)”,到底是什么數(shù)據(jù)?
王闖 :大概有四個(gè)部分,分別跟隨機(jī)器人搬運(yùn)料箱的四個(gè)步驟。
第一部分?jǐn)?shù)據(jù)是識(shí)別千千萬(wàn)萬(wàn)種料箱——也就是作業(yè)的客體的數(shù)據(jù);
第二個(gè)部分是操作數(shù)據(jù),料箱很低的時(shí)候,機(jī)器人的腰是要彎下去的,不同箱子的抓取方式也不同,如何抓取式最優(yōu)解——這些都是操作數(shù)據(jù)。和人一樣,搬多了,就會(huì)了。
第三類(lèi)是針對(duì)移動(dòng)場(chǎng)景的環(huán)境數(shù)據(jù),通俗講,就要收集許多不同的地圖。比如我們有個(gè)客戶(hù)裝修是黑色的,再比如各式奇怪的場(chǎng)景,有玻璃、圍欄,或者場(chǎng)景經(jīng)常變化,這些環(huán)境數(shù)據(jù)也是非常重要的。
第四類(lèi)是放置數(shù)據(jù),就是所有的作業(yè)最終指向一個(gè)怎樣的場(chǎng)景,這也需要采集很多很多數(shù)據(jù)。
這四個(gè)方向的數(shù)據(jù)如果都能采集好,就有很大機(jī)會(huì)利用數(shù)據(jù)提升具身智能的能力。最終可能能夠讓客戶(hù)很快地部署好心場(chǎng)景。就好比機(jī)器人碰到新場(chǎng)景時(shí),內(nèi)心會(huì)認(rèn)為我早就見(jiàn)過(guò)了,不需要你再教我,我已經(jīng)會(huì)了。
衛(wèi)詩(shī)婕 :這些數(shù)據(jù)都是多模態(tài)數(shù)據(jù),對(duì)嗎?
王闖:是的。真機(jī)數(shù)據(jù)為什么寶貴?因?yàn)檎鏅C(jī)數(shù)據(jù)積累得足夠多之后,它可以推測(cè)出一個(gè)工業(yè)現(xiàn)場(chǎng)的一個(gè)世界模型,這很寶貴,因?yàn)楹芏喙S的數(shù)據(jù)是很難采集到的。
衛(wèi)詩(shī)婕:為什么?
鄧揚(yáng) :對(duì)于制造業(yè)來(lái)說(shuō),很多工藝數(shù)據(jù)和核心參數(shù),都是保密的,因?yàn)檫@是花很多年摸索出來(lái)的,這也是制造業(yè)的核心競(jìng)爭(zhēng)力和壁壘。
衛(wèi)詩(shī)婕:那么這些數(shù)據(jù)被用來(lái)訓(xùn)練一個(gè)什么樣的模型?
王闖:還是從幾個(gè)方面。第一方面是我剛才說(shuō)的,收集很多料箱的數(shù)據(jù),我們想把這個(gè)識(shí)別模型做得更準(zhǔn)確。比如一個(gè)人站在100米外,這是自動(dòng)駕駛領(lǐng)域里比較關(guān)心的,但是機(jī)器人關(guān)心的是,我看到了這個(gè)料箱,這個(gè)料箱離我有幾十厘米,機(jī)器人把手伸出去,末端位置應(yīng)該在哪里?抓哪里可以抓得比較緊,另一只手要如何協(xié)作?這些都需要識(shí)別,并讓結(jié)果更精確。這就需要模型的精度更高。
第二方面類(lèi)似于小腦:區(qū)別于傳統(tǒng)機(jī)械臂或復(fù)合機(jī)器人,通用機(jī)器人搬一個(gè)箱子是全身控制——它看到一個(gè)低一些的箱子,知道手夠不著了,就會(huì)把身體降下去;看到一個(gè)遠(yuǎn)處的箱子,它會(huì)規(guī)劃說(shuō)身體要前傾,利用多個(gè)自由度的全身協(xié)同控制。這種協(xié)同規(guī)劃,也是模型重點(diǎn)的一部分。
衛(wèi)詩(shī)婕:你剛才提到,最初 A2W 搬一個(gè)箱子需要 160 秒,目前訓(xùn)練到 40 秒,從 160 秒壓縮到 40 秒,靠的是從實(shí)際場(chǎng)景中采集的數(shù)據(jù)嗎?
王闖 :對(duì)。我們之前做過(guò)四種料箱,最開(kāi)始時(shí)間更長(zhǎng),搬一個(gè)箱子需要 200 多秒。當(dāng)我們做了這四種料箱后,發(fā)現(xiàn)這些積累的數(shù)據(jù)還挺有用的,在長(zhǎng)時(shí)間測(cè)試?yán)锊杉母鞣N各樣的情形,比如不同關(guān)系的環(huán)境、不同箱子的顏色、位置、形狀等等,在仿真環(huán)境里也做了各種各樣的調(diào)整,我們先把真實(shí)環(huán)境中采集的數(shù)據(jù)輸入到模型,再去采真機(jī)的數(shù)據(jù)去強(qiáng)化模型的能力。最終發(fā)現(xiàn)能力迭代得就很快。
衛(wèi)詩(shī)婕:你們當(dāng)下使用的技術(shù)是 VLA (Vision-Language-Action,視覺(jué)語(yǔ)言動(dòng)作模型)嗎?
王闖 :現(xiàn)在不算是 VLA,VLA 智元已經(jīng)研究一段時(shí)間了。它的優(yōu)勢(shì)是對(duì)于不同場(chǎng)景的泛化性較強(qiáng),可能比較適合超市場(chǎng)景,針對(duì)很多種不同零食能夠抓取放到袋子里。但是劣勢(shì)在于,對(duì)于工業(yè)場(chǎng)景來(lái)說(shuō),它并不能把某一項(xiàng)維度能力做到非常高。
當(dāng)然現(xiàn)在也有一些技術(shù)路線是用一些強(qiáng)化學(xué)習(xí)或者說(shuō)垂直領(lǐng)域訓(xùn)練,來(lái)把成功率拉高,針對(duì)某一個(gè)特定場(chǎng)景去優(yōu)化。但是這些對(duì)于工業(yè)場(chǎng)景來(lái)說(shuō)仍然是不夠的。90% 成功率對(duì)于工業(yè)客戶(hù)來(lái)說(shuō),他們是不會(huì)滿(mǎn)意的,他們必須要求成功率做到99.9%,這沒(méi)什么商量余地,否則進(jìn)不了工廠。
智元的思考是,為了率先實(shí)現(xiàn)工廠落地,我們認(rèn)為當(dāng)下用小參數(shù)模型+規(guī)則驅(qū)動(dòng)+數(shù)據(jù)訓(xùn)練的方式,是更適合工業(yè)落地的。自動(dòng)駕駛也一樣,最開(kāi)始用的是CNN,后面發(fā)展出了Bev、Transformer,使得它的全局視野就更好了;再之后就出現(xiàn)了occupancy 三維的避障,直至進(jìn)化出端到端。
我們并不總是尋求非要用最先進(jìn)、當(dāng)下最前沿的技術(shù)去落地,而是希望交付給客戶(hù)最好的效果。
衛(wèi)詩(shī)婕 :有人認(rèn)為,一個(gè)應(yīng)屆畢業(yè)生可能就幾千塊錢(qián)的月薪,而機(jī)器人售價(jià)幾十萬(wàn),二者能做的事情是一樣的。
鄧揚(yáng) :我們工廠并不是這樣去思考的。我們公司所有基地加在一起,共超過(guò)5000名員工。我們首先想的是如何用機(jī)器人把繁重的體力勞動(dòng)的活先干了,這樣人就有更多時(shí)間去管理設(shè)備和機(jī)器人,這樣的崗位不是隨便什么人都能做的,他必須有他知識(shí)和經(jīng)驗(yàn)的積累。這類(lèi)崗位未來(lái)收入也會(huì)越來(lái)越高。
另外,我們更希望營(yíng)造一個(gè)人機(jī)交互的智慧工廠。這是面向未來(lái)的。因?yàn)樵谖磥?lái),隨著人口結(jié)構(gòu)的變化,可以預(yù)見(jiàn)到會(huì)有人力缺口,我們也希望能布局未來(lái)。
衛(wèi)詩(shī)婕:傳統(tǒng)工業(yè)機(jī)器人 VS 通用機(jī)器人,可能就像高中畢業(yè)就進(jìn)廠打工的人 VS 大學(xué)畢業(yè)生進(jìn)廠打工。雖然看起來(lái),前者目前比后者干活熟練且更快,但長(zhǎng)遠(yuǎn)來(lái)看,具有更多通識(shí)+專(zhuān)業(yè)訓(xùn)練的人可能未來(lái)會(huì)學(xué)得更快。這是泛化性的潛力。
王闖:對(duì),就是這樣。
衛(wèi)詩(shī)婕 :剛才的談話(huà)中, 鄧揚(yáng)提到了目前已經(jīng)篩選出四十多個(gè)場(chǎng)景等待機(jī)器人去攻破,王闖也提到了幾個(gè) benchmark,比如自由度和精度。工業(yè)中的場(chǎng)景成百上千,海量場(chǎng)景中如果要排列優(yōu)先級(jí),肯定需要一些 benchmark 來(lái)衡量不同場(chǎng)景的難度、和技術(shù)的適配性、所能帶來(lái)的效益等。你們會(huì)用什么樣的 benchmark 來(lái)排序這四十多個(gè)場(chǎng)景?
王闖 :以前組裝電腦時(shí),愛(ài)好者們會(huì)選擇CPU和顯卡,有一個(gè)CPU性能天梯圖。我們現(xiàn)在就是想收集足夠多的場(chǎng)景,去搭一個(gè)場(chǎng)景落地難易度的天梯圖。
CPU 的天梯圖想到簡(jiǎn)單,誰(shuí)的跑分高,功耗有優(yōu)勢(shì)就排序高。但是機(jī)器人相對(duì)復(fù)雜,需要一個(gè)多維度的天梯圖。
可能我們最終并不是看某一項(xiàng)單項(xiàng)維度,而是綜合判斷。比如今天手臂的自主閉環(huán)能實(shí)現(xiàn)的精度是正負(fù)五毫米,那要求精度在 5 毫米以?xún)?nèi)的場(chǎng)景我就先把它放一邊,今年就先不做,等著技術(shù)的突破或新的零部件面世時(shí),再做。
最后很可能是客戶(hù)圈出場(chǎng)景,我們來(lái)分析是否可行,又或者客戶(hù)要做某些場(chǎng)景,有可行性,那大家一起干。
衛(wèi)詩(shī)婕 : 今天因?yàn)闀r(shí)間所限,沒(méi)有辦法再深入的一個(gè)關(guān)鍵點(diǎn)是,在去定義場(chǎng)景和定義機(jī)器人能力上限的過(guò)程中,到底有多少用到所謂的通用智能的泛化能力?不會(huì)是開(kāi)著跑車(chē)送外賣(mài)吧?
王闖 :當(dāng)然,如果成本沒(méi)有優(yōu)勢(shì),性能表現(xiàn)沒(méi)有優(yōu)勢(shì),是不可能上量的,也不可能真正商業(yè)化。
衛(wèi)詩(shī)婕 :當(dāng)下技術(shù)白天鵝不停出現(xiàn)——原本行業(yè)需要 3-5 年才能做成的事,或許在技術(shù)突破下,半年內(nèi)就能做了。雖然很容易被打臉,但還是想請(qǐng)各位預(yù)言一下,未來(lái)1-3年通用機(jī)器人落地的速度?
楊曾博士 :工業(yè)領(lǐng)域里,模型突破可能還需要一些時(shí)間。安努會(huì)重點(diǎn)基于現(xiàn)有資源向更多場(chǎng)景和客戶(hù)去拓展。過(guò)程中收集好數(shù)據(jù),等待著模型突破的那一天。
鄧揚(yáng):作為電關(guān)節(jié)的供應(yīng)商之一,我覺(jué)得產(chǎn)業(yè)里會(huì)非常關(guān)注成本這個(gè)問(wèn)題。不知道未來(lái)三年內(nèi),通用機(jī)器人的成本有沒(méi)有可能下降50%?
王闖 :我覺(jué)得保守了,絕對(duì)保守了。
鄧揚(yáng) :如果成本真的能下降 50%,即使模型訓(xùn)練還沒(méi)有那么完美,我相信也有更多客戶(hù)愿意嘗試接受新鮮事物,也更愿意去推動(dòng)整個(gè)人形機(jī)器人商業(yè)落地。成本是一個(gè)核心條件。
本文來(lái)自微信公眾號(hào):衛(wèi)詩(shī)婕 商業(yè)漫談,作者:衛(wèi)詩(shī)婕,對(duì)話(huà)嘉賓:王闖、楊曾、鄧揚(yáng)
本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表虎嗅立場(chǎng)。未經(jīng)允許不得轉(zhuǎn)載,授權(quán)事宜請(qǐng)聯(lián)系 hezuo@huxiu.com
本文來(lái)自虎嗅,原文鏈接:https://www.huxiu.com/article/4640644.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.