「50個(gè)技術(shù)賽道,50家創(chuàng)業(yè)公司」是一檔聚焦前沿科技領(lǐng)域創(chuàng)新力量的深度探索欄目。我們以全球視野掃描新興技術(shù)趨勢(shì),每期深入一個(gè)細(xì)分技術(shù)賽道,挖掘最具顛覆潛力的創(chuàng)業(yè)公司。呈現(xiàn)技術(shù)的商業(yè)價(jià)值,展示創(chuàng)新者的先鋒姿態(tài)。 本文為第五篇。
在人工智能飛速演進(jìn)的當(dāng)下,數(shù)據(jù)的價(jià)值變得愈發(fā)關(guān)鍵。以大模型和具身智能為代表的新一代AI系統(tǒng),正逼近傳統(tǒng)數(shù)據(jù)采集方式的極限。
MIT等機(jī)構(gòu)預(yù)測(cè),若按當(dāng)前速度發(fā)展,人類生成的真實(shí)數(shù)據(jù)(尤其是高質(zhì)量文本數(shù)據(jù))將在2-8年內(nèi)被消耗殆盡,到2026年可能用完互聯(lián)網(wǎng)可用文本數(shù)據(jù),而具身智能更是對(duì)數(shù)據(jù)呈指數(shù)的級(jí)膨脹需求,達(dá)到了EB(1EB = 1024PB)級(jí)別。
面對(duì)“數(shù)據(jù)荒”的危機(jī),合成數(shù)據(jù)(Synthetic Data)被視為打破瓶頸的關(guān)鍵鑰匙,也成為業(yè)界共識(shí)的解決方案。英偉達(dá)科學(xué)家 Jim Fan 曾指出,未來(lái)AI模型的訓(xùn)練數(shù)據(jù),將有望由合成數(shù)據(jù)提供萬(wàn)億級(jí)token支持。
合成數(shù)據(jù)(Synthetic Data)是一種模仿真實(shí)世界數(shù)據(jù)的非人工創(chuàng)建的數(shù)據(jù),它是由基于生成式人工智能技術(shù)的計(jì)算算法和模擬創(chuàng)建而成。早在1993年,著名統(tǒng)計(jì)學(xué)家Donald Rubin就在論文中提出了合成數(shù)據(jù)的概念。近年來(lái),隨著ChatGPT的火爆和生成式人工智能技術(shù)的發(fā)展,合成數(shù)據(jù)概念受到越來(lái)越多的關(guān)注。
相比傳統(tǒng)的真實(shí)數(shù)據(jù)采集方式,合成數(shù)據(jù)的優(yōu)勢(shì)不僅在于成本低、效率高,還包括無(wú)需標(biāo)注、更強(qiáng)泛化性等特性。
Gartner預(yù)測(cè),到2030年合成數(shù)據(jù)將成為AI模型的主要訓(xùn)練來(lái)源,市場(chǎng)規(guī)模預(yù)計(jì)超過86億美元。其應(yīng)用場(chǎng)景廣泛,涵蓋自動(dòng)駕駛、醫(yī)療健康、金融、零售等多個(gè)領(lǐng)域,在提升模型性能、保護(hù)隱私、系統(tǒng)測(cè)試等方面發(fā)揮著重要作用。
全球科技巨頭已紛紛布局:英偉達(dá)推出Omniverse Replicator生成高精度3D仿真數(shù)據(jù),并收購(gòu)合成數(shù)據(jù)公司Gretel;微軟開源Synthetic Data Showcase工具,服務(wù)于醫(yī)療和金融場(chǎng)景;Meta則通過Llama 3自生成數(shù)據(jù)優(yōu)化代碼生成能力。
在國(guó)內(nèi),一批新興合成數(shù)據(jù)企業(yè)也正在崛起。2023年,專注具身智能的合成數(shù)據(jù)公司——光輪智能應(yīng)運(yùn)而生。公司首創(chuàng)將生成式AI與仿真技術(shù)結(jié)合,用以構(gòu)建大規(guī)模、可交互、高保真的訓(xùn)練場(chǎng)景,重塑自動(dòng)駕駛與具身智能的數(shù)據(jù)體系。
團(tuán)隊(duì)成員來(lái)自英偉達(dá)、Cruise等全球領(lǐng)先企業(yè),具備AI、仿真、合成數(shù)據(jù)工程化落地等多領(lǐng)域交叉背景。目前,已服務(wù)例如英偉達(dá)、DeepMind、Figure、銀河、智元多家國(guó)際頭部客戶以及全球高校實(shí)驗(yàn)室。
值得一提的是,成立短短兩年多時(shí)間,光輪智能已完成五輪融資,投資方包括北京市人工智能產(chǎn)業(yè)基金、經(jīng)緯創(chuàng)投、奇績(jī)創(chuàng)壇、辰韜資本等。
近期,我們對(duì)話了光輪智能技術(shù)生態(tài)負(fù)責(zé)人甘宇飛,圍繞“合成數(shù)據(jù)如何驅(qū)動(dòng)具身智能”和“行業(yè)技術(shù)挑戰(zhàn)”展開深度探討。
以下為創(chuàng)投家與甘宇飛對(duì)話全文,略有刪減:
創(chuàng)投家:目前合成數(shù)據(jù)在機(jī)器人、自動(dòng)駕駛等領(lǐng)域的使用占比如何?哪些場(chǎng)景會(huì)用到比較多的合成數(shù)據(jù)?
甘宇飛:在自動(dòng)駕駛領(lǐng)域,合成數(shù)據(jù)的使用比例大約在30%至40%之間,而在具身智能領(lǐng)域,這一比例則高達(dá)80%至90%。
具身智能中的數(shù)據(jù)采集成本很高,需要搭建實(shí)景環(huán)境、部署機(jī)器人并進(jìn)行日常維護(hù),效率低。而合成數(shù)據(jù)可以通過仿真的方式快速構(gòu)建多樣化場(chǎng)景,成本更低、效率更高。
目前合成數(shù)據(jù)在具身智能的不同階段,包括預(yù)訓(xùn)練、后訓(xùn)練、評(píng)測(cè)目前都有很大的數(shù)據(jù)缺口,具身智能產(chǎn)品研發(fā)的全生命周期都需要用到大量的合成數(shù)據(jù)。
創(chuàng)投家:生成式 AI 與仿真技術(shù)的結(jié)合對(duì)合成數(shù)據(jù)行業(yè)的有哪些促進(jìn)作用?未來(lái) 3-5 年的技術(shù)演進(jìn)方向可能是什么?
甘宇飛:AI圖像生成和仿真技術(shù)各有優(yōu)劣。生成式AI擅長(zhǎng)視覺逼真度,但在空間尺度和物理約束方面缺乏精確控制;仿真技術(shù)則強(qiáng)調(diào)物理一致性,但在真實(shí)感和生成效率上遜色一些。
將兩者融合,是我們認(rèn)為最具前景的發(fā)展方向。例如,神經(jīng)渲染技術(shù)正逐步成熟,它結(jié)合AI視覺生成與仿真建模能力,能夠直接輸出具備真實(shí)感和物理精度的3D場(chǎng)景與資產(chǎn)。
此外,未來(lái)的合成數(shù)據(jù)應(yīng)當(dāng)更“真實(shí)”,更“極端”,更“高效”——能模擬現(xiàn)實(shí)中罕見卻關(guān)鍵的長(zhǎng)尾事件,幫助AI模型提升魯棒性。
創(chuàng)投家:為什么純AI生成的合成數(shù)據(jù)不可行?
甘宇飛:因?yàn)榧傾I生成數(shù)據(jù)可能會(huì)讓模型“自我循環(huán)崩潰”。這在早期研究中就已被證實(shí),比如GPT會(huì)在多輪純合成訓(xùn)練下崩潰、自動(dòng)駕駛模型在純合成數(shù)據(jù)訓(xùn)練后會(huì)采取危險(xiǎn)而積極的駕駛風(fēng)格。當(dāng)模型用自身生成的數(shù)據(jù)不斷訓(xùn)練自己時(shí),誤差會(huì)逐步放大,數(shù)據(jù)分布也會(huì)偏離現(xiàn)實(shí),最終導(dǎo)致模型性能下降甚至崩潰。
要想保持模型的穩(wěn)定性與現(xiàn)實(shí)對(duì)齊,必須引入人類示范或真實(shí)世界的“錨點(diǎn)”,讓AI理解世界的本質(zhì)。這是合成數(shù)據(jù)構(gòu)建中不可缺少的一環(huán)。比如特斯拉會(huì)利用五星司機(jī)的數(shù)據(jù)迭代自駕算法,ChatGPT會(huì)找各個(gè)領(lǐng)域?qū)<襾?lái)做RLHF(人類反饋強(qiáng)化學(xué)習(xí)),而在具身領(lǐng)域,光輪使用人類專家的示范動(dòng)作來(lái)作為合成數(shù)據(jù)的來(lái)源。
創(chuàng)投家:合成數(shù)據(jù)的 “真實(shí)性” 如何量化評(píng)估?當(dāng)前行業(yè)在視覺 - 物理一致性等方面的技術(shù)難度和挑戰(zhàn)是什么?
甘宇飛:我們將真實(shí)性評(píng)估分為三層:
首先是量化檢查,通過自動(dòng)化工具逐項(xiàng)檢測(cè)物體屬性是否符合真實(shí)世界,例如瓶子的顏色、重量、材質(zhì)、貼紙、旋蓋方向等。
其次是主觀判別,借助判別模型評(píng)估合成數(shù)據(jù)是否足夠逼真,目標(biāo)是讓模型“分不清”真假。
最后是效用驗(yàn)證,最核心的一步是實(shí)戰(zhàn)驗(yàn)證,看合成數(shù)據(jù)是否真正提升了模型效果。例如在長(zhǎng)尾場(chǎng)景中的識(shí)別準(zhǔn)確率是否提升,是否有效支持客戶業(yè)務(wù)目標(biāo)。
創(chuàng)投家:具身領(lǐng)域的合成數(shù)據(jù)相比自駕領(lǐng)域的合成數(shù)據(jù)有什么不同的地方?
甘宇飛:具身智能是更復(fù)雜的“多任務(wù)交互系統(tǒng)”,其對(duì)數(shù)據(jù)的需求遠(yuǎn)超自動(dòng)駕駛。
主要體現(xiàn)在四個(gè)方面:
首先是數(shù)據(jù)量級(jí)更大,自動(dòng)駕駛數(shù)據(jù)為PB級(jí),而具身智能則需要EB級(jí)數(shù)據(jù)。例如在家務(wù)場(chǎng)景中,機(jī)器人需處理疊被、洗碗、開門等復(fù)雜交互,任務(wù)維度和場(chǎng)景復(fù)雜度遠(yuǎn)高于自動(dòng)駕駛。
其次是交互維度更豐富,尤其是物理交互,自動(dòng)駕駛追求“無(wú)交互”,即盡量避免碰撞。而具身智能必須主動(dòng)與世界互動(dòng),例如抓取易碎玻璃或柔軟衣物,這對(duì)合成數(shù)據(jù)的物理屬性要求極高。
然后是適配難度更大,自動(dòng)駕駛車輛相對(duì)標(biāo)準(zhǔn)化,而具身機(jī)器人千姿百態(tài),從人形機(jī)器人到機(jī)械臂,形態(tài)與關(guān)節(jié)結(jié)構(gòu)各異,數(shù)據(jù)生成必須因機(jī)而異。
最后是數(shù)據(jù)積累的階段不同,不同于自動(dòng)駕駛,具身智能仍處于起步階段,尚未形成大規(guī)模真實(shí)數(shù)據(jù)積累,因此合成數(shù)據(jù)在這一階段扮演著更關(guān)鍵的角色。
創(chuàng)投家:具身場(chǎng)景中真實(shí)數(shù)據(jù)與合成數(shù)據(jù)的最佳實(shí)踐占比分別是多少?實(shí)際提升效果如何?
甘宇飛:根據(jù)我們的實(shí)踐經(jīng)驗(yàn)與行業(yè)研究,當(dāng)前真實(shí)數(shù)據(jù)與合成數(shù)據(jù)的最佳組合比例大致為 1:10,當(dāng)然,這一比例也會(huì)根據(jù)具體應(yīng)用場(chǎng)景而動(dòng)態(tài)調(diào)整。
更重要的是,在引入合成數(shù)據(jù)后,模型性能通常能實(shí)現(xiàn)顯著提升。比如在物體檢測(cè)、交互識(shí)別等任務(wù)中,合成數(shù)據(jù)的加入可帶來(lái)平均30%左右的性能增益。這不僅體現(xiàn)在精度上,更體現(xiàn)在模型對(duì)復(fù)雜環(huán)境的泛化能力上。
簡(jiǎn)而言之,合成數(shù)據(jù)正在成為構(gòu)建高效具身智能模型的關(guān)鍵加速器。
創(chuàng)投家:行業(yè)里面有純真實(shí)和純合成的路線之爭(zhēng),你們?nèi)绾慰创?/blockquote>甘宇飛:在真實(shí)項(xiàng)目中,其實(shí)并不存在所謂的“路線之爭(zhēng)”——效果優(yōu)先,永遠(yuǎn)是技術(shù)決策的第一準(zhǔn)則。
實(shí)踐中,混合使用真實(shí)與合成數(shù)據(jù)已被證明是最優(yōu)解。例如在英偉達(dá)最新開源的人形機(jī)器人基座模型 GR00T N1 中,采用“混合訓(xùn)練”(co-training)的策略,其性能明顯優(yōu)于純真實(shí)或純合成方案。其中光輪為此提供了大量合成數(shù)據(jù)資產(chǎn),我們也將持續(xù)為其后續(xù) Nx 系列模型提供數(shù)據(jù)支持,并與行業(yè)共享我們的經(jīng)驗(yàn)。
真正能落地的方案,往往都是多種技術(shù)手段協(xié)同演進(jìn)的結(jié)果。在光輪,我們采用的是“混合訓(xùn)練策略”——根據(jù)模型訓(xùn)練階段和任務(wù)需求靈活調(diào)整真實(shí)與合成數(shù)據(jù)比例,實(shí)現(xiàn)效率與效果的最佳平衡。
創(chuàng)投家:相對(duì)于其他的提供數(shù)據(jù)解決方案的企業(yè),光輪智能在技術(shù)上的差異化優(yōu)勢(shì)是什么?甘宇飛:我們堅(jiān)持從“物理真實(shí)感”出發(fā)打造合成數(shù)據(jù)。高精度物理仿真能力是光輪的核心優(yōu)勢(shì)。我們提供的數(shù)字資產(chǎn)具備重量、質(zhì)地、觸感、邏輯交互等物理屬性,能夠真實(shí)還原機(jī)器人在現(xiàn)實(shí)中的動(dòng)作反饋。
其次,強(qiáng)調(diào)人類示范數(shù)據(jù)的價(jià)值。只有讓模型看到人類如何完成任務(wù),它才能更深刻地理解意圖、策略和行為邏輯,從而構(gòu)建更強(qiáng)的認(rèn)知能力。
為了提升數(shù)據(jù)的使用效率和模型的效果,我們認(rèn)為還應(yīng)該高度重視數(shù)據(jù)的泛化性。通過對(duì)仿真環(huán)境中的多維度控制,我們能主動(dòng)生成覆蓋不同情境、角度和復(fù)雜度的任務(wù)數(shù)據(jù),從而解決具身智能中的“real2real gap”問題,也就是“真實(shí)世界中數(shù)據(jù)之間的鴻溝”。
創(chuàng)投家:目前光輪智能的主要客戶群體是哪些?能否分享 1-2 個(gè)典型案例。甘宇飛:我們的客戶包括眾多國(guó)內(nèi)外頂級(jí)機(jī)構(gòu),如英偉達(dá)、DeepMind、Figure AI 以及多家一流高校實(shí)驗(yàn)室。
例如,在英偉達(dá)開源人形機(jī)器人模型 GR00T N1 項(xiàng)目中,我們?yōu)槠涮峁┝巳缀铣蓴?shù)據(jù)支持,包括遙操作行為數(shù)據(jù)、仿真場(chǎng)景與交互資產(chǎn),幫助其在復(fù)雜物理交互任務(wù)中的模型訓(xùn)練。
在國(guó)內(nèi),我們?yōu)?strong>智元提供了具備高保真物理屬性的仿真資產(chǎn),智元在此基礎(chǔ)上構(gòu)建并發(fā)布了公開數(shù)據(jù)集 Agibot Digital World,為行業(yè)提供了高質(zhì)量的具身智能訓(xùn)練資源。
其他客戶還包括字節(jié)跳動(dòng)、銀河等,只要需要使用高質(zhì)量物理交互數(shù)據(jù)的公司基本上都是我們的客戶。
創(chuàng)投家:光輪最近在對(duì)外場(chǎng)合強(qiáng)調(diào)real2real gap,這是什么意思,怎么理解?甘宇飛:在和客戶實(shí)際合作中我們發(fā)現(xiàn),很多時(shí)候場(chǎng)景之間的分布差異即real2real gap很大,而這點(diǎn)是經(jīng)常不被重視的。
我們認(rèn)為需要考慮到數(shù)據(jù)之間的real2real gap,這點(diǎn)在真實(shí)數(shù)據(jù)中很難通過靠擺拍采集來(lái)解決,最好的辦法就是利用仿真技術(shù),快速泛化場(chǎng)景從而通過合成數(shù)據(jù)解決這一問題。結(jié)合數(shù)據(jù)生產(chǎn)效率、數(shù)據(jù)泛化性等維度看,當(dāng)下合成數(shù)據(jù)就是具身智能的最優(yōu)選擇。
創(chuàng)投家:目前光輪智能的仿真資產(chǎn)和場(chǎng)景覆蓋到了哪些場(chǎng)景?哪些場(chǎng)景是客戶比較關(guān)注的?甘宇飛:我們的仿真場(chǎng)景涵蓋了居家、商超、工業(yè)、實(shí)驗(yàn)室、農(nóng)業(yè)、水域等多個(gè)場(chǎng)景,且注重地域多樣性的還原。
以居家場(chǎng)景為例,國(guó)內(nèi)廚房通常面積較小、家電緊湊,而海外家庭廚房則寬敞、設(shè)備種類多樣(如雙開門冰箱、咖啡機(jī)、旋鈕式微波爐等)。
這種高度定制化的仿真能力,使我們?cè)诳鐕?guó)公司和不同地區(qū)的客戶中獲得了良好口碑。
創(chuàng)投家:目前仿真合成數(shù)據(jù)領(lǐng)域還有哪些挑戰(zhàn)是亟待解決的?你們目前進(jìn)展如何?甘宇飛:目前最大的挑戰(zhàn),是整個(gè)行業(yè)仍處在早期發(fā)展階段,尤其在數(shù)據(jù)標(biāo)準(zhǔn)化與關(guān)鍵技術(shù)攻堅(jiān)方面。
首先,數(shù)據(jù)標(biāo)準(zhǔn)的缺失限制了行業(yè)協(xié)同效率。光輪基于多年業(yè)務(wù)積累,制定并推廣了一套標(biāo)準(zhǔn)數(shù)據(jù)格式,正在被越來(lái)越多客戶采納。
其次是技術(shù)層面,柔體仿真與觸覺仿真是目前重點(diǎn)攻堅(jiān)方向。例如,機(jī)器人在疊衣服或穿針引線這類細(xì)致任務(wù)中,對(duì)柔性物體的模擬與觸覺反饋提出極高要求。這不僅涉及到軟件仿真,還需要硬件協(xié)同。
目前我們已在這兩個(gè)方向持續(xù)投入,力求在真實(shí)還原復(fù)雜交互場(chǎng)景的同時(shí),提升模型訓(xùn)練的上限與穩(wěn)定性。
(本文首發(fā)于鈦媒體App,作者|郭虹妘,編輯|陶天宇)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.