財聯社8月12日訊(編輯 史正丞)在當地時間周一揭幕的行業(yè)頂級會議SIGGRAPH(國際計算機協會計算機圖形學和交互技術特別興趣小組年度會議)上,“全球股王”英偉達推出一系列面向機器人開發(fā)者的世界模型、應用庫和基礎設施。
其中,最引人關注的是參數量只有70億的開源物理AI應用和機器人視覺推理模型Cosmos Reason。
英偉達介紹稱,自從OpenAI多年前發(fā)布CLIP模型以來,視覺語言模型已經改變了計算機視覺任務,例如物體與模式的識別等。然而,此前的模型無法解決多步驟任務,也難以應對模糊或新穎的現實體驗。
憑借記憶和理解能力,Cosmos Reason能夠使機器人和AI具身代理“像人類一樣推理”,并在真實世界中采取行動。
在英偉達給出的案例中,運行視覺推理模型的機器人手臂,成功根據“面包+烤面包機”的場景,推斷出最合理的下一步動作是將面包放進烤面包機進行烘烤,并將思考邏輯轉化成機器手臂的操作指令。
(來源:英偉達)
這項功能叫做“機器人規(guī)劃與推理”。Cosmos Reason能夠作為機器人的“大腦”,負責有意識、條理化的決策。視覺推理模型能夠解釋環(huán)境,并在面對復雜指令時將其分解為任務并利用常識執(zhí)行。
除此之外,這個模型還能用于一系列AI應用。例如自動化對大規(guī)模、多樣化訓練數據集進行整理、標注,也能從海量視頻數據中提取有價值的信息并進行歸因分析。
目前這個模型已經投入商業(yè)化運營。英偉達披露,公司內部的機器人和自動駕駛團隊正使用這個模型進行數據整理與過濾、標注以及VLA(視覺語言動作)后訓練。優(yōu)步(Uber)也在使用該模型為自動駕駛訓練數據進行標注與生成說明。
除此之外,麥格納國際正在使用該模型開發(fā)全自動即時配送解決方案City Delivery,用來幫助車輛更快適應新城市環(huán)境。VAST Data、Milestone Systems也在交通監(jiān)控自動化、視覺檢測等領域應用該模型。
除了Cosmos Reason,英偉達也在Cosmos世界模型中新增了Cosmos Transfer-2,用來加速從3D仿真等場景生成合成數據,以及一個經過蒸餾、更為注重速度優(yōu)化的Cosmos Transfers版本。
英偉達也在周一更新了Omniverse軟件開發(fā)工具包,并公布了新的神經重建庫。其中包括一種渲染技術庫,允許開發(fā)者使用傳感器數據在三維中模擬現實世界。這一系列發(fā)布標志著AI芯片巨頭正在加碼進軍機器人領域,試圖將其培養(yǎng)成AI數據中心之外的下一個重要應用場景。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.