谷歌具身智能VLA大模型 —— Gemini Robotics : 將人工智能帶入到物理世界
引言
真正實(shí)用的機(jī)器人需要能夠理解周?chē)奈锢硎澜,并以可靠且安全的方式與之交互。也就是說(shuō),基于物理實(shí)體的AI智能體必須具備魯棒的人類(lèi)級(jí)具身推理能力,即包含在物理具身世界中操作和運(yùn)行所需的基礎(chǔ)概念的世界知識(shí)體系。
作為人類(lèi),我們往往將具身推理能力視為理所當(dāng)然—— 例如感知環(huán)境的 3D 結(jié)構(gòu)、解析復(fù)雜的物體間關(guān)系理以及直覺(jué)物理規(guī)律理解 —— 但這些能力卻是構(gòu)成具身AI智能體的能力基石。
此外,具身AI智能體更需突破被動(dòng)理解現(xiàn)實(shí)世界空間與物理概念的局限,通過(guò)行動(dòng)直接影響外部環(huán)境,從而彌合被動(dòng)感知與主動(dòng)物理交互之間的鴻溝。
隨著機(jī)器人硬件的革新,構(gòu)建能執(zhí)行高靈巧任務(wù)的具身AI智能體迎來(lái)歷史性機(jī)遇。2025年3月12日,谷歌Deep Mind發(fā)布了基于多模態(tài)通用大模型Gemini2.0構(gòu)建的兩類(lèi)大模型:Gemini Robotics(VLA)和Gemini Robotics-ER(VLM)。
Gemini Robotics和Gemini Robotics-ER
1. Gemini Robotics-ER
Gemini Robotics - ER(VLM模型),其中ER 代表 “embodied reasoning”(具身推理),將Gemini的多模態(tài)推理能力擴(kuò)展至物理世界,具備增強(qiáng)的空間和時(shí)間理解能力,包括物體檢測(cè)、指向、軌跡預(yù)測(cè)和抓取預(yù)測(cè)等2D空間概念理解能力,以及多視角3D場(chǎng)景理解和3D邊界框檢測(cè)等3D空間推理能力。
多視角3D場(chǎng)景理解: 通過(guò)關(guān)聯(lián)不同視角的2D點(diǎn)來(lái)理解3D場(chǎng)景
1)支持零樣本和少樣本機(jī)器人控制
論文中,研究人員使用Gemini 2.0 Flash和Gemini Robotics-ER兩類(lèi)模型,分別采用兩種不同的機(jī)器人控制方法進(jìn)行實(shí)驗(yàn)。
零樣本(zero-shot)機(jī)器人控制——通過(guò)代碼生成控制機(jī)器人。
少樣本(few-shot)控制——通過(guò)上下文學(xué)習(xí)(in-context learning, ICL),基于少量示例適應(yīng)新行為。
兩類(lèi)模型在模擬環(huán)境中執(zhí)行一組操作任務(wù)的結(jié)果對(duì)比
備注:這些任務(wù)涵蓋了不同難度和物體類(lèi)型,從簡(jiǎn)單的抓取任務(wù)(如抬起香蕉)到長(zhǎng)時(shí)序、多步驟、多任務(wù)的操作(如將玩具放入盒子并關(guān)閉盒子)。
試驗(yàn)結(jié)果表明,Gemini Robotics-ER 在兩種控制方式下的任務(wù)完成率均表現(xiàn)良好。Gemini Robotics-ER能夠利用上下文學(xué)習(xí)(in-context learning),僅憑少量示例就能提高更復(fù)雜的靈巧雙臂任務(wù)(如折疊衣物)的執(zhí)行能力,并能夠直接輸出末端執(zhí)行器的軌跡以完成任務(wù)。
在零樣本機(jī)器人控制方面,Gemini Robotics-ER任務(wù)完成率相比Gemini 2.0 提高了近2倍。
在少樣本機(jī)器人控制方面,Gemini 2.0 Flash 在模擬環(huán)境中平均成功率達(dá)到51%。然而,Gemini Robotics-ER 在模擬環(huán)境中的平均成功率達(dá)到 65%。
另外,實(shí)驗(yàn)還表明,模型的具身推理能力與下游機(jī)器人控制的性能之間存在強(qiáng)相關(guān)性。Gemini Robotics-ER 可以直接用于機(jī)器人控制,包括:作為感知模塊(如物體檢測(cè)),規(guī)劃模塊(如軌跡生成)以及通過(guò)生成和執(zhí)行代碼來(lái)協(xié)調(diào)機(jī)器人運(yùn)動(dòng)。
不過(guò),Gemini Robotics-ER作為VLM模型,也存在局限性,尤其是在更復(fù)雜的靈巧操作任務(wù)上。這主要是因?yàn)樾枰~外的中間步驟來(lái)將模型的具身推理能力與機(jī)器人執(zhí)行動(dòng)作關(guān)聯(lián)起來(lái)。
2. Gemini Robotics
Gemini Robotics是一種端到端的VLA(視覺(jué)-語(yǔ)言-行動(dòng))模型,將強(qiáng)大的具身推理先驗(yàn)與現(xiàn)實(shí)世界機(jī)器人的靈巧低級(jí)控制相結(jié)合,能夠在不同環(huán)境下解決靈巧任務(wù),并支持不同的機(jī)器人形態(tài)。
Gemini Robotics是Gemini Robotics-ER的一個(gè)衍生版本,采用了雙組件架構(gòu):
Gemini Robotics 主干網(wǎng)絡(luò):托管在云端,負(fù)責(zé)視覺(jué)-語(yǔ)言推理。
Gemini Robotics 解碼器:運(yùn)行在機(jī)器人控制器上,負(fù)責(zé)動(dòng)作執(zhí)行。
Gemini Robotics 主干網(wǎng)絡(luò)由Gemini Robotics-ER的一個(gè)蒸餾版本(distilled version)組成,其查詢(xún)-響應(yīng)延遲已優(yōu)化至小于160ms(相比原始模型減少了數(shù)秒)。為了補(bǔ)償主干網(wǎng)絡(luò)的延遲,Gemini Robotics解碼器在本地執(zhí)行低級(jí)控制。
Gemini Robotics模型架構(gòu)概覽
Gemini Robotics 模型實(shí)驗(yàn)驗(yàn)證結(jié)果
1. 基于原始Gemini Robotics 基礎(chǔ)模型進(jìn)行測(cè)試
谷歌研究人員將Gemini Robotics 與π0 re-implement和多任務(wù)擴(kuò)散策略模型(Multi-task Diffusion Policy)這兩種最先進(jìn)的基線(xiàn)模型進(jìn)行對(duì)比試驗(yàn)。所有模型均在開(kāi)箱即用(out of the box)的條件下進(jìn)行評(píng)測(cè),即不進(jìn)行任何任務(wù)特定的微調(diào)或額外提示。
實(shí)驗(yàn)結(jié)果顯示:
Gemini Robotics 在靈巧操作、語(yǔ)言指令理解以及泛化能力方面表現(xiàn)出色。
1)靈巧操作
在該組實(shí)驗(yàn)中,研究人員從數(shù)據(jù)集中隨機(jī)抽取20個(gè)任務(wù)進(jìn)行測(cè)試,覆蓋洗衣房、廚房、辦公桌以及其它日;顒(dòng)場(chǎng)景。
實(shí)驗(yàn)結(jié)果表明,Gemini Robotics在一半的任務(wù)中表現(xiàn)出色,成功率超過(guò)80%。尤其是在可變形物體操控方面表現(xiàn)尤為優(yōu)異(如“折疊粉色布料”、“纏繞耳機(jī)線(xiàn)”),而基線(xiàn)模型在這些任務(wù)上表現(xiàn)不佳。
三個(gè)模型在20個(gè)不同任務(wù)執(zhí)行過(guò)程中的成功率對(duì)比
問(wèn)題點(diǎn)在于:某些復(fù)雜的高難度靈巧任務(wù)(比如“插入鞋帶”) ,未經(jīng)過(guò)微調(diào)的Gemini Robotics模型執(zhí)行任務(wù)的成功率依然然很低。
2)語(yǔ)言指令理解
在該組實(shí)驗(yàn)中,研究人員選取了25條語(yǔ)言指令,并在5個(gè)不同的評(píng)估場(chǎng)景中進(jìn)行測(cè)試,包括訓(xùn)練場(chǎng)景以及包含未見(jiàn)過(guò)物體和容器的全新場(chǎng)景。
實(shí)驗(yàn)結(jié)果表明,在具有挑戰(zhàn)性的場(chǎng)景(包含新物體和細(xì)粒度指令的任務(wù),如“將牙膏放入盥洗架底部隔間” ),Gemini Robotics 的表現(xiàn)優(yōu)于所有基線(xiàn)模型。
針對(duì)新物體的帶詳細(xì)指令的 “拾取” 和 “拾取并放置” 任務(wù)的成功率
3)泛化能力
研究人員評(píng)估了Gemini Robotics模型在指令泛化、視覺(jué)泛化以及動(dòng)作泛化三個(gè)維度上的泛化能力。
三個(gè)模型泛化能力試驗(yàn)結(jié)果對(duì)比
Gemini Robotics在所有三種泛化類(lèi)型上均明顯優(yōu)于基線(xiàn)模型,并能更有效地適應(yīng)各種變化。即使在基線(xiàn)模型發(fā)生災(zāi)難性失。ㄈ缬龅叫抡Z(yǔ)言的指令)的情況下,Gemini Robotics 仍能取得非零成功率。
研究人員推測(cè),Gemini Robotics較強(qiáng)的泛化能力依賴(lài)于以下三種原因:
更強(qiáng)大、更高容量的VLM(視覺(jué)-語(yǔ)言模型)主干網(wǎng)絡(luò);Gemini 2.0 中最先進(jìn)的視覺(jué)編碼器;多樣化的訓(xùn)練數(shù)據(jù)共同提升了模型的泛化能力。
2. 基于微調(diào)后的Gemini Robotics專(zhuān)用模型進(jìn)行測(cè)試
研究人員通過(guò)對(duì)Gemini Robotics模型在小規(guī)模高質(zhì)量數(shù)據(jù)集上進(jìn)行微調(diào),進(jìn)一步測(cè)試模型的極限能力,并探索未來(lái)可能的優(yōu)化方向,具體研究方向如下:
能否執(zhí)行復(fù)雜長(zhǎng)時(shí)序靈巧任務(wù);推理能力、語(yǔ)義泛化以及空間理解是否有所增強(qiáng);能否快速適應(yīng)新任務(wù);能否適配到不同實(shí)體形態(tài)的的機(jī)器人。
1)長(zhǎng)時(shí)序靈巧操作任務(wù)
研究人員選擇了6個(gè)高難度的長(zhǎng)時(shí)序任務(wù)來(lái)測(cè)試經(jīng)過(guò)小規(guī)模高質(zhì)量數(shù)據(jù)集訓(xùn)練微調(diào)后的Gemini Robotics模型。這六項(xiàng)任務(wù)分別為:折紙狐貍”、“打包午餐盒”、“拼寫(xiě)游戲”、“玩紙牌游戲”、“夾取豌豆”、“舀堅(jiān)果”。
Gemini Robotics 在 ALOHA 機(jī)器人平臺(tái)上成功完成多種長(zhǎng)時(shí)序靈巧任務(wù)
4類(lèi)模型執(zhí)行6項(xiàng)任務(wù)的成功率對(duì)比
實(shí)驗(yàn)結(jié)果表明:
經(jīng)過(guò)相同數(shù)據(jù)微調(diào)后,從執(zhí)行6項(xiàng)任務(wù)執(zhí)行的成功率來(lái)看,經(jīng)過(guò)微調(diào)后的Gemini Robotics專(zhuān)用化模型明顯要優(yōu)于經(jīng)過(guò)微調(diào)的兩個(gè)基線(xiàn)模型【Multi-task diffusion(specialist) 和 π0 re-implement (specialist))】。
尤其在“舀堅(jiān)果”、“打包午餐盒”、“玩紙牌游戲”以及“拼寫(xiě)游戲”這四項(xiàng)任務(wù)中,經(jīng)過(guò)微調(diào)后的Gemini Robotics專(zhuān)用化模型執(zhí)行任務(wù)的成功率達(dá)到了80%以上。
2)單步推理、語(yǔ)義泛化以及空間理解能力增強(qiáng)
研究人員將增強(qiáng)推理版本的Gemini Robotics 與未經(jīng)微調(diào)的原始基礎(chǔ) Gemini Robotics 模型進(jìn)行了比較,測(cè)試場(chǎng)景均為訓(xùn)練分布外的真實(shí)機(jī)器人任務(wù)。
基礎(chǔ)Gemini Robotics 模型與增強(qiáng)推理版本在真實(shí)世界評(píng)估任務(wù)中的成功率對(duì)比
實(shí)驗(yàn)結(jié)果顯示:
在真實(shí)世界的分布外任務(wù)中,推理增強(qiáng)版Gemini Robotics在單步推理、語(yǔ)義知識(shí)及空間理解的任務(wù)中的成功率獲得顯著提升。
另外,實(shí)驗(yàn)還表明,推理增強(qiáng)版Gemini Robotics模型還可輸出類(lèi)似人類(lèi)思維的可解釋中間步驟(與Gemini Robotics-ER的具身推理軌跡高度吻合),大幅提升模型可解釋性。如下圖所示的關(guān)鍵點(diǎn)軌跡可視化,即為模型內(nèi)部思維鏈的具象化映射。
推理增強(qiáng)版Gemini Robotics模型思維鏈預(yù)測(cè)軌跡可視化
備注:紅色與藍(lán)色軌跡分別表示模型利用具身推理知識(shí),對(duì)左臂(紅)和右臂(藍(lán))未來(lái)1秒運(yùn)動(dòng)路徑的預(yù)測(cè)結(jié)果。
3)快速適應(yīng)新任務(wù)
機(jī)器人基礎(chǔ)模型通過(guò)利用預(yù)先獲取的機(jī)器人動(dòng)作和物理交互常識(shí),有望實(shí)現(xiàn)快速任務(wù)學(xué)習(xí)。
為了驗(yàn)證此結(jié)論,研究人員從之前的長(zhǎng)時(shí)序任務(wù)中選取了8個(gè)子任務(wù),并對(duì)基礎(chǔ)模型微調(diào),來(lái)觀察每個(gè)任務(wù)的平均成功率隨演示次數(shù)的變化情況。
各任務(wù)平均成功率隨演示次數(shù)的變化曲線(xiàn)
實(shí)驗(yàn)結(jié)果顯示:
8項(xiàng)任務(wù)中有7項(xiàng)僅需至多100次演示(相當(dāng)于15分鐘至1小時(shí),具體取決于任務(wù)復(fù)雜度),微調(diào)后Gemini Robotics專(zhuān)用模型成功率便已超過(guò)70%。
在其中的2項(xiàng)任務(wù)中(“放容器到午餐盒”和“放入生菜”),微調(diào)后的Gemini Robotics專(zhuān)用模型的任務(wù)成功率達(dá)到100%。
在“折紙狐貍:第一折"、“放容器到午餐盒”和“午餐盒拉鏈閉合”這3項(xiàng)復(fù)雜任務(wù)中,微調(diào)后的Gemini Robotics專(zhuān)用模型執(zhí)行任務(wù)的成功率明顯優(yōu)于基線(xiàn)模型。
在“放入生菜”、“澆沙拉醬”和“抽紙牌”這3項(xiàng)相對(duì)簡(jiǎn)單任務(wù)中,微調(diào)后的π0 re-implement專(zhuān)用模型表現(xiàn)優(yōu)異,在100次演示后,任務(wù)成功率達(dá)到100%。π0-reimplement 的表現(xiàn)略微優(yōu)于 Gemini Robotics。
結(jié)論:強(qiáng)大的視覺(jué)語(yǔ)言模型(VLM)主干網(wǎng)絡(luò)能將豐富多元的機(jī)器人動(dòng)作數(shù)據(jù)轉(zhuǎn)化為對(duì)物理交互的深度理解,這是實(shí)現(xiàn)新任務(wù)快速學(xué)習(xí)的關(guān)鍵所在。
4)適配新的機(jī)器人形態(tài)
在此次實(shí)驗(yàn)中,研究人員探索基于ALOHA 2平臺(tái)動(dòng)作數(shù)據(jù)訓(xùn)練的Gemini Robotics模型,如何通過(guò)少量目標(biāo)平臺(tái)數(shù)據(jù)高效適配新實(shí)體形態(tài)。
新的實(shí)體形態(tài)機(jī)器人實(shí)驗(yàn)對(duì)象包括:配備平行夾爪的雙臂Franka機(jī)器人和Apptronik公司研發(fā)的配置五指靈巧手的全尺寸人形機(jī)器人Apollo。
Gemini Robotics模型可經(jīng)微調(diào)操控不同機(jī)器人
備注:上圖為Apollo人形機(jī)器人封裝午餐袋。下圖為雙臂工業(yè)機(jī)器人裝配工業(yè)橡膠帶至滑輪系統(tǒng)。
當(dāng)Gemini Robotics適配到雙臂Franka機(jī)器人新實(shí)體形態(tài)后的泛化指標(biāo)細(xì)分
實(shí)驗(yàn)結(jié)果顯示:
當(dāng)Gemini Robotics模型適配到新形態(tài)實(shí)體機(jī)器人(雙臂 Franka 機(jī)器人)后,在視覺(jué)泛化和動(dòng)作泛化測(cè)試上:
在分布內(nèi)任務(wù)上,執(zhí)行任務(wù)成功率持平或略?xún)?yōu)于先進(jìn)的單任務(wù)擴(kuò)散策略;
在分布外任務(wù)上,執(zhí)行任務(wù)成功率明顯優(yōu)于先進(jìn)的單任務(wù)擴(kuò)散策略;
這在一定程度上表明,經(jīng)過(guò)針對(duì)新形態(tài)實(shí)體機(jī)器人的微調(diào),Gemini Robotics模型能夠成功的將其泛化能力遷移到不同形態(tài)的機(jī)器人。
結(jié)語(yǔ)
Gemini Robotics模型在精細(xì)的柔性布料操作、鉸接物體精準(zhǔn)操控等多樣化任務(wù)中展現(xiàn)突出能力。研究人員把該模型能力突出的原因歸結(jié)于:
強(qiáng)大的視覺(jué)語(yǔ)言模型,具備增強(qiáng)的具身推理能力;
針對(duì)機(jī)器人任務(wù),采用大規(guī)模機(jī)器人動(dòng)作數(shù)據(jù)與多樣化的非機(jī)器人數(shù)據(jù)的特定訓(xùn)練方案;
專(zhuān)為低延遲機(jī)器人控制設(shè)計(jì)的獨(dú)特架構(gòu)。
Gemini Robotics模型的關(guān)鍵優(yōu)勢(shì)在于:成功繼承Gemini Robotics-ER的具身推理特性,能高效遵循開(kāi)放詞匯指令,并展現(xiàn)強(qiáng)大的零樣本泛化能力。通過(guò)微調(diào)實(shí)現(xiàn)專(zhuān)項(xiàng)適應(yīng),該模型在新任務(wù)/新實(shí)體形態(tài)中達(dá)成較高操作精度,并在挑戰(zhàn)性場(chǎng)景中保持泛化能力。
此外,盡管Gemini Robotics 的初步實(shí)驗(yàn)結(jié)果顯示出了令人期待的泛化能力,但但谷歌研究人員表示,未來(lái)工作將會(huì)繼續(xù)聚焦于以下幾個(gè)關(guān)鍵領(lǐng)域:
1)提升Gemini Robotics模型處理更復(fù)雜場(chǎng)景下的能力。這類(lèi)場(chǎng)景需要模型同時(shí)具備多步推理和精確靈巧操作的復(fù)合能力,尤其是在應(yīng)對(duì)從未接觸過(guò)的全新場(chǎng)景時(shí)。
2)構(gòu)建仿真驅(qū)動(dòng)數(shù)據(jù)引擎提升 VLA 模型的能力。利用仿真生成視覺(jué)多樣化且接觸密集型數(shù)據(jù),發(fā)展面向現(xiàn)實(shí)遷移的視覺(jué)-語(yǔ)言-動(dòng)作模型訓(xùn)練范式。
3)擴(kuò)展多具身實(shí)驗(yàn),減少模型適配新形態(tài)機(jī)器人所需的數(shù)據(jù)量,最終實(shí)現(xiàn)零樣本跨機(jī)器人實(shí)體形態(tài)的能力遷移。
原文標(biāo)題 : 谷歌具身智能VLA大模型 —— Gemini Robotics : 將人工智能帶入到物理世界

發(fā)表評(píng)論
登錄
手機(jī)
驗(yàn)證碼
立即登錄即可訪(fǎng)問(wèn)所有OFweek服務(wù)
還不是會(huì)員?免費(fèi)注冊(cè)
忘記密碼請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
7月8日立即報(bào)名>> 【在線(xiàn)會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線(xiàn)下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠(chǎng)展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身智能機(jī)器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
推薦專(zhuān)題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 特斯拉Robotaxi上路,馬斯克端上畫(huà)了十年的餅
- 7 張勇等人退出阿里合伙人
- 8 AI的夏天:第四范式VS云從科技VS地平線(xiàn)機(jī)器人
- 9 AI視頻,攪動(dòng)1.5萬(wàn)億市場(chǎng)
- 10 深圳跑出40億超級(jí)隱形冠軍:賣(mài)機(jī)器人年入6.1億,港股上市