谷歌提出非監(jiān)督強化學(xué)習(xí)新方法助力智能體發(fā)現(xiàn)多樣化可預(yù)測新技能
利用模型動力學(xué)實現(xiàn)基于模型的控制
DADS不僅可以發(fā)現(xiàn)可預(yù)測的潛在有用模型,同時允許高效地將學(xué)習(xí)到的技能應(yīng)用于下游任務(wù)中去?梢岳脤W(xué)習(xí)到的技能動力學(xué)來預(yù)測每個技能的狀態(tài)轉(zhuǎn)移,預(yù)測的狀態(tài)轉(zhuǎn)移可以被銜接起來模擬任意技能的完整狀態(tài)軌跡,而無需在環(huán)境中執(zhí)行。因此我們可以模擬不同技能的軌跡,并為給定的任務(wù)選擇最高獎勵的技能;谀P偷囊(guī)劃方法具有很高的樣本效率并無需額外的訓(xùn)練。相較于先前的方法是一個重要的進步,無需針對學(xué)習(xí)到的技能在環(huán)境中進行額外的訓(xùn)練。
利用智能體發(fā)現(xiàn)的技能,就可以在無需額外實驗的情況下遍歷任意檢查點。上圖顯示了主體在檢查點間的遍歷情況。
真實實驗
為了驗證算法的有效性,研究人員針對這一算法提出了簡化版本off-DADS,通過離線學(xué)習(xí)對算法和系統(tǒng)上的改進,使得模型可以利用從不同策略下收集的數(shù)據(jù)來改進當(dāng)前策略。特別是對于先前數(shù)據(jù)的復(fù)用將顯著提升強化學(xué)習(xí)算法的樣本效率。在改進的離線策略基礎(chǔ)上,研究人員從隨機初始化策略開始訓(xùn)練了小四足機器人,在沒有任何環(huán)境獎勵和手工探索策略的情況下,通過DADS定義的內(nèi)部獎勵實現(xiàn)了多種步態(tài)和方向性運動。
這種新穎的非監(jiān)督學(xué)習(xí)技能發(fā)現(xiàn)方法可以在將來被用于更為廣泛的真實世界任務(wù)中,在最小化人類工作的情況下適應(yīng)廣泛場景和任務(wù)需求。未來研究人員們將在狀態(tài)表示和技能發(fā)現(xiàn)間進行更為深入的研究,并探索將高級的運動規(guī)劃和底層的控制進行分離的技能探索策略。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
7月22-29日立即報名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機器人及智能工廠展
-
7月31日免費預(yù)約>> OFweek 2025具身智能機器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費參會立即報名>> 7月30日- 8月1日 2025全數(shù)會工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍皮書》
-
8月5日立即報名>> 【在線會議】CAE優(yōu)化設(shè)計:醫(yī)療器械設(shè)計的應(yīng)用案例與方案解析
推薦專題