[發(fā)明專利]一種機器人任務(wù)執(zhí)行方法、裝置、設(shè)備及可讀存儲介質(zhì)有效

申請?zhí)枺?/td>	202210037607.1	申請日：	2022-01-13
公開（公告）號：	CN114378791B	公開（公告）日：	2023-09-01
發(fā)明（設(shè)計）人：	張信明;張夏禹;林楠	申請（專利權(quán)）人：	中國科學(xué)技術(shù)大學(xué)
主分類號：	B25J9/00	分類號：	B25J9/00;B25J9/08;B25J9/16;G06N3/047;G06N3/092;G06N3/094
代理公司：	北京集佳知識產(chǎn)權(quán)代理有限公司 11227	代理人：	馮海剛
地址：	230026 安***	國省代碼：	安徽;34
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種機器人任務(wù) 執(zhí)行方法裝置設(shè)備可讀存儲介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種機器人任務(wù)執(zhí)行方法，其特征在于，包括：

預(yù)先利用演示軌跡訓(xùn)練得到各子任務(wù)對應(yīng)的基元及基元預(yù)測器；

將任務(wù)示教軌跡對應(yīng)的狀態(tài)序列輸入到所述基元預(yù)測器中，以得到對應(yīng)的基元標(biāo)簽序列，并對所述基元標(biāo)簽序列進行濾波處理和調(diào)整；

根據(jù)調(diào)整后的基元標(biāo)簽序列將所述任務(wù)示教軌跡對應(yīng)的狀態(tài)序列分割成多個子軌跡對應(yīng)的子狀態(tài)序列，從各所述子狀態(tài)序列中提取對應(yīng)的目標(biāo)狀態(tài)；

控制機器人依次根據(jù)各所述子軌跡對應(yīng)的基元及目標(biāo)狀態(tài)，執(zhí)行所述基元對應(yīng)的子任務(wù)；

其中，預(yù)先利用演示軌跡訓(xùn)練得到各子任務(wù)對應(yīng)的基元，包括：

根據(jù)對所述基元中的逆動力學(xué)模型進行訓(xùn)練；所述逆動力學(xué)模型用于在給定環(huán)境交互數(shù)據(jù)(s_t,a_t,s_t+1)下生成動作a_t，s_t為t時刻環(huán)境的狀態(tài)，s_t+1為t+1時刻環(huán)境的狀態(tài)，為所述演示軌跡的集合，I為所述逆動力學(xué)模型，L_I為所述逆動力學(xué)模型對應(yīng)的損失函數(shù)；

根據(jù)對注意力權(quán)重進行訓(xùn)練；w_a為注意力權(quán)重，為w_a對應(yīng)的損失函數(shù)；

根據(jù)及對所述基元中的元策略進行訓(xùn)練；所述元策略用于通過當(dāng)前狀態(tài)和目標(biāo)狀態(tài)預(yù)測下一步的狀態(tài)，π_m為所述基元中的元策略，g為目標(biāo)狀態(tài)，為元策略對應(yīng)的損失函數(shù)，為所述演示軌跡的集合的大小，J(D,P)為生成性對抗網(wǎng)絡(luò)，所述元策略被視為狀態(tài)轉(zhuǎn)移對的生成器P(x)，D(x)為生成性對抗網(wǎng)絡(luò)中的鑒別器，p^*(x|g)為真實可達的狀態(tài)轉(zhuǎn)移概率分布，為從p^*(x|g)中采樣得到的樣本x的期望，p(s_t|g)為元策略下的狀態(tài)概率分布，為從p(s_t|g)中采樣得到的s_t的期望。

2.根據(jù)權(quán)利要求1所述的機器人任務(wù)執(zhí)行方法，其特征在于，還包括：

判斷當(dāng)前基元是否執(zhí)行失敗；

若是，則停止執(zhí)行所述當(dāng)前基元對應(yīng)的子任務(wù)，并利用所述當(dāng)前基元對應(yīng)的子軌跡對所述當(dāng)前基元進行訓(xùn)練。

3.根據(jù)權(quán)利要求2所述的機器人任務(wù)執(zhí)行方法，其特征在于，判斷當(dāng)前基元是否執(zhí)行失敗，包括：

利用所述當(dāng)前基元確定環(huán)境在選定時刻對應(yīng)的預(yù)測狀態(tài)，并獲取所述環(huán)境在所述選定時刻對應(yīng)的實際狀態(tài)；

判斷所述預(yù)測狀態(tài)與所述實際狀態(tài)的偏差是否超過閾值；

若是，則確定所述當(dāng)前基元執(zhí)行失敗。

4.根據(jù)權(quán)利要求2所述的機器人任務(wù)執(zhí)行方法，其特征在于，判斷當(dāng)前基元是否執(zhí)行失敗，包括：

判斷所述當(dāng)前基元對應(yīng)的子任務(wù)的執(zhí)行時長是否超過預(yù)設(shè)時長；

若是，則確定所述當(dāng)前基元執(zhí)行失敗。

5.根據(jù)權(quán)利要求1所述的機器人任務(wù)執(zhí)行方法，其特征在于，在對所述基元中的元策略進行訓(xùn)練之后，還包括：

利用對I⊙π_m進行調(diào)整；其中，為I⊙π_m對應(yīng)的損失函數(shù)，I⊙π_m為所述基元中元策略和逆動力學(xué)模型的組合策略，D為強化學(xué)習(xí)回合緩存數(shù)據(jù)，R(τ)為強化學(xué)習(xí)中的回合獎勵，λ₀和λ₁為描述行為權(quán)重的超參數(shù)，k為迭代步驟，T為t的最大取值。

6.根據(jù)權(quán)利要求5所述的機器人任務(wù)執(zhí)行方法，其特征在于，對濾波處理后的基元標(biāo)簽序列進行調(diào)整，包括：

利用濾波處理后的基元標(biāo)簽序列對應(yīng)的基元中的元策略對濾波處理后的基元標(biāo)簽序列進行調(diào)整。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)技術(shù)大學(xué)，未經(jīng)中國科學(xué)技術(shù)大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210037607.1/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：控制方法及電子設(shè)備
下一篇：一種基于多臺流星雷達同地協(xié)作修正天線角度偏差的方法

同類專利

專利分類

B 作業(yè)；運輸

B25 手動工具；輕便機動工具；手動器械的手柄；車間設(shè)備；機械手
B25J 機械手；裝有操縱裝置的容器
B25J9-00 程序控制機械手
B25J9-02 .以臂的運動為特征的，例如直角坐標(biāo)型的
B25J9-06 .以多鉸接爪臂為特征的
B25J9-08 .以部件結(jié)構(gòu)為特征的
B25J9-10 .以機械手元件定位裝置為特征的
B25J9-16 .程序控制

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】