[發(fā)明專利]一種基于DDGPES的機(jī)器人控制方法在審
| 申請?zhí)枺?/td> | 201911351334.2 | 申請日: | 2019-12-24 |
| 公開(公告)號: | CN110919659A | 公開(公告)日: | 2020-03-27 |
| 發(fā)明(設(shè)計(jì))人: | 王紅濱;原明旗;何鳴;張?jiān)?/a>;周連科;王念濱;張毅 | 申請(專利權(quán))人: | 哈爾濱工程大學(xué) |
| 主分類號: | B25J9/16 | 分類號: | B25J9/16 |
| 代理公司: | 哈爾濱市松花江專利商標(biāo)事務(wù)所 23109 | 代理人: | 時(shí)起磊 |
| 地址: | 150001 黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 ddgpes 機(jī)器人 控制 方法 | ||
1.一種基于DDGPES的機(jī)器人控制方法,具體包括以下步驟:
將機(jī)器人的控制決策系統(tǒng)記為智能體Agent;
針對Agent,利用DQN網(wǎng)絡(luò)進(jìn)行決策,進(jìn)而實(shí)現(xiàn)機(jī)器人進(jìn)行控制;
其特征在于,DQN網(wǎng)絡(luò)中,采用DDES探索利用策略確定損失函數(shù)LD:
LD=L-Eπ′∈Π′[αD(π,π′)]
其中,L表示為DRL算法中用于更新當(dāng)前策略網(wǎng)絡(luò)的損失函數(shù);π是Agent當(dāng)前的策略,π′是有限策略集合Π′的一個(gè)樣本,D(π,π′)是π和π′之間的度量距離,α是D的比例因子,E[·]表示期望,Eπ′∈Π′[·]表示π′∈Π′條件下對應(yīng)的E[·];
在利用DQN網(wǎng)絡(luò)進(jìn)行決策時(shí),使用波爾茲曼策略選擇行動(dòng),包括以下步驟:
生成隨機(jī)數(shù),判斷隨機(jī)數(shù)與概率ε的大小;
當(dāng)隨機(jī)數(shù)大于等于概率ε時(shí),計(jì)算并判斷是否達(dá)到目標(biāo)狀態(tài);其中,Q(·)為Q函數(shù),表示某一刻狀態(tài)下采用動(dòng)作能夠獲得收益的期望值;ai表示當(dāng)前狀態(tài)s下所有可以選擇的動(dòng)作,i=1,2,3…;A為當(dāng)前狀態(tài)s下所有可以選擇的動(dòng)作的集合;
所述概率ε為ε-greedy策略中ε參數(shù),具體為其中,D為環(huán)比增長率,difference=Qmaxt(s,ai)-Qmaxt-1(s,ai),Qmaxt(s,ai)為狀態(tài)動(dòng)作對(s,ai)當(dāng)前時(shí)間步下的最大收益的期望值,Qmaxt-1(s,ai)為狀態(tài)動(dòng)作對(s,ai)上一時(shí)間步對應(yīng)的最大收益的期望值;
否則,計(jì)算根據(jù)p(s,ai)執(zhí)行動(dòng)作;然后判斷是否達(dá)到目標(biāo)狀態(tài),并更新difference。
2.根據(jù)權(quán)利要求1所述的一種基于DDGPES的機(jī)器人控制方法,其特征在于,所述度量距離D(π,π′)使用KL-divergence距離。
3.根據(jù)權(quán)利要求1或2所述的一種基于DDGPES的機(jī)器人控制方法,其特征在于,所述的L=Es,a,r,s′[(y-Q(s,a;θ))2],其中,s為機(jī)器人的狀態(tài),a為機(jī)器人的動(dòng)作,θ為網(wǎng)絡(luò)參數(shù),Q(·)為Q函數(shù),表示某一刻狀態(tài)下采用動(dòng)作能夠獲得收益的期望;y是DDPG中利用target策略網(wǎng)絡(luò)μ′和target Q網(wǎng)絡(luò)Q′得到的計(jì)算結(jié)果;r為獎(jiǎng)勵(lì)值,s′為轉(zhuǎn)移后的狀態(tài),E[·]表示期望,Es,a,r,s′[·]為s,a,r,s′條件下對應(yīng)的E[·]。
4.一種基于DDGPES的機(jī)器人控制方法,具體包括以下步驟:
步驟一、初始化:當(dāng)前值網(wǎng)絡(luò)Q與目標(biāo)值網(wǎng)絡(luò)Q′的權(quán)重分別為θ與θ′,經(jīng)驗(yàn)回放池E通過智能體Agent與環(huán)境交互存儲樣本序列,二級優(yōu)先級初始化臨時(shí)經(jīng)驗(yàn)回放池為空,并構(gòu)建用于存儲單個(gè)樣本序列的經(jīng)驗(yàn)回放池h;
步驟二、將當(dāng)前狀態(tài)Sm輸入當(dāng)前值網(wǎng)絡(luò)Q,m=1,2,…,t;
利用探索利用策略GBES選擇Agent執(zhí)行的動(dòng)作Am,根據(jù)當(dāng)前狀態(tài)Sm和動(dòng)作Am獲得即時(shí)獎(jiǎng)賞Rm和狀態(tài)Sm+1;將樣本數(shù)據(jù)<Sm;Am;Sm+1;Rm>存儲到經(jīng)驗(yàn)回放池h中,并賦予當(dāng)前經(jīng)驗(yàn)回放池中最大的優(yōu)先級為代表第m個(gè)樣本數(shù)據(jù)的優(yōu)先級;
探索利用策略GPES選擇Agent執(zhí)行的動(dòng)作Am的過程如下:
生成隨機(jī)數(shù),判斷隨機(jī)數(shù)與概率ε的大小;
當(dāng)隨機(jī)數(shù)大于等于概率ε時(shí),計(jì)算并判斷是否達(dá)到目標(biāo)狀態(tài);其中,Q(·)為Q函數(shù),表示某一刻狀態(tài)下采用動(dòng)作能夠獲得收益的期望值;ai表示當(dāng)前狀態(tài)s下所有可以選擇的動(dòng)作,i=1,2,3…;A為當(dāng)前狀態(tài)s下所有可以選擇的動(dòng)作的集合;
所述概率ε為ε-greedy策略中ε參數(shù),具體為其中,D為環(huán)比增長率,difference=Q maxt(s,ai)-Q maxt-1(s,ai),Q maxt(s,ai)為狀態(tài)動(dòng)作對(s,ai)當(dāng)前時(shí)間步下的最大收益的期望值,Q maxt-1(s,ai)為狀態(tài)動(dòng)作對(s,ai)上一時(shí)間步對應(yīng)的最大收益的期望值;
否則,計(jì)算根據(jù)p(s,ai)執(zhí)行動(dòng)作;然后判斷是否達(dá)到目標(biāo)狀態(tài),并更新difference;
步驟三、判斷狀態(tài)St是否達(dá)到中止?fàn)顟B(tài),若狀態(tài)St達(dá)到中止?fàn)顟B(tài),將經(jīng)驗(yàn)回放池h中樣本數(shù)據(jù)組成的樣本序列l(wèi)1={<S1;A1;S2;R1>,<S2;A2;S3;R2>,…,<St;At;St+1;Rt>}保存到經(jīng)驗(yàn)回放池E中,并清空經(jīng)驗(yàn)回放池h,執(zhí)行步驟十二;
步驟四、若狀態(tài)St未達(dá)到中止?fàn)顟B(tài),則判斷是否滿足t%K=0,其中:t%K=0表示t對K取余等于0,K為訓(xùn)練頻率;
若不滿足t%K=0,則執(zhí)行步驟十和步驟十一;
若滿足t%K=0,則計(jì)算出經(jīng)驗(yàn)回放池E中包含的樣本序列的數(shù)量M,并執(zhí)行步驟五至步驟十一;
步驟五、分別計(jì)算出經(jīng)驗(yàn)回放池E中每個(gè)樣本序列的累計(jì)獎(jiǎng)賞值,根據(jù)每個(gè)樣本序列的累計(jì)獎(jiǎng)賞值計(jì)算出每個(gè)樣本序列的優(yōu)先級;
步驟六、分別根據(jù)步驟五計(jì)算出的每個(gè)樣本序列的優(yōu)先級來計(jì)算每個(gè)樣本序列被采樣的概率;
步驟七、根據(jù)步驟六計(jì)算出的每個(gè)樣本序列被采樣的概率,對經(jīng)驗(yàn)回放池E中的樣本序列進(jìn)行采樣,將采樣出來的樣本序列放入臨時(shí)經(jīng)驗(yàn)回放池中,得到臨時(shí)經(jīng)驗(yàn)回放池中含有的樣本數(shù)據(jù)的個(gè)數(shù)
步驟八、計(jì)算步驟七臨時(shí)經(jīng)驗(yàn)回放池中每個(gè)樣本數(shù)據(jù)的采樣概率,根據(jù)每個(gè)樣本數(shù)據(jù)的采樣概率,從臨時(shí)經(jīng)驗(yàn)回放池的個(gè)樣本數(shù)據(jù)中抽取出k個(gè)樣本數(shù)據(jù);
再計(jì)算每個(gè)抽取出的樣本數(shù)據(jù)的采樣重要性系數(shù)ωe以及TD-errorδe,根據(jù)TD-errorδe計(jì)算出每個(gè)抽取出的樣本數(shù)據(jù)的優(yōu)先級;
根據(jù)每個(gè)抽取出的樣本數(shù)據(jù)在經(jīng)驗(yàn)回放池中的樣本序列中的位置,進(jìn)行反向更新優(yōu)先級;
從經(jīng)驗(yàn)回放池的策略集合Π中抽取策略π′,計(jì)算Eπ′∈Π′[αD(π,π′)];
根據(jù)采樣重要性系數(shù)ωe和TD-errorδe計(jì)算每個(gè)抽取出的樣本數(shù)據(jù)的累計(jì)梯度;計(jì)算累計(jì)的過程采用DDES策略進(jìn)行,LD=L-Eπ′∈Π′[αD(π,π′)];
步驟九、根據(jù)步驟八計(jì)算出的累計(jì)梯度更新當(dāng)前值網(wǎng)絡(luò)Q的權(quán)重θ;
步驟十、當(dāng)t%L=0時(shí),更新目標(biāo)值網(wǎng)絡(luò)Q′的權(quán)重為:當(dāng)前值網(wǎng)絡(luò)Q的當(dāng)前權(quán)重;其中:L為目標(biāo)值網(wǎng)絡(luò)Q′的權(quán)重更新頻率;
步驟十一、令Sm=Sm+1,重復(fù)執(zhí)行步驟二至步驟十一,如此循環(huán),直至達(dá)到設(shè)置的最大迭代次數(shù)時(shí)停止執(zhí)行,獲得訓(xùn)練好的當(dāng)前值網(wǎng)絡(luò)Q與目標(biāo)值網(wǎng)絡(luò)Q′;
步驟十二、本次指揮決策過程結(jié)束,將Sm設(shè)置初始狀態(tài)進(jìn)行下一次指揮決策過程。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工程大學(xué),未經(jīng)哈爾濱工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911351334.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





