[發明專利]一種基于蝙蝠算法與強化學習的路徑規劃方法有效
| 申請號: | 201910854519.9 | 申請日: | 2019-09-10 |
| 公開(公告)號: | CN110632922B | 公開(公告)日: | 2022-06-17 |
| 發明(設計)人: | 邱騰飛;朱敬旭輝;劉信潮;趙景波;張文彬 | 申請(專利權)人: | 青島理工大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02;G01C21/20 |
| 代理公司: | 青島華慧澤專利代理事務所(普通合伙) 37247 | 代理人: | 馬千會 |
| 地址: | 266033 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 蝙蝠 算法 強化 學習 路徑 規劃 方法 | ||
1.基于蝙蝠算法與強化學習的路徑規劃方法,其特征在于,包括:
確定路徑規劃的初始位置和目標位置,采用適應度函數確定兩位置的函數值,根據蝙蝠算法得到蝙蝠的初始狀態和最終狀態;
以<α,γ>為強化學習的動作,從蝙蝠的初始狀態開始,對所述動作進行強化學習訓練,使每一個狀態得到一個最優動作,將訓練得到的狀態-動作對保存到Q表中;所述<α,γ>為蝙蝠算法的響度衰減系數α和脈沖發射率增強系數γ的組合;
從Q表中選取最優的狀態-動作對,代入蝙蝠算法中,得到最優的蝙蝠位置;從而規劃出初始位置到目標位置的最優路徑;
所述蝙蝠的初始狀態和最終狀態的算法過程為:
Step 1:種群初始化;
Step 2:初始化蝙蝠的位置xi,并根據適應度函數值的優劣尋找當前最優解x*;
Step 3:開始主循環,生成均勻分布的隨機數rand,
若rand<ri,則按照下列公式分別更新蝙蝠的頻率、速度和位置;
fi=fmin+(fmax-fmin)β, (4)
其中:
β:β∈[0,1]是均勻分布的隨機數;
fi:第i只蝙蝠的搜索脈沖頻率,fi∈[fmin,fmax];分別表示第t代和第t-1代第i只蝙蝠的速度;
分別表示第t代和第t-1代第i只蝙蝠的狀態;
x*:當前所有蝙蝠的最優狀態;
若rand≥ri,則根據公式(4)進行局部搜索,產生一個新解xnew,并對該解進行越界處理;
xnew=xold+∈Lt, (7)
其中:
∈∈[-1,1],是均勻分布的隨機數;Lt是第t代所有蝙蝠響度的平均值;xold是當前最優個體;xnew是經局部搜索后產生的新個體;
ri表示第i只蝙蝠的脈沖發射率;
Step 4:生成均勻分布的隨機數rand,若rand<Li且fit(xnew)<fit(x*),則接受Step 3產生的新解xnew,將蝙蝠位置進行更新,同時根據公式(5)和公式(6)對脈沖響度和脈沖發射率進行調整;
其中:
α稱為響度衰減系數,γ稱為脈沖發射率增強系數;對于任意的0<α<1和γ>0,當迭代次數t→+∞時,響度脈沖發射率是初始脈沖發射率;
Step 5:更新整個流程的最優解,判斷是否到達終止條件,是則輸出最優解,否則循環至Step 3;
所述的適應度函數為:
F=F1+penalty, (2)
其中:
(x,y):當前時刻t位置
(x,,y′):下一時刻t+1位置
(xg,yg):目標位置
F1:路徑規劃中下一時刻位置(x′,y′)與當前時刻位置(x,y)和目標位置(xg,yg)的歐式距離之和最小,即實現路徑最短;
penalty:路徑規劃中不能接觸環境中的障礙物(xi,yi),i∈{1,2,…n},其中n為障礙物的數量,否則添加一個大的懲罰項,即實現避障目標;
所述對動作進行強化學習訓練的算法過程為:
在動作集中選取最優動作進行即時獎勵;所述即時獎勵設置為連續迭代中相鄰蝙蝠適應度值之間的差值,表達式為:
re(Ri(t),<α′,γ′>)=fit(Xi(t+1))-fit(Xi(t))=Ri(t+1)-Ri(t) (12)
其中:<α′,γ′>為在<α,γ>集中選取的最優動作;re(Ri(t),<α,γ>)為<α,γ>作用于環境時得到的即時獎勵;X(t)定義為蝙蝠的位置,Xi(t)為當前蝙蝠的位置,Xi(t+1)為新蝙蝠的位置,即下一蝙蝠的位置;R(t)定義為強化學習的狀態,即蝙蝠在位置X(t)時的適應度函數值,Ri(t)為當前狀態,Ri(t+1)為下一狀態;
通過迭代公式(11)不斷更新Q(Ri(t),<α′,γ′>),得到最優狀態-動作對Q表:
其中:Q(st,at):智能體在環境狀態為st時采取動作at后所能獲得的最優獎賞折扣之和;
re(st,at):即時獎勵;η是折扣因子;μ是學習率,控制著學習速度,在一定取值范圍內,μ越大則收斂越快。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島理工大學,未經青島理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910854519.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:機器人路徑規劃方法、裝置、電子設備和存儲介質
- 下一篇:24小時自動售賣系統





