[發(fā)明專利]一種融合在線學習的AGV實時調(diào)度方法在審
| 申請?zhí)枺?/td> | 202111158873.1 | 申請日: | 2021-09-30 |
| 公開(公告)號: | CN114296440A | 公開(公告)日: | 2022-04-08 |
| 發(fā)明(設計)人: | 呂玉江;王延忠;陳燕燕;姚依銘;王姝濛 | 申請(專利權(quán))人: | 中國航空工業(yè)集團公司北京長城航空測控技術研究所;北京長城航空測控技術研究所有限公司;北京瑞賽長城航空測控技術有限公司 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 中國航空專利中心 11008 | 代理人: | 秦媛媛 |
| 地址: | 100022 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 在線 學習 agv 實時 調(diào)度 方法 | ||
1.一種融合在線學習的AGV實時調(diào)度方法,其特征在于,所述方法包括:
S1,獲取現(xiàn)場AGV小車的位置信息、環(huán)境信息和路徑規(guī)劃信息;
S2,依據(jù)S1中獲取的信息,采用遺傳算法匹配最合適的小車去完成配送任務;
S3,采用S2中匹配的最合適的小車執(zhí)行運輸任務;在執(zhí)行運輸任務的過程中,采用強化學習算法為小車規(guī)劃最短路徑;
S4,小車按照S3中規(guī)劃的最短路徑完成運輸任務。
2.根據(jù)權(quán)利要求1所述的一種融合在線學習的AGV實時調(diào)度方法,其特征在于,S4中,小車在完成運輸任務的過程中,使用改進的人工勢場法實現(xiàn)自主避障。
3.根據(jù)權(quán)利要求1所述的一種融合在線學習的AGV實時調(diào)度方法,其特征在于,S1中現(xiàn)場AGV小車的位置信息、環(huán)境信息和路徑規(guī)劃信息,具體為:AGV小車的位置信息指為AGV小車設定的隨機初始位置;
環(huán)境信息指AGV小車可到達的區(qū)域內(nèi)的多個障礙物的隨機初始位置,以及所需運輸?shù)亩鄠€工件的隨機初始位置;
路徑規(guī)劃信息指AGV小車的當前位置,需要運輸?shù)墓ぜ奈恢茫约肮ぜ\輸?shù)降哪康奈恢盟M成的三點初始路徑。
4.根據(jù)權(quán)利要求1所述的一種融合在線學習的AGV實時調(diào)度方法,其特征在于,S2中,采用遺傳算法匹配最合適的小車的過程中,設計目標函數(shù)為:f=min1≤k≤M{max1≤i≤N{Lik}};
其中,f為目標函數(shù),表示選擇每種運輸方案中完成某個工件運輸所用的最長時間,并在多種運輸方案中,選擇最長時間的最小值對應的運輸方案為最優(yōu)運輸方案;
L為工件配送時間,Lik表示工件i在AGV小車k上的完成配送的時間;i為配送目標點,i=1,2,…,N;N為代配送的工件總數(shù)量;k為第k個AGV小車,k=1,2,…,M;M為AGV小車的總數(shù)量。
5.根據(jù)權(quán)利要求1所述的一種融合在線學習的AGV實時調(diào)度方法,其特征在于,S3中,在執(zhí)行運輸任務的過程中,采用強化學習算法為小車規(guī)劃最短路徑的過程,具體為:
S31,搭建預設大小的柵格地圖作為二維仿真環(huán)境;
S32,設置AGV小車在二維柵格圖中所建的環(huán)境中所采取的運動;
S33,采用非線性的分段函數(shù)表示即時獎勵函數(shù),用一個標量R表示,通過獎勵函數(shù)的設計使AGV小車碰到不同物體時反饋當前狀態(tài)和獎勵值,以此來改變AGV小車行為;
S34,初始化環(huán)境狀態(tài)以及開始探索環(huán)境,小車從起始點出發(fā),獲取當前狀態(tài)對應的Q值,通過貪婪決策找出該Q值對應的動作,并記錄當前狀態(tài)的坐標;再通過優(yōu)勢函數(shù)判斷當前選取的動作是否有利,若該動作得到正的獎勵值,執(zhí)行該動作并轉(zhuǎn)移到下一個狀態(tài),得到獎勵值,并存儲到樣本回放緩存區(qū);
S35,以情景數(shù)的平均獎勵值來評估當前策略是否為最優(yōu)策略或最優(yōu)路徑。
6.根據(jù)權(quán)利要求5所述的一種融合在線學習的AGV實時調(diào)度方法,其特征在于,S32中,設置AGV小車在二維柵格圖中所建的環(huán)境中所采取的運動,具體為:
定義AGV小車的動作空間模型為上、下、左、右四個離散動作,即A=[0,1;0.-1;-1,0;1,0],將AGV小車作為為一個質(zhì)點,用圓圈表示,目標點用方框表示。
7.根據(jù)權(quán)利要求5所述的一種融合在線學習的AGV實時調(diào)度方法,其特征在于,S34中,
在小車探索狀態(tài)時,若當前狀態(tài)坐標上有障礙物,則獎勵值為-1;如果當前狀態(tài)坐標上沒有障礙物,則返回獎勵值為1,進入下一個狀態(tài);如果當前狀態(tài)是目標點,則返回獎勵值為2,規(guī)劃出最終路徑。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國航空工業(yè)集團公司北京長城航空測控技術研究所;北京長城航空測控技術研究所有限公司;北京瑞賽長城航空測控技術有限公司,未經(jīng)中國航空工業(yè)集團公司北京長城航空測控技術研究所;北京長城航空測控技術研究所有限公司;北京瑞賽長城航空測控技術有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111158873.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





