[發明專利]一種基于Q-learning算法和水滴算法的機器人實時調度方法及系統在審
| 申請號: | 202011243108.5 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112558601A | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 方健;胡帆;鐘連宏;李志強;尹曠;莫文雄;王紅斌;覃煜;林李波;陳曦;喇元 | 申請(專利權)人: | 廣東電網有限責任公司廣州供電局 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 北京智繪未來專利代理事務所(普通合伙) 11689 | 代理人: | 趙卿;肖繼軍 |
| 地址: | 510000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 learning 算法 水滴 機器人 實時 調度 方法 系統 | ||
1.一種基于Q-learning算法和水滴算法的機器人實時調度方法,其特征在于,所述機器人實時調度方法包括以下步驟:
步驟1,采集所檢測的變電站信息和預定派出的機器人信息;
步驟2,根據步驟1所采集的變電站信息和機器人信息設置機器人調度規劃的目標函數和約束條件,并構建機器人實時調度規劃模型;
步驟3,基于步驟2所構建機器人實時調度規劃模型,根據步驟1所述變電站信息及機器人信息使用Q-learning算法生成初始計算矩陣,并使用Q-learning迭代公式對矩陣進行更新;
步驟4,基于步驟3所得的初始計算矩陣,使用水滴算法對步驟3中初始計算矩陣迭代后的初始解進行二次規劃調整;
步驟5,調度中心根據機器人當前狀態,即存在故障與否,來判斷是否對機器人路線進行重新調整;
步驟6,當機器人發生故障時,變更計算條件,即重新分配未發生故障機器人需要檢測變電站的數量,并設置水滴規模為剩余未檢測變電站數量,然后返回步驟4重新使用水滴算法對變更后的計算條件進行計算以規劃新的路線,當機器人正常工作,則跳過步驟6直接進入步驟7;
步驟7,機器人完成所有檢測后返回調度中心。
2.根據權利要求1所述的一種基于Q-learning算法和水滴算法的機器人實時調度方法,其特征在于:
在所述步驟1中,所述變電站信息包括變電站中開關柜的型號、編號和經緯度信息,其中,經緯度信息經數據處理后轉為橫縱坐標;
所述機器人信息包括機器人的編號、機器人存放地經緯度信息和機器人部件狀態,其中,機器人存放地經緯度信息經數據處理后轉為橫縱坐標,部件包括液壓升降臺、旋轉平臺、電源、液壓泵、滾筒和UR機械臂。
3.根據權利要求1所述的一種基于Q-learning算法和水滴算法的機器人實時調度方法,其特征在于:
步驟2中機器人規劃調度的目標函數、約束條件,具體步驟如下:
步驟2.1,設置機器人調度規劃的目標函數,目標函數要求機器人完成所有變電站的檢測任務后所產生的相關費用最少,該目標函數為:
其中,正整數N為變電站數目,M為機器人的數目,a為派出每臺機器人的固定成本,b為機器人行駛每公里的成本,dij為機器人從變電站i到j的距離,為第m機器人行駛路徑包括從變電站i到j,ym代表m機器人負責有一整條路線的檢測任務;
步驟2.2,設置機器人調度規劃的約束條件:
約束條件1:
約束條件2:
約束條件3:
其中,D代表每個機器人的最大行駛距離;
約束條件4:
其中,K為現有能夠繼續進行檢測的機器人數目,為第k機器人行駛路徑包括從變電站i到j,為第k機器人行駛路徑包括從變電站j到i,該約束條件僅在有機器人突發故障無法繼續進行剩余檢測任務時加入實時調度規劃模型中,并進行計算;
步驟2.3,根據目標函數和約束函數構建機器人實時調度規劃模型。
4.根據權利要求1所述的一種基于Q-learning算法和水滴算法的機器人實時調度方法,其特征在于:
所述步驟3使用Q-learning算法,以變電站信息及機器人信息形成的矩陣作為變量,對機器人實時調度規劃模型進行求解,機器人調度的線路不唯一,排除所選擇的最優線路即最優解的其余解可統稱之為次優解,次優解與最優解的數值的差值越小則越優異,反之則越差。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司廣州供電局,未經廣東電網有限責任公司廣州供電局許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011243108.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高精度零件轉運蠟封包裝機
- 下一篇:一種電線電纜加工用包覆裝置





