[發明專利]一種基于深度強化學習的無人礦卡循跡控制系統及方法在審
| 申請號: | 201911211202.X | 申請日: | 2019-11-29 |
| 公開(公告)號: | CN110879595A | 公開(公告)日: | 2020-03-13 |
| 發明(設計)人: | 唐建林;王飛躍;任良才;艾云峰;楊超;李凌云 | 申請(專利權)人: | 江蘇徐工工程機械研究院有限公司 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 母秋松 |
| 地址: | 221004 江蘇省徐*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 強化 學習 無人 礦卡循跡 控制系統 方法 | ||
1.一種基于深度強化學習的無人礦卡循跡控制方法,其特征在于,所述方法包括:
在學習階段下,通過仿真平臺接收環境狀態信息、控制動作信息模擬無人礦卡的循跡過程,采集無人礦卡在預設路線上各個時刻的狀態,將各個時刻的狀態作為輸入量,各個時刻控制動作信息作為輸出量進行深度強化學習訓練,得到算法內核;
在應用階段下,獲取無人礦卡當前時刻的狀態和下一時刻的目標狀態至算法內核;
基于算法內核預測出當前時刻的控制動作信息。
2.如權利要求1所述的基于深度強化學習的無人礦卡循跡控制方法,其特征在于,所述算法內核訓練過程如下:
獎勵計算模塊獲取無人礦卡上一時刻的控制動作信息,根據無人礦卡上一時刻的控制動作信息、上一時刻的狀態以及當前時刻的目標狀態計算上一時刻的獎勵信號值;
將無人礦卡上一時刻的狀態、上一時刻的獎勵信號值以及當前時刻的目標狀態組成一個經驗,存儲進經驗數據緩沖區;
更新模塊在經驗數據緩沖區中隨機選出若干個經驗來更新神經網絡的參數,所述神經網絡包括:決策神經網絡、輔助決策神經網絡、評價神經網絡和輔助評價神經網絡;
算法內核確定模塊判斷訓練次數超過閾值后,計算完成的訓練次數中的獎勵信號值的標準差是否小于第一閾值ε,如果標準差小于第一閾值,訓練完成,得到訓練完成的決策神經網絡。
3.如權利要求2所述的基于深度強化學習的無人礦卡循跡控制方法,其特征在于,所述更新神經網絡的參數過程如下:
將每個經驗中的某時刻狀態、某時刻的下一時刻的目標狀態輸入至當前決策神經網絡,通過當前決策神經網絡輸出某時刻的第一控制動作信息;
將每個經驗中的某時刻狀態、某時刻的下一時刻的目標狀態輸入至當前輔助決策神經網絡,通過當前輔助決策神經網絡輸出某時刻的第二控制動作信息;
將每個經驗中的某時刻狀態和第一控制動作信息輸入至當前評價神經網絡中,將當前評價神經網絡的輸出作為第一評價值;
將每個經驗值的某時刻狀態和第二控制動作信息輸入至當前輔助評價神經網絡中,將當前輔助評價神經網絡的輸出作為第二評價值;
根據第一評價值和所述第二評價值,利用評價神經網絡的損失函數計算出當前評價神經網絡的梯度;
根據當前評價神經網絡的梯度對當前評價神經網絡的參數進行更新,得到更新后的評價神經網絡;
根據更新后的評價神經網絡的參數對當前輔助評價神經網絡的參數進行更新,得到更新后的輔助評價神經網絡;
根據第一評價值,利用決策神經網絡的損失函數計算當前決策神經網絡的梯度;
根據當前決策神經網絡的梯度對當前決策神經網絡的參數進行更新,得到更新后的決策神經網絡;
根據更新后的決策神經網絡的參數對輔助決策神經網絡的參數進行更新,得到更新后的輔助決策神經網絡。
4.如權利要求2所述的基于深度強化學習的無人礦卡循跡控制方法,其特征在于,所述獎勵信號值的標準差:
其中:
表示第j次訓練過程中上一時刻t-1的狀態;表示第j次訓練過程中當前時刻t的目標狀態;表示在第j次訓練過程中上一時刻t-1的控制動作信息;表示第j次訓練過程中上一時刻t-1的獎勵信號值;為完成第Y-y次至第Y次最近的y次訓練時得到的所有獎勵信號值的均值,T為總時刻,Y為總訓練次數。
5.如權利要求4所述的基于深度強化學習的無人礦卡循跡控制方法,其特征在于,所述控制動作信息包括:油門控制開度、制動等級、方向盤轉角、方向盤扭矩。
6.如權利要求5所述的基于深度強化學習的無人礦卡循跡控制方法,其特征在于,無人礦卡狀態包括:無人礦卡的位置、航向、速度、四輪胎壓、四輪轉速、俯仰角、橫滾角和傾斜角。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇徐工工程機械研究院有限公司,未經江蘇徐工工程機械研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911211202.X/1.html,轉載請聲明來源鉆瓜專利網。





