[發明專利]基于深度Q網絡配送小車的自動行駛控制方法有效
| 申請號: | 201810199115.6 | 申請日: | 2018-03-12 |
| 公開(公告)號: | CN108594804B | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 朱斐;吳文;伏玉琛;周小科 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G05D1/02 | 分類號: | G05D1/02;G06K9/00 |
| 代理公司: | 蘇州簡理知識產權代理有限公司 32371 | 代理人: | 朱亦倩 |
| 地址: | 215000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 網絡 配送 小車 自動 行駛 控制 方法 | ||
1.一種基于深度Q網絡配送小車的自動行駛控制方法,包括傳感系統、控制系統、驅動系統及電力系統,所述傳感系統采集環境信息和電力系統信息,并將環境信息和電力系統信息傳入控制系統,所述控制系統根據接收到的信息通過自我學習控制方法來處理,再由傳感系統接收控制信息后控制配送小車的運動狀態,其自我學習控制方法包括如下步驟:
⑴通過傳感系統獲取環境信息,包括視覺環境信息和非視覺信息;
⑵根據所述步驟⑴中獲取的環境信息,初始化神經網絡參數,包括環境狀態信息和獎賞信息,并初始化強化學習算法的各項參數;
⑶對周邊環境反饋的圖像信息進行處理,通過數字化處理將圖像信息處理為灰度圖像,使用深度卷積網絡進行特征提取和訓練,將高維度的環境視覺信息轉換成低維度的特征信息,低維度特征信息與所述非視覺信息作為當前值網絡和目標值網絡的輸入狀態st;
⑷在狀態st下,根據當前值網絡利用強化學習算法中的動作值函數Q(s,a)計算獲得行動at,配送小車執行行動at后,獲得新的環境狀態st+1和立即獎賞rt;
⑸更新當前值網絡和目標值網絡的參數,采用隨機小批量梯度下降更新方式更新參數;
所述當前值網絡損失函數計算方式:其中Q(s′,a′;θi-)表示下一個狀態下的狀態動作值,Q(s,a;θi)為當前狀態下的狀態動作值,γ為回報函數的折扣因子,γ:0≤γ≤1,E()為梯度下降算法中的損失函數,r為立即獎賞值,θ表示網絡參數;
所述目標值網絡在每執行N步后更新為當前值網絡的值;
⑹查看是否滿足學習終止條件,若不滿足,則返回到步驟4繼續循環,否則結束;所述學習終止條件為完成配送任務,或完成設定步數;
在所述步驟⑷中,設置經驗池E,該經驗池E中存放內容為:根據動作值函數Q(s,a)選擇動作并執行,將當前狀態s、動作a、執行動作所獲得立即獎賞r和到達的下一個狀態s′作為一個元組保存到經驗池E中,并重復上述步驟三萬~五萬步,均存放于經驗池E中,所述步驟⑸中的更新當前值網絡和目標值網絡的參數,需從經驗池E中進行采樣;
所述經驗池E中還包括一碰撞經驗池E2,該碰撞經驗池E2中填充內容為:從經驗池E中隨機抽取四個樣本,將其狀態s作為當前值網絡的第一層隱藏層的輸入,由當前值網絡輸出動作值函數Q(s,a),并根據動作值函數選擇所采取的動作at,若在碰撞經驗池E2中已經存在(s,a),則在其余動作中重新選擇動作at;配送小車執行動作at后,獲得新的環境狀態st+1和立即獎賞rt,并通過當前值網絡損失函數更新當前值網絡的參數,若配送小車狀態為碰撞到雜物狀態,則將該狀態前X幀的動作值保存至碰撞經驗池E2內,所述步驟⑸中的采樣樣本從碰撞經驗池E2中選取。
2.根據權利要求1所述基于深度Q網絡配送小車的自動行駛控制方法,其特征在于:所述當前值網絡由三層卷積神經網絡和一層全連接層組成,激活函數為relu函數;用于處理經過傳感系統處理得到的圖像信息,其中卷積神經網絡提取圖像特征后通過激活函數relu輸出動作值函數Q(s,a),并根據動作值函數Q(s,a)用ε-Greedy貪心策略選擇動作a。
3.根據權利要求1所述的基于深度Q網絡配送小車的自動行駛控制方法,其特征在于:
狀態S表示為:傳感系統感知的環境狀態,是配送小車視野內的道路環境信息和其它道路周邊信息;
行動a表示為:在當前狀態下可以執行的操作集合,包括控制配送小車的加速、減速和轉彎;
立即獎賞r是:在當前狀態下配送小車所采取的行動的評價,若配送小車執行動作后依然在道路上且未被磕碰,則給一個+1的獎賞;若配送小車在行進過程中撞到了其他障礙物,則給一個-1000的獎賞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810199115.6/1.html,轉載請聲明來源鉆瓜專利網。





