[發明專利]基于深度強化學習的道路目標檢測方法、裝置及存儲介質有效
| 申請號: | 202010161231.6 | 申請日: | 2020-03-10 |
| 公開(公告)號: | CN111444782B | 公開(公告)日: | 2023-06-16 |
| 發明(設計)人: | 董超俊;吳志鵬 | 申請(專利權)人: | 五邑大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V20/56;G06V20/58;G06V10/774;G06V10/82;G06N3/0464;G06N3/092 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 孫浩 |
| 地址: | 529000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 道路 目標 檢測 方法 裝置 存儲 介質 | ||
1.一種基于深度強化學習的道路目標檢測方法,其特征在于,包括以下步驟:
客戶端獲取采樣視頻,從所述采樣視頻中獲取采樣圖像;
所述客戶端讀取預先訓練好的深度Q網絡,所述深度Q網絡包括用于近似表示當前值函數的第一神經網絡和用于產生目標Q值的第二神經網絡,所述第一神經網絡的目標函數和所述第二神經網絡的損失函數中包括預先設定的折扣因子,所述深度Q網絡的學習率隨所述折扣因子的增加而降低;
所述客戶端將所述采樣圖像輸入至所述深度Q網絡中,檢測出道路目標;
其中,相鄰兩次訓練的所述折扣因子滿足以下關系:γk+1=1-0.96(1-γk),其中γk為第k次訓練的所述折扣因子;
相鄰兩次訓練的所述學習率滿足以下關系:αk+1=0.96αk,其中為αk第k次訓練的所述學習率;
其中,所述目標函數的表達式為:
TargetQ=r+γmaxa′Q*(s′,a′;θ-);
其中r為即時獎勵,γ為所述折扣因子,Q為所述深度Q網絡的Q值,s為預先設定的狀態參數;
其中,所述損失函數的表達式為:
L(θ)=E(s,a,r,s′)[(r+γmaxa′Q*(s′,a′;θ-)-Q(s,α;θ))2]。
2.根據權利要求1所述的一種基于深度強化學習的道路目標檢測方法,其特征在于:所述采樣圖像為所述采樣視頻中的關鍵幀。
3.根據權利要求1所述的一種基于深度強化學習的道路目標檢測方法,其特征在于:所述折扣因子的取值大于0且小于或等于1。
4.根據權利要求1所述的一種基于深度強化學習的道路目標檢測方法,其特征在于:所述深度Q網絡由經驗回放機制訓練得出。
5.一種用于執行基于深度強化學習的道路目標檢測方法的裝置,其特征在于,包括CPU單元,所述CPU單元用于執行以下步驟:
客戶端獲取采樣視頻,從所述采樣視頻中獲取采樣圖像;
所述客戶端讀取預先訓練好的深度Q網絡,所述深度Q網絡包括用于近似表示當前值函數的第一神經網絡和用于產生目標Q值的第二神經網絡,所述第一神經網絡的目標函數和所述第二神經網絡的損失函數中包括預先設定的折扣因子,所述深度Q網絡的學習率隨所述折扣因子的增加而降低;
所述客戶端將所述采樣圖像輸入至所述深度Q網絡中,檢測出道路目標;
其中,相鄰兩次訓練的所述折扣因子滿足以下關系:γk+1=1-0.96(1-γk),其中γk為第k次訓練的所述折扣因子;
相鄰兩次訓練的所述學習率滿足以下關系:αk+1=0.96αk,其中為αk第k次訓練的所述學習率;
其中,所述目標函數的表達式為:
TargetQ=r+γmaxa′Q*(s′,a′;θ-);
其中r為即時獎勵,γ為所述折扣因子,Q為所述深度Q網絡的Q值,s為預先設定的狀態參數;
其中,所述損失函數的表達式為:
L(θ)=E(s,a,r,s′)[(r+γmaxa′Q*(s′,a′;θ-)-Q(s,a;θ))2]。
6.一種計算機可讀存儲介質,其特征在于:所述計算機可讀存儲介質存儲有計算機可執行指令,所述計算機可執行指令用于使計算機執行如權利要求1-4任一項所述的一種基于深度強化學習的道路目標檢測方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于五邑大學,未經五邑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010161231.6/1.html,轉載請聲明來源鉆瓜專利網。





