[發明專利]基于深度強化學習的道路目標檢測方法、裝置及存儲介質有效
| 申請號: | 202010161231.6 | 申請日: | 2020-03-10 |
| 公開(公告)號: | CN111444782B | 公開(公告)日: | 2023-06-16 |
| 發明(設計)人: | 董超俊;吳志鵬 | 申請(專利權)人: | 五邑大學 |
| 主分類號: | G06V20/40 | 分類號: | G06V20/40;G06V20/56;G06V20/58;G06V10/774;G06V10/82;G06N3/0464;G06N3/092 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 孫浩 |
| 地址: | 529000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 強化 學習 道路 目標 檢測 方法 裝置 存儲 介質 | ||
本發明公開了一種基于深度強化學習的目標檢測方法、裝置和存儲介質,客戶端獲取到采樣視頻后,從采樣視頻中獲取采樣圖像,并將采用圖像輸入至預先訓練好的深度Q網絡中,并且在深度Q網絡中引入了折扣因子,所述學習率隨折扣因子的增大而減小,能夠使得折扣因子在訓練的過程中逐漸逼近其終值,從而加快模型的收斂,降低了過擬合的現象,提高了系統的穩定性。
技術領域
本發明涉及圖像識別領域,特別是基于深度強化學習的道路目標檢測方法、裝置和存儲介質。
背景技術
自動駕駛已經成了汽車行業的重要發展方向,而汽車在自動駕駛的過程中,除了要對路線和速度進行控制,還需要對道路上的交通標志等道路目標進行檢測和識別,由于行駛過程中獲取的圖像還同時包括復雜的環境,這無疑加大了圖像識別的復雜度,因此需要一種方法能夠從復雜的環境中檢測并識別出道路目標,從而提高自動駕駛系統的性能。
傳統方法通常采用CNN(Convolutional?Neural?Networks,自卷積神經網絡)進行圖像識別,雖然CNN能夠快速實現圖像的識別,但是模型訓練過程比較復雜,而且決策能力較低。現有的深度Q網絡屬于強化學習網絡的一種,能夠有較好的決策能力,但是任務復雜度較高時存在過度擬合的風險,任務復雜度較低時可能無法捕獲重要的特征,系統的穩定性并不能滿足要求。
發明內容
為了克服現有技術的不足,本發明的目的在于提供一種基于深度強化學習的道路目標檢測方法、裝置及存儲介質,能夠提高系統的穩定性。
本發明解決其問題所采用的技術方案是:第一方面,本發明提供了一種基于深度強化學習的道路目標檢測方法,包括以下步驟:
客戶端獲取采樣視頻,從所述采樣視頻中獲取采樣圖像;
所述客戶端讀取預先訓練好的深度Q網絡,所述深度Q網絡包括用于近似表示當前值函數的第一神經網絡和用于產生目標Q值的第二神經網絡,所述第一神經網絡的目標函數和所述第二神經網絡的損失函數中包括預先設定的折扣因子,所述深度Q網絡的學習率隨所述折扣因子的增加而降低;
所述客戶端將所述采樣圖像輸入至所述深度Q網絡中,檢測出道路目標。
進一步,所述采樣圖像為所述采樣視頻中的關鍵幀。
進一步,所述折扣因子的取值大于0且小于或等于1。
進一步,所述深度Q網絡由經驗回放機制訓練得出。
進一步,所述目標函數的表達式為:
T?arg?e?tQ=r+γmaxa′Q*(s′,a′;θ-);
其中r為即時獎勵,γ為所述折扣因子,Q為所述深度Q網絡的Q值,s為預先設定的狀態參數。
進一步,所述損失函數的表達式為:
L(θ)=E(s,a,r,s′)[(r+γmaxa′Q*(s′,a′;θ-)-Q(s,a;θ))2]。
進一步,相鄰兩次訓練的所述折扣因子滿足以下關系:γk+1=1-0.96(1-γk),其中γk為第k次訓練的所述折扣因子。
進一步,相鄰兩次訓練的所述學習率滿足以下關系:αk+1=0.96αk,其中為αk第k次訓練的所述學習率。
第二方面,本發明提供了一種用于執行基于深度強化學習的道路目標檢測方法的裝置,包括CPU單元,所述CPU單元用于執行以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于五邑大學,未經五邑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010161231.6/2.html,轉載請聲明來源鉆瓜專利網。





