[發明專利]基于神經元覆蓋率的深度強化學習魯棒訓練方法和裝置在審
| 申請號: | 202110656115.6 | 申請日: | 2021-06-11 |
| 公開(公告)號: | CN113298255A | 公開(公告)日: | 2021-08-24 |
| 發明(設計)人: | 陳晉音;王玨;章燕;王雪柯;胡書隆 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06K9/62 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 曹兆霞 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 神經元 覆蓋率 深度 強化 學習 訓練 方法 裝置 | ||
本發明的公開了一種基于神經元覆蓋率的深度強化學習魯棒訓練方法和裝置,包括以下步驟:(1)搭建智能駕駛環境,從智能駕駛環境中采集狀態數據對深度強化學習模型訓練,直到達到設定回報值為止;(2)利用訓練好的深度強化學習模型在環境中運行,提取多輪的狀態動作對;(3)構建用于根據歷史狀態動作對序列預測未來時刻狀態動作對序列的預測器和用于對狀態動作對進行質量分類的分類器,并利用提取的狀態動作對訓練預測器和分類器;(4)依據定義的對抗采樣策略,根據狀態動作對質量采樣狀態動作對并進行深度強化學習模型的再訓練,以提高深度強化學習模型的魯棒性。
技術領域
本發明涉及人工智能領域,尤其涉及一種基于神經元覆蓋率的深度強化學習魯棒訓練方法和裝置。
背景技術
隨著人工智能的快速發展,深度強化學習算法已經成為該領域中最受關注的算法之一。深度強化學習將深度學習的感知能力與強化學習的決策能力相結合,可以直接根據輸入的信息進行端到端的控制,解決高維狀態空間的序列決策問題。由于其卓越的性能,深度強化學習算法被廣泛地應用在自動駕駛、自動翻譯、對話系統和視頻檢測等方面。然而,神經網絡黑箱缺乏可解釋性,安全方面難以得到保證,因此分析模型的漏洞,采用一些魯棒性增強方法是至關重要的。
強化學習如何生成足夠的有意義的訓練場景,以及智能體在罕見場景下的魯棒表現仍然是一個很重要的問題。首先,大部分的訓練方式都很產生大量的重復操作,智能體剛開始學習任務時,很容易導致失敗,隨著不斷地學習,失敗的頻率會下降。智能體會不斷遇到已經掌握的方案,智能體在這個階段性能提升是很小的,這樣的訓練會導致不合理的數據饑餓。其次,對于像自動駕駛這樣安全至關重要的場景,一次碰撞就可能帶來難以估計的損失,因此在智能體訓練的過程中,失敗的經驗是很重要的。因此,本發明采用一個預測器,根據一幕中的前幾個狀態和模型信息,可以對后續的狀態和模型信息進行預測,然后對這一幕進行分類,確定其是否為失敗且是高神經覆蓋率的樣本,采取一定的概率,決定這些樣本是否用于更新模型。
神經元覆蓋率是深度學習模型白盒測試的一種方法,DeepExplore中表明神經元覆蓋率越高,代表數據觸發模型更多的邏輯結構,此外,使用覆蓋率高的數據對模型進行重訓練,可以提高模型的準確率。因此,本發明中,挑選各幕數據中神經元覆蓋率高的樣本對模型進行訓練。然而對每一幕的樣本都進行神經元覆蓋率的評估是非常消耗計算資源的,將覆蓋率的評估也作為預測器的輸出結果是一個減少資源消耗辦法。
綜上所述,如何建立一個預測器,使用一幕中前幾個狀態的樣本來預測整一幕的狀態,并對這一幕的成功率和神經元覆蓋率進行預測,
從而以一定的概率挑選樣本對強化學習模型的訓練有著很大的益處,對深度強化學習模型應用到安全至關重要的領域中具有重要的理論和實踐意義。
發明內容
為了實現深度強化學習策略的魯棒性增強,本發明提供了一種基于神經元覆蓋率的深度強化學習魯棒訓練方法和裝置,使用預測器和分類器在訓練階段挑選神經元覆蓋率高以及容易導致失敗的樣本,以一定的概率決定是否使用這些數據對智能體進行訓練,從而訓練一個對危險場景較為敏感的智能體,提升智能體的魯棒性。
本發明解決其技術問題所采取的技術方案是:
第一方面,實施例提供的一種基于神經元覆蓋率的深度強化學習魯棒訓練方法,包括以下步驟:
(1)搭建智能駕駛環境,從智能駕駛環境中采集狀態數據對深度強化學習模型訓練,直到達到設定回報值為止;
(2)利用訓練好的深度強化學習模型在環境中運行,提取多輪的狀態動作對;
(3)構建用于根據歷史狀態動作對序列預測未來時刻狀態動作對序列的預測器和用于對狀態動作對進行質量分類的分類器,并利用提取的狀態動作對訓練預測器和分類器;
(4)依據定義的對抗采樣策略,根據狀態動作對質量采樣狀態動作對并進行深度強化學習模型的再訓練,以提高深度強化學習模型的魯棒性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110656115.6/2.html,轉載請聲明來源鉆瓜專利網。





