[發(fā)明專利]一種深度強化學習訓練方法及計算機可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110208061.7 | 申請日: | 2021-02-24 |
| 公開(公告)號: | CN112819159A | 公開(公告)日: | 2021-05-18 |
| 發(fā)明(設(shè)計)人: | 張?zhí)鹛?/a>;袁博 | 申請(專利權(quán))人: | 清華大學深圳國際研究生院 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06K9/62 |
| 代理公司: | 深圳新創(chuàng)友知識產(chǎn)權(quán)代理有限公司 44223 | 代理人: | 孟學英 |
| 地址: | 518055 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 深度 強化 學習 訓練 方法 計算機 可讀 存儲 介質(zhì) | ||
本發(fā)明提供一種深度強化學習訓練方法及計算機可讀存儲介質(zhì),方法包括:指定情境數(shù)量,初始化深度強化學習多頭神經(jīng)網(wǎng)絡(luò)模型的權(quán)重參數(shù);智能體隨機決策,收集樣本存于經(jīng)驗回放緩沖區(qū);依據(jù)情境數(shù)量,采用在線聚類算法實現(xiàn)自適應(yīng)情境劃分,得到截止當前時刻的情境劃分和各情境中心;從經(jīng)驗回放緩沖區(qū)隨機采樣樣本,并將各樣本分配至距離最近的情境中;依據(jù)樣本對應(yīng)情境訓練共享特征提取器及相應(yīng)輸出頭的權(quán)重參數(shù),結(jié)合知識蒸餾損失對其他輸出頭權(quán)重參數(shù)進行同步更新,估計值函數(shù);下一時間步,智能體依據(jù)值函數(shù)繼續(xù)決策,收集樣本存于經(jīng)驗回放緩沖區(qū),重復上述步驟,直至完成預先指定的訓練次數(shù)或達到收斂。提升了模型訓練的穩(wěn)定性和可塑性。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種深度強化學習訓練方法及計算機可讀存儲介質(zhì)。
背景技術(shù)
在強化學習領(lǐng)域,深度神經(jīng)網(wǎng)絡(luò)強大的學習能力使得智能體直接從高維連續(xù)環(huán)境中學習有效的控制策略成為可能。理論上,為了實現(xiàn)穩(wěn)定的訓練性能,神經(jīng)網(wǎng)絡(luò)一般要求訓練數(shù)據(jù)滿足獨立同分布(i.i.d.)的特點,這在一般的強化學習范式中幾乎是不可能成立的。強化學習邊探索邊學習的訓練模式使得訓練數(shù)據(jù)具有高度時間相關(guān)和非平穩(wěn)的固有屬性,由于神經(jīng)網(wǎng)絡(luò)在訓練過程前后采用的訓練數(shù)據(jù)分布不同,后期訓練得到的權(quán)重很可能干擾甚至完全覆蓋前期已經(jīng)學習到的好的策略,從而導致模型性能受到干擾甚至是突然崩潰,使得模型訓練過程非常不穩(wěn)定,甚至很難收斂到優(yōu)策略。對應(yīng)于實際具體應(yīng)用,如人工智能圍棋系統(tǒng)等各類游戲?qū)?zhàn)、機器人調(diào)優(yōu)工業(yè)設(shè)備參數(shù)等工業(yè)自動化應(yīng)用、自動駕駛領(lǐng)域車輛運動規(guī)劃等凡是利用強化學習來自動化尋求最佳序貫決策的真實應(yīng)用場景,則表現(xiàn)為強化學習智能體在特定環(huán)境中學習完成特定任務(wù)的策略過程非常不穩(wěn)定,隨著學習的進行,智能體可能會突然忘記已經(jīng)學習到的稍好的策略以致于面對相應(yīng)的環(huán)境場景做出錯誤的決策,從而必須重新從頭開始再次學習,后期再次遺忘并再次重新學習,如此反復,使得智能體學習優(yōu)策略的效率大大降低,甚至最終無法學習到完成相應(yīng)任務(wù)的優(yōu)策略。
以上問題被稱為災(zāi)難性干擾和遺忘(Catastrophic Interference andForgetting)。現(xiàn)有基于值的深度強化學習訓練框架一般采用經(jīng)驗回放和固定目標網(wǎng)絡(luò)兩種策略來緩解災(zāi)難性干擾和遺忘問題,其中,經(jīng)驗回放對計算內(nèi)存有很高的要求,尤其是當處理復雜圖像或視頻輸入問題時,為了能更好地產(chǎn)生近似獨立同分布的訓練數(shù)據(jù),需要設(shè)置百萬甚至更高級別的經(jīng)驗存儲緩沖區(qū)大小,這對一般計算機而言是非常困難的;此外,固定目標網(wǎng)絡(luò)也只能使輸出目標相對平穩(wěn),單獨使用時對災(zāi)難性干擾和遺忘問題改善效果非常有限。
現(xiàn)有技術(shù)中缺乏解決強化學習領(lǐng)域神經(jīng)網(wǎng)絡(luò)模型在訓練過程中所遇到的災(zāi)難性干擾和遺忘問題的方案。
以上背景技術(shù)內(nèi)容的公開僅用于輔助理解本發(fā)明的構(gòu)思及技術(shù)方案,其并不必然屬于本專利申請的現(xiàn)有技術(shù),在沒有明確的證據(jù)表明上述內(nèi)容在本專利申請的申請日已經(jīng)公開的情況下,上述背景技術(shù)不應(yīng)當用于評價本申請的新穎性和創(chuàng)造性。
發(fā)明內(nèi)容
本發(fā)明為解決現(xiàn)有深度強化學習神經(jīng)網(wǎng)絡(luò)模型在訓練過程中普遍遭遇的災(zāi)難性干擾和遺忘問題,提供一種深度強化學習訓練方法及計算機可讀存儲介質(zhì)。
為了解決上述問題,本發(fā)明采用的技術(shù)方案如下所述:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學深圳國際研究生院,未經(jīng)清華大學深圳國際研究生院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110208061.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





