[發(fā)明專利]認(rèn)知行為模型加速的深度Q網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)方法及設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202110669282.4 | 申請(qǐng)日: | 2021-06-16 |
| 公開(公告)號(hào): | CN113554166A | 公開(公告)日: | 2021-10-26 |
| 發(fā)明(設(shè)計(jì))人: | 黃健;李嘉祥;陳浩;劉權(quán);張中杰;付可;韓潤海 | 申請(qǐng)(專利權(quán))人: | 中國人民解放軍國防科技大學(xué) |
| 主分類號(hào): | G06N3/08 | 分類號(hào): | G06N3/08;G06N3/04 |
| 代理公司: | 北京風(fēng)雅頌專利代理有限公司 11403 | 代理人: | 曾志鵬 |
| 地址: | 410003 湖*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 認(rèn)知 行為 模型 加速 深度 網(wǎng)絡(luò) 強(qiáng)化 學(xué)習(xí)方法 設(shè)備 | ||
1.一種認(rèn)知行為模型加速的深度Q網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)方法,其中,所述方法通過認(rèn)知行為模型和深度強(qiáng)化學(xué)習(xí)模型實(shí)現(xiàn);所述深度強(qiáng)化學(xué)習(xí)模型中包括啟發(fā)策略網(wǎng)絡(luò)和深度Q網(wǎng)絡(luò);所述方法包括:
利用所述認(rèn)知行為模型從環(huán)境中獲取狀態(tài)信息并根據(jù)所述狀態(tài)信息得到認(rèn)知行為知識(shí),并將所述認(rèn)知行為知識(shí)發(fā)送至所述啟發(fā)策略網(wǎng)絡(luò);
利用所述深度強(qiáng)化學(xué)習(xí)模型從所述環(huán)境中獲取所述狀態(tài)信息,并將所述狀態(tài)信息發(fā)送至所述啟發(fā)策略網(wǎng)絡(luò)和所述深度Q網(wǎng)絡(luò);利用所述啟發(fā)策略網(wǎng)絡(luò)根據(jù)所述狀態(tài)信息和所述認(rèn)知行為知識(shí)得到啟發(fā)策略值,并將所述啟發(fā)策略值發(fā)送至所述深度Q網(wǎng)絡(luò);利用所述深度Q網(wǎng)絡(luò)根據(jù)所述狀態(tài)信息和所述啟發(fā)策略值得到動(dòng)作并執(zhí)行;
利用所述深度強(qiáng)化學(xué)習(xí)模型從所述環(huán)境中獲取回報(bào),并對(duì)所述啟發(fā)策略網(wǎng)絡(luò)和所述深度Q網(wǎng)絡(luò)進(jìn)行迭代更新;
循環(huán)執(zhí)行上述操作,響應(yīng)于確定所述深度Q網(wǎng)絡(luò)收斂,結(jié)束所述強(qiáng)化學(xué)習(xí)。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述認(rèn)知行為模型中包括:目標(biāo)集、知識(shí)集、信念集、動(dòng)作集和行為規(guī)則集;
所述方法還包括:構(gòu)建所述認(rèn)知行為模型;具體包括:
獲取任務(wù)信息、環(huán)境信息和能力信息;
根據(jù)所述任務(wù)信息,構(gòu)建所述目標(biāo)集;
根據(jù)所述環(huán)境信息,構(gòu)建所述知識(shí)集和所述信念集;
根據(jù)所述能力信息,構(gòu)建所述動(dòng)作集和所述行為規(guī)則集。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述利用所述認(rèn)知行為模型從環(huán)境中獲取狀態(tài)信息并根據(jù)所述狀態(tài)信息得到認(rèn)知行為知識(shí),包括:
根據(jù)所述狀態(tài)信息更新所述信念集;
根據(jù)所述狀態(tài)信息更新所述目標(biāo)集;
根據(jù)所述知識(shí)集、所述動(dòng)作集、所述行為規(guī)則集、更新后的所述信念集和更新后的所述目標(biāo)集得到所述認(rèn)知行為知識(shí)。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述目標(biāo)集中包括多個(gè)按順序排列的子目標(biāo);所述根據(jù)所述狀態(tài)信息更新所述目標(biāo)集,包括:
響應(yīng)于確定任一所述子目標(biāo)已經(jīng)完成,刪除所述目標(biāo)集中的該子目標(biāo)之前的所有所述子目標(biāo)。
5.根據(jù)權(quán)利要求1所述的方法,其中,所述深度Q網(wǎng)絡(luò)中包括價(jià)值網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò);
所述價(jià)值網(wǎng)絡(luò)用于完成由所述狀態(tài)信息到所述動(dòng)作的映射;
所述目標(biāo)網(wǎng)絡(luò)用于形成離線的所述強(qiáng)化學(xué)習(xí)方式;所述目標(biāo)網(wǎng)絡(luò)與所述價(jià)值網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)相同,每隔預(yù)設(shè)周期獲取所述價(jià)值網(wǎng)絡(luò)的參數(shù)并同步到所述目標(biāo)網(wǎng)絡(luò)中。
6.根據(jù)權(quán)利要求5所述的方法,其中,所述利用所述所述深度Q網(wǎng)絡(luò)根據(jù)所述狀態(tài)信息和所述啟發(fā)策略值得到動(dòng)作并執(zhí)行,包括:
利用所述價(jià)值網(wǎng)絡(luò)根據(jù)所述狀態(tài)信息得到價(jià)值網(wǎng)絡(luò)輸出;
將所述價(jià)值網(wǎng)絡(luò)輸出和所述啟發(fā)策略值線性相加得到所述動(dòng)作。
7.根據(jù)權(quán)利要求1所述的方法,其中,所述利用所述所述深度Q網(wǎng)絡(luò)根據(jù)所述狀態(tài)信息和所述啟發(fā)策略值得到動(dòng)作并執(zhí)行,還包括:
在預(yù)設(shè)范圍內(nèi)隨機(jī)確定一隨機(jī)數(shù);
響應(yīng)于確定所述隨機(jī)數(shù)大于預(yù)設(shè)的探索率,執(zhí)行所述動(dòng)作;
響應(yīng)于確定所述隨機(jī)數(shù)不大于預(yù)設(shè)的探索率,執(zhí)行隨機(jī)動(dòng)作。
8.根據(jù)權(quán)利要求5所述的方法,其中,所述對(duì)所述啟發(fā)策略網(wǎng)絡(luò)和所述深度Q網(wǎng)絡(luò)進(jìn)行迭代更新,包括:
利用最小化損失函數(shù)的梯度下降方法分別構(gòu)建所述價(jià)值網(wǎng)絡(luò)和所述啟發(fā)策略網(wǎng)絡(luò)的損失函數(shù),并分別利用各自對(duì)應(yīng)的所述損失函數(shù)更新所述價(jià)值網(wǎng)絡(luò)和所述啟發(fā)策略網(wǎng)絡(luò)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國人民解放軍國防科技大學(xué),未經(jīng)中國人民解放軍國防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110669282.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種認(rèn)知無線網(wǎng)絡(luò)系統(tǒng)和認(rèn)知網(wǎng)元設(shè)備
- 認(rèn)知無線電網(wǎng)絡(luò)中小區(qū)邊界用戶的頻譜共享方法
- 基于頻譜襯墊和填充的認(rèn)知OFDM網(wǎng)絡(luò)資源分配方法
- 認(rèn)知障礙數(shù)據(jù)處理方法以及處理系統(tǒng)
- 一種認(rèn)知無線電頻譜共享方法、設(shè)備和系統(tǒng)
- 認(rèn)知無線電系統(tǒng)的頻譜共享方法及管理終端
- 一種具有仿反饋調(diào)整機(jī)制的脫機(jī)手寫體漢字認(rèn)知方法
- 一種基于人件服務(wù)的態(tài)勢(shì)認(rèn)知計(jì)算架構(gòu)
- 一種認(rèn)知評(píng)估的信息化方法、系統(tǒng)及可讀存儲(chǔ)介質(zhì)
- 一種認(rèn)知負(fù)荷評(píng)價(jià)方法、裝置、系統(tǒng)及存儲(chǔ)介質(zhì)
- 過濾以及監(jiān)控程序的行為的方法
- 數(shù)據(jù)挖掘的方法和裝置
- 網(wǎng)絡(luò)異常行為檢測(cè)方法及檢測(cè)裝置
- 基于大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的異常行為檢測(cè)方法和系統(tǒng)
- 用于檢測(cè)用戶行為的方法和裝置
- 行為數(shù)據(jù)分析方法及裝置
- 一種基于網(wǎng)絡(luò)的行為教育方法
- 網(wǎng)絡(luò)行為分類方法、設(shè)備、存儲(chǔ)介質(zhì)及裝置
- 一種在線支付業(yè)務(wù)行為的異常檢測(cè)方法、裝置及電子設(shè)備
- 行為采集方法及系統(tǒng)





