[發明專利]基于在線學習的策略獲取方法、裝置及設備有效
| 申請號: | 202110772824.0 | 申請日: | 2021-07-08 |
| 公開(公告)號: | CN113326902B | 公開(公告)日: | 2021-11-05 |
| 發明(設計)人: | 黃健;陳浩;付可;劉權;龔建興;韓潤海;李嘉祥 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00;G06Q10/06 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 曾志鵬 |
| 地址: | 410003 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 在線 學習 策略 獲取 方法 裝置 設備 | ||
1.一種基于在線學習的策略獲取方法,包括:
獲取并識別目標對手策略,并從智能體策略庫中選取針對所述目標對手策略的智能體策略;
根據所述智能體策略確定所述目標對手策略是已知對手策略的概率,并將所述概率加入概率隊列;
響應于確定所述概率隊列中所有所述概率的和小于和閾值,基于所述智能體策略庫和預先構建的在線學習模型獲得針對所述目標對手策略的新智能體策略;其中,所述在線學習模型中包含選項學習網絡、近端策略優化網絡和選項集合;所述選項學習網絡中包含中間選項網絡和終止網絡;所述近端策略優化網絡中包含行動網絡和判斷網絡;所述選項集合中包含多個選項,其中,每個所述選項中包含內部選項策略和結束概率;所述響應于確定所述概率隊列中所有所述概率的和小于和閾值,基于所述智能體策略庫和預先構建的在線學習模型獲得針對所述目標對手策略的新智能體策略,具體包括:
循環執行以下操作,直到從環境中獲取的獎勵超過獎勵閾值,將超過所述獎勵閾值的所述獎勵對應的當前智能體策略作為所述新智能體策略:
從所述環境中獲取狀態參數,并將所述狀態參數輸入所述選項學習網絡和所述近端策略優化網絡;
利用所述選項學習網絡根據所述狀態參數從所述選項集合中選擇所述選項,并將所述選項中的所述內部選項策略和所述結束概率發送至所述近端策略優化網絡;
利用所述近端策略優化網絡根據所述狀態參數獲得所述當前智能體策略;
根據所述當前智能體策略選擇動作并執行,從所述環境中獲取所述獎勵;
更新所述選項學習網絡和所述近端策略優化網絡。
2.根據權利要求1所述的方法,其中,所述獲取并識別目標對手策略,并從智能體策略庫中選取針對所述目標對手策略的智能體策略,包括:
利用對手策略庫構建對手模型,融合所述對手模型到貝葉斯策略重用模型,得到融合后貝葉斯策略重用模型;
利用所述融合后貝葉斯策略重用模型識別所述目標對手策略,并從所述智能體策略庫中獲取針對所述目標對手策略的所述智能體策略。
3.根據權利要求2所述的方法,還包括:
獲取預設時間段內的對手行為數據;
基于所述預設時間段生成時間序列,基于所述對手行為數據生成與所述時間序列對應的行為序列;
利用最大化生成所述行為序列的對數概率,利用所述對數概率更新所述對手模型。
4.根據權利要求2所述的方法,其中,在所述從所述智能體策略庫中獲取針對所述目標對手策略的所述智能體策略之后,還包括:
根據所述目標對手策略和所述智能體策略得到智能體第一信念;
通過所述對手模型得到智能體第二信念;
根據所述智能體第一信念和所述智能體第二信念得到智能體綜合信念;
其中,所述智能體綜合信念用于下一次從所述智能體策略庫中獲取針對所述目標對手策略的所述智能體策略。
5.根據權利要求2所述的方法,其中,所述根據所述智能體策略確定所述目標對手策略是已知對手策略的概率,并將所述概率加入概率隊列,包括:
利用所述智能體策略庫和所述對手策略庫構建性能模型;
利用所述性能模型根據所述目標對手策略和所述智能體策略確定所述目標對手策略是已知對手策略的概率。
6.根據權利要求1所述的方法,其中,將所述智能體策略庫中的所有所述智能體策略分別建模為所述內部選項策略,并根據所述內部選項策略構建所述選項。
7.根據權利要求1所述的方法,其中,所述更新所述選項學習網絡和所述近端策略優化網絡,包括:
將所述內部選項策略作為更新所述近端策略優化網絡中的所述行動網絡的目標函數的一部分;
在所述從所述環境中獲取所述獎勵之后,獲取下一狀態參數,并將所述狀態參數、所述動作、所述獎勵、所述下一狀態參數和所述選項作為一組經驗用于作為更新所述選項學習網絡中的所述中間選項網絡的損失函數的一部分。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110772824.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種輸送系統
- 下一篇:一種碳纖維復合材料高壓儲氫罐及其制造工藝





