[發明專利]基于在線學習的策略獲取方法、裝置及設備有效
| 申請號: | 202110772824.0 | 申請日: | 2021-07-08 |
| 公開(公告)號: | CN113326902B | 公開(公告)日: | 2021-11-05 |
| 發明(設計)人: | 黃健;陳浩;付可;劉權;龔建興;韓潤海;李嘉祥 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N20/00;G06Q10/06 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 曾志鵬 |
| 地址: | 410003 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 在線 學習 策略 獲取 方法 裝置 設備 | ||
本申請提供一種基于在線學習的策略獲取方法、裝置及設備,獲取并識別目標對手策略,并從智能體策略庫中選取針對目標對手策略的智能體策略;根據智能體策略確定目標對手策略是已知對手策略的概率,并將概率加入概率隊列;響應于確定概率隊列中所有概率的和小于和閾值,基于智能體策略庫和預先構建的在線學習模型獲得針對目標對手策略的新智能體策略。本申請基于智能體策略庫中已有的智能體策略對在線學習進行加速,效率較高且性能較好。
技術領域
本申請涉及智能體技術領域,尤其涉及一種基于在線學習的策略獲取方法、裝置及設備。
背景技術
智能體是人工智能領域中一個很重要的概念,任何獨立的能夠思想并可以同環境交互的實體都可以抽象為智能體。在對抗型多智能體系統中,智能體不僅與環境交互,其中對手的行為也影響智能體的策略選擇。為獲取更好的對抗性能,智能體決策時通常考慮對手的行為。在許多情況下,智能體和對手分別維護了一個策略庫,并適時從其中選擇策略執行,從而最大化己方從環境中獲得的獎勵。因此,準確識別當前時刻對手策略并選擇合適的應對策略對于己方智能體來說十分關鍵。
在重復博弈的場景中,相關技術每隔固定的時間間隔檢測一次對手的策略是否發生改變,若檢測到對手策略發生變化,轉入學習階段學習針對對手策略的最優策略。相關技術轉入學習階段時,從零開始學習最優策略,效率較低且性能較差。
發明內容
有鑒于此,本申請的目的在于提出一種基于在線學習的策略獲取方法、裝置及設備。
基于上述目的,本申請提供了一種基于在線學習的策略獲取方法,包括:
獲取并識別目標對手策略,并從智能體策略庫中選取針對所述目標對手策略的智能體策略;
根據所述智能體策略確定所述目標對手策略是已知對手策略的概率,并將所述概率加入概率隊列;
響應于確定所述概率隊列中所有所述概率的和小于和閾值,基于所述智能體策略庫和預先構建的在線學習模型獲得針對所述目標對手策略的新智能體策略。
基于同一發明構思,本申請提供了一種基于在線學習的策略獲取裝置,包括:
智能體策略重用模塊,被配置為獲取并識別目標對手策略,并從智能體策略庫中選取針對所述目標對手策略的智能體策略;
未知對手策略確定模塊,被配置為根據所述智能體策略確定所述目標對手策略是已知對手策略的概率,并將所述概率加入概率隊列;
智能體策略生成模塊,被配置為響應于確定所述概率隊列中所有所述概率的和小于和閾值,基于所述智能體策略庫和預先構建的在線學習模型獲得針對所述目標對手策略的新智能體策略。
基于同一發明構思,本申請提供了一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如上所述的方法。
從上面所述可以看出,本申請提供的基于在線學習的策略獲取方法、裝置及設備,獲取并識別目標對手策略,并從智能體策略庫中選取針對目標對手策略的智能體策略;根據智能體策略確定目標對手策略是已知對手策略的概率,并將概率加入概率隊列;響應于確定概率隊列中所有概率的和小于和閾值,基于智能體策略庫和預先構建的在線學習模型獲得針對目標對手策略的新智能體策略。本申請基于智能體策略庫中已有的智能體策略對在線學習進行加速,效率較高且性能較好。
附圖說明
為了更清楚地說明本申請或相關技術中的技術方案,下面將對實施例或相關技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本申請實施例提供的基于在線學習的策略獲取方法的一種流程示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110772824.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種輸送系統
- 下一篇:一種碳纖維復合材料高壓儲氫罐及其制造工藝





