[發明專利]確定執行設備的動作選擇方針有效

申請號：	201980039221.0	申請日：	2019-05-15
公開（公告）號：	CN112470123B	公開（公告）日：	2023-09-05
發明（設計）人：	李輝;宋樂	申請（專利權）人：	創新先進技術有限公司
主分類號：	G06F9/455	分類號：	G06F9/455
代理公司：	北京博思佳知識產權代理有限公司 11415	代理人：	周嗣勇
地址：	開曼群島大開曼島***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	確定執行設備動作選擇方針
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本文公開了用于為執行設備生成動作選擇方針(ASP)的方法、系統和裝置。一種方法包括：獲得當前迭代中的ASP；獲得當前狀態下每個動作的相應的第一獎勵；基于各個動作的相應的第一獎勵和ASP來計算當前狀態的第一獎勵；基于動作的相應的第一獎勵與當前狀態的第一獎勵之間的差來計算每個動作的相應遺憾值；基于當前迭代中每個動作的相應遺憾值來計算增量ASP；基于增量ASP來計算當前狀態的第二獎勵；基于當前狀態的第二獎勵確定下一次迭代中的ASP；以及根據ASP來控制執行設備的各個動作。

技術領域

本文涉及確定執行設備的動作選擇方針，以在包括執行設備以及一個或多個其他設備的環境中完成任務。

背景技術

兩個或更多個參與方之間的策略交互可以通過涉及兩個或更多個參與方(也稱為玩家)的博弈來建模。在涉及兩個或更多個玩家的不完美信息博弈(imperfectinformation?games，IIG)中，玩家在做出決定之前只能部分地了解其對手。這類似于現實場景，例如貿易、交通路線規劃和公開拍賣。許多現實生活場景可以表示為IIG，例如不同公司之間的商業競爭、拍賣場景中的競標關系、欺詐方和反欺詐方之間的博弈關系。

求解IIG的方法具有很大的經濟和社會效益。由于信息隱藏，因此玩家必須在對其對手信息不確定的情況下下進行推理，并且玩家還需要采取行動以利用其對手對其自己的信息的不確定的優勢。

發明內容

本文描述了用于確定執行設備的動作選擇方針的技術，以在包括執行設備以及一個或多個其他設備的環境中完成任務，例如，在執行設備與一個或多個其他設備之間進行策略交互。例如，執行設備可以執行一種計算機實現的用于尋求執行設備與一個或多個其他設備之間的博弈的納什均衡(Nash?equilibrium)的方法。在一些實施例中，這些技術可以包括執行用于求解不完美信息博弈(IIG)的虛擬反事實遺憾最小化(CFR)算法，其可以節省存儲空間，降低計算復雜性和方差，同時提高CFR算法的收斂速度。

本文還描述了耦接到一個或多個處理器并且其上存儲有指令的一個或多個非暫態計算機可讀存儲介質，當所述指令由所述一個或多個處理器執行時，所述指令將促使所述一個或多個處理器按照本文提供的方法的實施例執行操作。

本文還描述了用于實現本文所述的方法的系統。該系統包括一個或多個處理器以及耦接到所述一個或多個處理器并且其上存儲有指令的計算機可讀存儲介質，當所述指令由所述一個或多個處理器執行時，所述指令將促使所述一個或多個處理器按照本文提供的方法的實施例執行操作。

根據本文所述的方法、系統和計算機介質可以包括本文描述的各個方面和特征的任何組合。也就是說，根據本文所述的方法不限于本文具體描述的各個方面和特征的組合，而是還包括所描述的各個方面和特征的任何組合。

在附圖和以下描述中闡述了本公開的一個或多個實施例的細節。根據說明書和附圖以及權利要求，本文的其他特征和優點將顯現。

附圖說明

圖1是示出根據本文的實施例的單牌撲克(one-card?poker)中的部分博弈樹的示例的圖示。

圖2A是示出原始CFR和流式CFR的工作流的示例的圖示，圖2B示出根據本文的實施例的流式CFR的工作流的示例。

圖3是根據本文的實施例的流式CFR算法的示例的偽代碼。

圖4是根據本文的實施例的用于執行流式CFR以確定軟件應用的動作選擇方針的處理的示例的流程圖。

圖5是示出根據本文的實施例的在部分博弈樹上應用原始CFR算法和虛擬CFR算法的示例的圖示。

圖6是根據本文的實施例的執行虛擬CFR以在兩個或更多個參與方之間的策略交互中進行策略搜索的處理的示例的流程圖。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。