[發明專利]確定執行設備的動作選擇方針有效
| 申請號: | 201980039221.0 | 申請日: | 2019-05-15 |
| 公開(公告)號: | CN112470123B | 公開(公告)日: | 2023-09-05 |
| 發明(設計)人: | 李輝;宋樂 | 申請(專利權)人: | 創新先進技術有限公司 |
| 主分類號: | G06F9/455 | 分類號: | G06F9/455 |
| 代理公司: | 北京博思佳知識產權代理有限公司 11415 | 代理人: | 周嗣勇 |
| 地址: | 開曼群島大開曼島*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 確定 執行 設備 動作 選擇 方針 | ||
1.一種執行設備的計算機實現的方法,用于生成動作選擇方針,以在包括所述執行設備以及一個或多個其他設備的環境中完成任務,所述方法包括:
在多次迭代中的當前迭代,
獲得所述當前迭代中的動作選擇方針,其中,所述動作選擇方針包括所述執行設備從當前狀態下的多個可能動作中選擇一個動作的相應概率,其中,所述當前狀態是由所述執行設備在前一狀態下采取的前一動作導致的,并且當所述執行設備在所述當前狀態下時,所述多個可能動作中的每個動作如果被所述執行設備執行,則會導致相應的下一狀態;
獲得所述當前狀態下每個動作的相應的第一獎勵,其中,每個動作的相應的第一獎勵表示由該動作帶來的有助于完成任務的收益;
基于各個動作的相應的第一獎勵和所述當前迭代中的動作選擇方針來計算所述當前狀態的第一獎勵,其中,所述當前狀態的第一獎勵表示由所述當前狀態帶來的有助于完成任務的收益;
基于所述動作的相應的第一獎勵與所述當前狀態的第一獎勵之間的差來計算所述多個可能動作中的每個動作的相應遺憾值;
基于所述當前迭代中每個動作的相應遺憾值而不是所述當前迭代之前的任何迭代中每個動作的任何遺憾值來計算增量動作選擇方針;
基于各個動作的相應的第一獎勵和所述增量動作選擇方針來計算所述當前狀態的第二獎勵,其中,所述當前狀態的第二獎勵為每個動作的相應的第一獎勵和每個動作的相應概率的加權和;
基于所述當前狀態的第二獎勵確定所述下一次迭代中的動作選擇方針;以及
根據所述動作選擇方針來控制所述執行設備的各個動作,
其中,所述動作選擇方針用于實現設備動作控制或產品/服務推薦或交通路線規劃。
2.根據權利要求1所述的方法,其中,所述基于各個動作的相應的第一獎勵以及所述當前迭代中的動作選擇方針來計算所述當前狀態的第一獎勵,包括:
基于所述當前迭代中選擇的各個動作的對應概率,對所述當前迭代中選擇的各個動作的相應的第一獎勵進行加權;
基于所述當前迭代中選擇的各個動作的相應的加權后的第一獎勵的總和計算所述當前狀態的第一獎勵。
3.根據權利要求1所述的方法,其中,所述基于所述當前狀態的第二獎勵確定所述下一次迭代中的動作選擇方針,包括:基于所述當前迭代中的動作選擇方針和所述增量動作選擇方針的加權和來確定所述下一次迭代中的動作選擇方針。
4.根據權利要求1所述的方法,還包括:將所述當前狀態的第一獎勵替換為所述當前狀態的第二獎勵。
5.根據權利要求1所述的方法,其中,所述基于所述當前狀態的第二獎勵來確定所述下一次迭代中的動作選擇方針,包括:
基于所述當前狀態的第二獎勵來計算所述前一狀態的第一獎勵;
基于所述前一狀態下的所述前一動作的第一獎勵與所述前一狀態的第一獎勵之間的差來計算所述前一動作的遺憾值;以及
基于所述前一動作的遺憾值來計算在所述下一次迭代中從所述前一狀態下的所述多個可能動作中選擇所述前一動作的概率。
6.根據前述任一權利要求所述的方法,其中:
所述環境包括交通路線規劃環境,
應用支持的所述執行設備包括計算機輔助車輛,
所述動作選擇方針包括用于控制所述計算機輔助車輛的方向的路線選擇方針,以及
根據所述動作選擇方針控制所述執行設備的操作包括,根據所述路線選擇方針控制所述計算機輔助車輛的方向。
7.一種執行用于生成動作選擇方針的軟件實現應用的系統,用于在包括執行設備以及一個或多個其他設備的環境中完成任務,所述系統包括:
一個或多個處理器;以及
一個或多個計算機可讀存儲器,耦接到所述一個或多個處理器且其上存儲有指令,所述指令能夠被所述一個或多個處理器執行以執行權利要求1至6中任一項所述的方法。
8.一種用于生成動作選擇方針的裝置,用于在包括執行設備以及一個或多個其他設備的環境中完成任務,所述裝置包括用于執行權利要求1至6中任一項所述的方法的多個模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于創新先進技術有限公司,未經創新先進技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201980039221.0/1.html,轉載請聲明來源鉆瓜專利網。





