[發明專利]使用強化學習選擇動作名單有效
| 申請號: | 201680070828.1 | 申請日: | 2016-12-01 |
| 公開(公告)號: | CN108604314B | 公開(公告)日: | 2022-08-19 |
| 發明(設計)人: | 彼得·戈蘭·蘇內哈格 | 申請(專利權)人: | 淵慧科技有限公司 |
| 主分類號: | G06F16/26 | 分類號: | G06F16/26;G06N3/08;G06Q30/06 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 周亞榮;安翔 |
| 地址: | 英國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 強化 學習 選擇 動作 名單 | ||
包括在計算機存儲介質上編碼的、用于使用強化學習來選擇動作名單的計算機程序的方法、系統和裝置。其中一種方法包括接收表征環境當前狀態的觀測;通過使用深度神經網絡處理所述觀測和多個候選動作名單來選擇動作名單,其中每個候選動作名單包括來自動作集合的相應多個動作,并且其中深度神經網絡被配置為對于每個動作名單處理觀測和該候選動作名單中的動作以生成該候選動作名單的名單Q值,該值是響應于觀測從提供給動作選擇器的所述候選動作名單產生的長期獎勵的估計;以及響應于觀測將選擇的動作名單提供給動作選擇器。
背景技術
本說明書涉及強化學習。
在強化學習系統中,響應于接收表征當前環境狀態的觀測,代理通過執行由強化學習系統選擇的動作來與環境交互。
一些強化學習系統響應于接收給定觀測,根據神經網絡的輸出選擇要由代理執行的動作。
神經網絡是采用一層或多層非線性單元來預測接收到的輸入的輸出的機器學習模型。一些神經網絡是深度神經網絡,其除了輸出層之外還包括一個或多個隱藏層。每個隱藏層的輸出被用作網絡中下一層的輸入,即下一個隱藏層或輸出層。網絡的每一層根據相應的參數集的當前值從接收到的輸入生成輸出。
發明內容
本說明書描述了與強化學習相關的技術。特別地,本說明書描述了響應于表征環境狀態的觀測來選擇包括多個動作的動作名單(action slate)的技術。然后,動作選擇器通過選擇動作(例如通過從提供的動作名單選擇動作)與環境交互。
在一個方面,公開了一種向動作選擇器提供動作名單的方法,所述動作選擇器通過選擇并執行動作與環境交互。動作名單包括從預定的動作集合中選擇的多個動作,并且環境響應于由動作選擇器執行的動作而轉換狀態。該方法包括接收表征環境的當前狀態的觀測;通過使用深度神經網絡處理所述觀測和多個候選動作名單來選擇包括多個動作的動作名單,其中每個候選動作名單包括來自動作集合的相應多個動作,并且其中深度神經網絡是被配置為對于每個候選動作名單,處理所述觀測和該候選動作名單中的動作以生成該候選動作名單的名單Q值,該名單Q值是響應于所述觀測從提供給動作選擇器的候選動作名單產生的長期獎勵的估計;和響應于所述觀測,將所選擇的動作名單提供給動作選擇器。
該方法還可以包括以下任選特征。
響應于接收動作名單,動作選擇器可執行(i)從動作名單選擇的動作或者(ii)未包括在動作集合中的空動作。
動作名單可包括預定數量的槽位。
對于所述動作名單中的槽位的給定子集,選擇動作名單可包括:為槽位的所述給定子集生成多個候選名單,針對槽位的所述給定子集的每個候選名單包括:在已經選擇了動作的任一槽位中,已經為該槽位選擇的動作,在所述給定子集中的每個槽位中的相應候選動作,其中每個候選名單在所述給定子集中的槽位中具有與每個其他候選名單不同的候選動作的組合,以及在除了所述給定子集中的槽位和已經選擇了動作的槽位之外的動作名單中的任一槽位中的相應占位動作;使用深度神經網絡利用所述觀測來處理所述多個候選名單中的每一個候選名單以生成每個候選名單的相應名單Q值;和將具有最高名單Q值的所述候選名單中的所述給定子集中的槽位中的候選動作選擇為所述動作名單中的槽位的所述給定子集中的動作。
槽位的所述給定子集可具有大于1的預定數量的槽位。槽位的所述給定子集可具有一個槽位。
當被提供給動作選擇器時,動作名單中的槽位可從動作名單中的最高槽位到動作名單中的最低槽位排序。選擇動作名單可包括基于當被提供給動作選擇器時動作名單中的槽位的排序,按順序為動作名單中的槽位的每個子集選擇動作。
該方法可以進一步包括生成動作名單中的槽位的子集的隨機排序。選擇動作名單可包括根據隨機排序,按順序為動作名單中的槽位的每個子集選擇動作。
對于每個候選名單,所述占位動作可與所述給定子集中的一個候選動作相同。對于每個候選名單,占位動作可以是由外部動作推薦系統建議的動作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淵慧科技有限公司,未經淵慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201680070828.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:自動化的預測性建模與框架
- 下一篇:使用深度學習模型識別實體





