[發明專利]用于模擬復雜的強化學習環境的系統和方法在審
| 申請號: | 201910354811.4 | 申請日: | 2019-04-29 |
| 公開(公告)號: | CN110175678A | 公開(公告)日: | 2019-08-27 |
| 發明(設計)人: | T.W.E.萊;S.S.納韋卡;C.E.保蒂利爾 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N3/08 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 金玉潔 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 輸出 計算系統 模擬實體 強化學習 實體模型 響應 代理模型 資源分配 簡檔 分配 實體分配 資源簡檔 偏好 配置 更新 | ||
公開了一種用于模擬向多個實體分配資源的計算系統。所述計算系統可以被配置為將描述模擬實體的偏好和/或需求的實體簡檔輸入到強化學習代理模型中,并且接收作為強化學習代理模型的輸出的分配輸出,所述分配輸出描述用于所述模擬實體的資源分配。所述計算系統可以基于所述分配輸出描述的資源分配來選擇一個或多個資源,并提供資源給實體模型,所述實體模型被配置為模擬描述模擬實體的響應的模擬響應輸出。所述計算系統可以接收作為實體模型的輸出的模擬響應輸出,并基于所述模擬響應輸出更新描述至少一個資源的資源簡檔和/或實體簡檔。
技術領域
本公開一般涉及用于模擬強化學習環境的系統和方法。更具體地,本公開涉及用于模擬系統的系統和方法,其能夠測試或以其他方式學習各種不同的強化學習策略或模型。
背景技術
可以使用各種技術在模擬環境中訓練強化學習代理(agent)。通常,強化學習代理基于其對模擬環境的動作被給予獎勵。代理隨著時間學習策略(policy),目的是最大化其收到的獎勵。然而,現實環境通常比目前在強化學習系統中使用的模擬環境更復雜。
發明內容
本公開的實施例的方面和優點將部分地在以下描述中闡述,或者可以從描述中學習,或者可以通過實施例的實踐來學習。
本公開的一個示例方面涉及一種用于模擬向多個實體分配資源的計算系統。計算系統可以包括一個或多個處理器和強化學習代理模型,其被配置為接收描述模擬實體的偏好或需求中的至少一個的實體簡檔(profile)。響應于接收實體簡檔,強化學習代理模型可以輸出描述多個實體的對模擬實體的資源分配的分配輸出。計算系統可以包括被配置為接收描述至少一個資源的數據的實體模型,并且響應于接收描述該至少一個資源的數據,模擬描述模擬實體對描述至少一個資源的數據的響應的模擬響應輸出。計算系統可以包括共同存儲指令的一個或多個非暫時性計算機可讀介質,當由一個或多個處理器執行時,所述指令使計算系統執行操作。操作可以包括將實體簡檔輸入到強化學習代理模型中;接收作為強化學習代理模型的輸出的分配輸出,其描述對模擬實體的資源分配;基于由分配輸出描述的資源分配,選擇要提供給實體模型的至少一個資源;向實體模型提供至少一個資源;接收作為實體模型的輸出的模擬響應輸出,其描述模擬實體對至少一個資源的響應;以及基于模擬響應輸出更新描述至少一個資源或實體簡檔的資源簡檔中的至少一個。
本公開的另一示例方面涉及一種用于模擬向多個實體分配資源的方法。該方法可以包括由一個或多個計算設備向強化學習代理模型輸入實體簡檔,所述實體簡檔描述模擬實體的偏好或需求中的至少一個。強化學習代理模型可以被配置為接收實體簡檔,并且響應于所接收的實體簡檔,輸出描述對模擬實體的資源分配的分配輸出。該方法可以包括由一個或多個計算設備接收作為強化學習代理模型的輸出的分配輸出,其描述對模擬實體的資源分配;基于由分配輸出所描述的資源分配,由一個或多個計算設備選擇至少一個資源以模擬向實體模型提供被配置為接收描述至少一個資源的數據的實體模型,并且響應于接收描述至少一個資源的數據,模擬描述模擬實體對描述至少一個資源的數據的響應的模擬響應輸出;由一個或多個計算設備向實體模型提供描述至少一個資源的數據;由一個或多個計算設備接收作為實體模型的輸出的模擬響應輸出,其描述模擬實體對至少一個資源的響應;以及由所述一個或多個計算設備基于模擬響應輸出更新描述至少一個資源的資源簡檔或實體簡檔中的至少一個。
本公開的其他方面涉及各種系統、裝置、非暫時性計算機可讀介質、用戶界面和電子設備。
參考以下描述和所附權利要求,將更好地理解本公開的各種實施例的這些和其他特征、方面和優點。結合在本說明書中并構成本說明書的一部分的附圖示出本公開的示例實施例,并與說明書一起用于說明相關原理。
附圖說明
在參考了附圖的說明書中闡述了針對本領域普通技術人員的實施例的詳細討論,其中:
圖1A描繪了根據本公開的示例實施例的用于使用強化學習代理模型來模擬對多個實體的資源分配的示例計算系統的框圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910354811.4/2.html,轉載請聲明來源鉆瓜專利網。





