[發明專利]用于模擬復雜的強化學習環境的系統和方法在審
| 申請號: | 201910354811.4 | 申請日: | 2019-04-29 |
| 公開(公告)號: | CN110175678A | 公開(公告)日: | 2019-08-27 |
| 發明(設計)人: | T.W.E.萊;S.S.納韋卡;C.E.保蒂利爾 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06N3/08 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 金玉潔 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 輸出 計算系統 模擬實體 強化學習 實體模型 響應 代理模型 資源分配 簡檔 分配 實體分配 資源簡檔 偏好 配置 更新 | ||
1.一種用于模擬向多個實體分配資源的計算系統,所述計算系統包括:
一個或多個處理器;
強化學習代理模型,被配置為接收描述模擬實體的偏好或要求中的至少一個的實體簡檔,并且響應于接收到所述實體簡檔,輸出描述對所述多個實體的所述模擬實體的資源分配的分配輸出;
實體模型,被配置為接收描述至少一個資源的數據,并且響應于接收描述所述至少一個資源的數據,模擬描述所述模擬實體對描述所述至少一個資源的數據的響應的模擬響應輸出;
一個或多個共同存儲指令的非暫時性計算機可讀介質,當由一個或多個處理器運行時,所述指令使所述計算系統執行操作,所述操作包括:
將所述實體簡檔輸入到所述強化學習代理模型;
接收作為所述強化學習代理模型的輸出的分配輸出,所述分配輸出描述了對所述模擬實體的資源分配;
基于由所述分配輸出描述的資源分配,選擇要提供給所述實體模型的所述至少一個資源;
向所述實體模型提供所述至少一個資源;
接收作為所述實體模型的輸出的模擬響應輸出,所述模擬響應輸出描述所述模擬實體對所述至少一個資源的響應;以及
基于所述模擬響應輸出,更新描述所述至少一個資源的資源簡檔或實體簡檔中的至少一個。
2.如權利要求1所述的計算系統,其中,所述強化學習代理模型包括強化學習代理,所述強化學習代理基于作為所述模擬響應輸出的函數的獎勵而被學習。
3.如權利要求1所述的計算系統,其中:
所述模擬實體包括計算任務或計算任務的源中的至少一個;以及
所述至少一個資源包括被配置為運行所述計算任務的工作者。
4.如權利要求1所述的計算系統,其中:
所述模擬實體包括工業過程;以及
所述至少一個資源包括對所述工業過程的輸入。
5.如權利要求1所述的計算系統,其中,所述模擬實體包括模擬的人類用戶,并且所述實體簡檔包括描述所模擬的人類用戶的興趣或偏好中的至少一個的用戶簡檔。
6.如權利要求5所述的計算系統,其中,所述模擬響應輸出描述了參與度量,所述參與度量描述所模擬的人類用戶對所述至少一個資源的交互時間或評級中的至少一個。
7.如權利要求1所述的計算系統,其中,基于所述模擬響應輸出來更新所述資源簡檔或所述實體簡檔中的至少一個包括提供描述所述模擬響應輸出的數據給生成更新的一組用戶隱藏狀態特征的用戶轉變模型,并基于所述用戶隱藏狀態特征更新所述實體配置文件。
8.如權利要求1所述的計算系統,其中,所述至少一個資源包括至少一個文檔,所述文檔包括文本、音頻或圖形內容中的至少一個。
9.如權利要求1所述的計算系統,還包括:資源模型,被配置為接收描述包括所述至少一個資源的多個資源的數據,并且響應于接收描述所述多個資源的數據,輸出資源可觀察特征,并且其中,所述訓練強化學習代理模型至少部分地基于所述資源可觀察特征來選擇分配輸出,并且其中所述操作還包括:
將描述所述多個資源的數據輸入到所述資源模型中;
接收作為所述資源模型的輸出的資源可觀察特征;以及
將所述資源可觀察特征輸入到所述強化學習代理模型中。
10.如權利要求1所述的計算系統,其中:
所述至少一個資源包括多個資源項;以及
所述模擬響應輸出描述了少于所有所述多個資源項的選擇。
11.如權利要求10所述的計算系統,其中,所述實體模型包括離散選擇模型。
12.如權利要求11所述的計算系統,其中,所述離散選擇模型包括多項比例函數、多項logit函數或指數級聯函數中的至少一個。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910354811.4/1.html,轉載請聲明來源鉆瓜專利網。





