[發明專利]訓練深度強化學習模型的方法及裝置在審
| 申請號: | 201810893034.6 | 申請日: | 2018-08-07 |
| 公開(公告)號: | CN109255443A | 公開(公告)日: | 2019-01-22 |
| 發明(設計)人: | 何建杉 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00;G06K9/62 |
| 代理公司: | 北京億騰知識產權代理事務所 11309 | 代理人: | 陳霽;周良玉 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 強化學習 歷史樣本 方法和裝置 策略算法 狀態確定 映射 樣本 獎勵 | ||
本說明書實施例提供一種訓練深度強化學習模型的方法和裝置,其中深度強化學習模型用于根據策略,將環境的狀態映射為動作。上述方法包括:獲取歷史樣本,其包括由第一狀態,第一動作,獎勵分數和第二狀態構成的序列;然后獲取深度強化學習模型的當前策略針對上述第一狀態確定出的第二動作。接著,比較第二動作與第一動作是否相同。在兩者相同的情況下,將上述歷史樣本確定為同策略樣本,用于采用同策略算法訓練所述深度強化學習模型。
技術領域
本說明書一個或多個實施例涉及機器學習領域,尤其涉及訓練深度強化學習模型的方法及裝置。
背景技術
機器學習的迅猛發展使得各種機器學習的模型在各種各樣的業務場景得到應用。相較于機器學習經典的有監督學習、無監督學習,近來發展的強化學習最大的特點和優勢,是通過跟環境的不斷交互、互相影響來進行策略調整,根據獲得的獎勵或懲罰不斷的自我學習,更加適應環境。
目前常見的深度強化學習算法(如DeepMind以及OpenAI實現的算法)主要針對游戲模擬器。在游戲的場景,強化學習的訓練很容易做到跟環境交互(智能體直接操作游戲)。但在許多業務場景中這是很難做到的,比如推薦場景,模型訓練一般是離線進行,樣本收集回來的時候效果是既定的,模型已經無法影響環境。而讓模型直接上線影響環境,成本代價和可控性又難以保證。
因此,希望能有改進的方案,更加高效地對深度強化學習模型進行訓練。
發明內容
本說明書一個或多個實施例描述了一種訓練深度強化學習模型的方法和裝置,能夠利用歷史樣本,進行同策略算法的模型訓練,從而提高模型訓練效率。
根據第一方面,提供了一種訓練深度強化學習模型的方法,所述深度強化學習模型用于根據策略,將環境的狀態映射為動作,所述方法包括:
獲取歷史樣本,所述歷史樣本包括由第一狀態,第一動作,獎勵分數和第二狀態構成的序列,其中所述第二狀態是在環境處于第一狀態的情況下,施加所述第一動作后,所述環境遷移到的狀態;
獲取所述深度強化學習模型的當前策略針對所述第一狀態確定出的第二動作;
判斷所述第二動作與所述第一動作是否相等,在兩者相等的情況下,將所述歷史樣本確定為同策略樣本,用于采用同策略算法訓練所述深度強化學習模型。
根據一種可能的設計,獲取歷史樣本可以包括:從歷史樣本池中提取所述歷史樣本。
根據另一種可能的設計,采用樣本管理模塊來管理歷史樣本池中的樣本;在這樣的情況下,可以通過以下方式獲取歷史樣本:向樣本管理模塊發送樣本請求;從樣本管理模塊接收所述歷史樣本。
在一個實施例中,樣本管理模塊根據各個樣本的讀取權重而選擇出上述歷史樣式。
在一種實施方式中,在將歷史樣本確定為同策略樣本之后,方法還包括,向樣本管理模塊發送權重更新請求,所述權重更新請求用于請求降低所述歷史樣本的讀取權重。
根據一種實施方式,通過以下方式獲取第二動作:
向所述深度強化學習模型的訓練平臺發送所述第一狀態;
從所述訓練平臺接收所述第二動作。
根據另一種實施方式,通過以下方式獲取第二動作:
從所述深度強化學習模型的訓練平臺獲取所述當前策略;
根據所述當前策略,確定針對所述第一狀態的第二動作。
在一個實施例中,在將歷史樣本確定為同策略樣本之后,將該歷史樣本發送到所述深度強化學習模型的訓練平臺,以進行同策略算法的訓練。
根據一個實施例,在判斷出第二動作與第一動作不相等的情況下,獲取下一歷史樣本,繼續上述過程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810893034.6/2.html,轉載請聲明來源鉆瓜專利網。





