[發明專利]動作價值的確定方法、裝置、學習框架、介質及設備在審
| 申請號: | 202110127259.2 | 申請日: | 2021-01-29 |
| 公開(公告)號: | CN112926628A | 公開(公告)日: | 2021-06-08 |
| 發明(設計)人: | 范嘉駿;肖昌南 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/02;G06N20/00;G06F3/01 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 魏嘉熹 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 動作 價值 確定 方法 裝置 學習 框架 介質 設備 | ||
本公開涉及一種動作價值的確定方法、裝置、學習框架、介質及設備,所述方法包括:獲取深度強化學習模型與虛擬環境交互所產生的交互序列,其中,交互序列包括多個采樣數據,每一采樣數據包括環境的環境狀態、以及與環境狀態對應的決策動作;針對每一采樣數據,確定深度強化學習模型的優勢函數與該采樣數據中的環境狀態對應的優勢函數值,以及在采樣數據對應的決策策略下優勢函數值的優勢期望,決策策略對應的概率分布為基于優勢函數和深度強化學習模型的策略熵參數構造的;針對每一采樣數據,根據采樣數據、與采樣數據對應的優勢函數值、優勢期望以及深度強化學習模型的狀態值函數,確定采樣數據對應的動作價值,提高對決策策略的評價準確性。
技術領域
本公開涉及計算機技術領域,具體地,涉及一種動作價值的確定方法、裝置、學習框架、介質及設備。
背景技術
隨機計算機技術的發展,各類大型模型、復雜的機器學習模型逐漸開始應用。深度強化學習將深度學習的感知能力和強化學習的決策能力相結合,可以直接根據輸入的圖像進行控制,更接近人類思維方式。在深度強化學習模型的訓練過程中,通常需要基于動作值函數對某一狀態下的選擇決策動作策略進行評價,以便于該深度強化學習模型的策略提升。
相關技術中在確定該動作價值時,通常需要根據優勢函數值和狀態函數值進行確定,而在計算過程中是基于優勢函數值的平均值對其期望進行估計,則其必然會引入誤差,而動作價值的準確性則會嚴重影響深度強化學習模型確定的決策動作的準確性。
發明內容
提供該發明內容部分以便以簡要的形式介紹構思,這些構思將在后面的具體實施方式部分被詳細描述。該發明內容部分并不旨在標識要求保護的技術方案的關鍵特征或必要特征,也不旨在用于限制所要求的保護的技術方案的范圍。
第一方面,本公開提供一種用于深度強化學習模型的動作價值的確定方法,所述方法包括:
獲取深度強化學習模型與虛擬環境交互所產生的交互序列,其中,所述交互序列包括多個采樣數據,其中,每一所述采樣數據包括所述虛擬環境的環境狀態、以及與所述環境狀態對應的決策動作;
針對每一所述采樣數據,確定所述深度強化學習模型的優勢函數與該采樣數據中的環境狀態對應的優勢函數值,以及在所述采樣數據對應的決策策略下所述優勢函數值的優勢期望,其中,所述決策策略對應的概率分布為基于所述優勢函數和所述深度強化學習模型的策略熵參數構造的;
針對每一所述采樣數據,根據所述采樣數據、與所述采樣數據對應的優勢函數值、所述優勢期望以及所述深度強化學習模型的狀態值函數,確定所述采樣數據對應的動作價值。
第二方面,本公開提供一種用于深度強化學習模型的動作價值的確定裝置,所述裝置包括:
獲取模塊,用于獲取深度強化學習模型與虛擬環境交互所產生的交互序列,其中,所述交互序列包括多個采樣數據,其中,每一所述采樣數據包括所述虛擬環境的環境狀態、以及與所述環境狀態對應的決策動作;
第一確定模塊,用于針對每一所述采樣數據,確定所述深度強化學習模型的優勢函數與該采樣數據中的環境狀態對應的優勢函數值,以及在所述采樣數據對應的決策策略下所述優勢函數值的優勢期望,其中,所述決策策略對應的概率分布為基于所述優勢函數和所述深度強化學習模型的策略熵參數構造的;
第二確定模塊,用于針對每一所述采樣數據,根據所述采樣數據、與所述采樣數據對應的優勢函數值、所述優勢期望以及所述深度強化學習模型的狀態值函數,確定所述采樣數據對應的動作價值。
第三方面,本公開提供一種深度強化學習框架,在所述深度強化學習框架進行訓練的過程中,通過第一方面所述深度強化學習模型的動作價值的確定方法確定用于訓練的采樣數據對應的動作價值。
第四方面,本公開提供一種計算機可讀介質,其上存儲有計算機程序,該程序被處理裝置執行時實現第一方面所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110127259.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種置釘導向器
- 下一篇:一種顯示屏拋光抗彎曲裝置





