[發明專利]網絡的訓練及設備的控制方法、裝置、設備以及存儲介質在審
| 申請號: | 202111672995.2 | 申請日: | 2021-12-31 |
| 公開(公告)號: | CN114219087A | 公開(公告)日: | 2022-03-22 |
| 發明(設計)人: | 劉杰;張胤民;李楚鳴 | 申請(專利權)人: | 上海商湯臨港智能科技有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 北京中知恒瑞知識產權代理事務所(普通合伙) 11889 | 代理人: | 袁忠林 |
| 地址: | 200232 上海市浦東新區中國(上海)自由貿易*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡 訓練 設備 控制 方法 裝置 以及 存儲 介質 | ||
本公開提供了一種網絡的訓練及設備的控制方法、裝置、設備以及存儲介質,其中,該方法包括:從離線數據池中獲取訓練樣本數據;基于所述策略網絡以及所述訓練樣本數據,確定目標策略;基于所述評價網絡,對所述目標策略進行評價,生成相應的評價值;所述評價值用于指示所述策略網絡調整所述目標策略;基于預設的目標損失函數,對所述評價網絡的參數進行調整;其中,所述目標損失函數包括限制損失函數以及利用損失函數,所述限制損失函數用于最小化所述評價值,所述利用損失函數用于最大化所述評價值,且所述限制損失函數與所述利用損失函數之間存在預設的關聯關系。本公開實施例,可以提升訓練的穩定性。
技術領域
本公開涉及強化學習領域,具體而言,涉及一種網絡的訓練及設備的控制方法、裝置、設備以及存儲介質。
背景技術
大多數強化學習需要在與環境進行交互的過程中,經過大量的嘗試和錯誤后才能學習到最好的策略,比如在游戲領域和機器人領域。但是在生活中的一些領域(比如:自動駕駛)中,不能通過大量的嘗試來進行試錯優化,因此,需要通過離線強化學習,在不與環境進行交互的情況下,根據離線采集的數據進行學習。然而,如何避免神經網絡訓練崩潰,提高訓練的穩定性,是業界一直追求的目標。
發明內容
本公開實施例至少提供一種網絡的訓練及設備的控制方法、裝置、設備以及存儲介質。
本公開實施例提供了一種神經網絡的訓練方法,所述神經網絡包括策略網絡和評價網絡,所述方法包括:
從離線數據池中獲取訓練樣本數據;所述訓練樣本數據包括第一狀態、動作以及第二狀態,所述第二狀態為執行所述動作后轉移至的狀態;
基于所述策略網絡以及所述訓練樣本數據,確定目標策略;
基于所述評價網絡,對所述目標策略進行評價,生成相應的評價值;所述評價值用于指示所述策略網絡調整所述目標策略;
基于預設的目標損失函數,對所述評價網絡的參數進行調整;其中,所述目標損失函數包括限制損失函數以及利用損失函數,所述限制損失函數用于最小化所述評價值,所述利用損失函數用于最大化所述評價值,且所述限制損失函數與所述利用損失函數之間存在預設的關聯關系。
本公開實施例中,由于目標損失函數包括限制損失函數以及利用損失函數,且所述限制損失函數與所述利用損失函數之間存在預設的關聯關系,使得在訓練的過程中,可以根據環境自適應調節利用損失以及限制損失之間的關系,如此,可以更好的保證神經網絡訓練的穩定性,避免訓練崩潰的情況發生。
在一種可能的實施方式中,所述限制損失函數包括權重系數,所述權重系數與所述利用損失函數的函數值正相關。
在一種可能的實施方式中,所述權重系數為所述利用損失函數的函數值。
在一種可能的實施方式中,通過如下步驟確定所述權重系數:
基于多次訓練中每次得到的所述利用損失函數的函數值,確定所述利用損失函數的函數值的中位數;
基于所述中位數以及所述利用損失函數的函數值,確定所述權重系數。
本公開實施例中,通過利用損失函數的函數值的中位數以及利用損失函數的函數值,確定所述權重系數,如此,可以保證權重系數在預設的范圍內波動,進而使得神經網絡訓練更加穩定。
在一種可能的實施方式中,所述基于所述中位數以及所述利用損失函數的函數值,確定所述權重系數,包括:
基于所述中位數以及所述利用損失函數的函數值,確定比例系數;
基于所述比例系數與所述利用損失函數的函數值的乘積,確定所述權重系數。
在一種可能的實施方式中,所述利用損失函數包括第一項以及第二項,所述第一項為所述評價網絡輸出的評價值,所述第二項為目標評價網絡輸出的評價值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海商湯臨港智能科技有限公司,未經上海商湯臨港智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111672995.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種無線網絡的接入控制系統及方法
- 下一篇:一種二氧化碳除沫控制系統及方法





