[發(fā)明專利]網(wǎng)絡(luò)的訓練及設(shè)備的控制方法、裝置、設(shè)備以及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202111672995.2 | 申請日: | 2021-12-31 |
| 公開(公告)號: | CN114219087A | 公開(公告)日: | 2022-03-22 |
| 發(fā)明(設(shè)計)人: | 劉杰;張胤民;李楚鳴 | 申請(專利權(quán))人: | 上海商湯臨港智能科技有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 北京中知恒瑞知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11889 | 代理人: | 袁忠林 |
| 地址: | 200232 上海市浦東新區(qū)中國(上海)自由貿(mào)易*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 網(wǎng)絡(luò) 訓練 設(shè)備 控制 方法 裝置 以及 存儲 介質(zhì) | ||
1.一種神經(jīng)網(wǎng)絡(luò)的訓練方法,其特征在于,所述神經(jīng)網(wǎng)絡(luò)包括策略網(wǎng)絡(luò)和評價網(wǎng)絡(luò),所述方法包括:
從離線數(shù)據(jù)池中獲取訓練樣本數(shù)據(jù);所述訓練樣本數(shù)據(jù)包括第一狀態(tài)、動作以及第二狀態(tài),所述第二狀態(tài)為執(zhí)行所述動作后轉(zhuǎn)移至的狀態(tài);
基于所述策略網(wǎng)絡(luò)以及所述訓練樣本數(shù)據(jù),確定目標策略;
基于所述評價網(wǎng)絡(luò),對所述目標策略進行評價,生成相應(yīng)的評價值;所述評價值用于指示所述策略網(wǎng)絡(luò)調(diào)整所述目標策略;
基于預(yù)設(shè)的目標損失函數(shù),對所述評價網(wǎng)絡(luò)的參數(shù)進行調(diào)整;其中,所述目標損失函數(shù)包括限制損失函數(shù)以及利用損失函數(shù),所述限制損失函數(shù)用于最小化所述評價值,所述利用損失函數(shù)用于最大化所述評價值,且所述限制損失函數(shù)與所述利用損失函數(shù)之間存在預(yù)設(shè)的關(guān)聯(lián)關(guān)系。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述限制損失函數(shù)包括權(quán)重系數(shù),所述權(quán)重系數(shù)與所述利用損失函數(shù)的函數(shù)值正相關(guān)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述權(quán)重系數(shù)為所述利用損失函數(shù)的函數(shù)值。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,通過如下步驟確定所述權(quán)重系數(shù):
基于多次訓練中每次得到的所述利用損失函數(shù)的函數(shù)值,確定所述利用損失函數(shù)的函數(shù)值的中位數(shù);
基于所述中位數(shù)以及所述利用損失函數(shù)的函數(shù)值,確定所述權(quán)重系數(shù)。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述基于所述中位數(shù)以及所述利用損失函數(shù)的函數(shù)值,確定所述權(quán)重系數(shù),包括:
基于所述中位數(shù)以及所述利用損失函數(shù)的函數(shù)值,確定比例系數(shù);
基于所述比例系數(shù)與所述利用損失函數(shù)的函數(shù)值的乘積,確定所述權(quán)重系數(shù)。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用損失函數(shù)包括第一項以及第二項,所述第一項為所述評價網(wǎng)絡(luò)輸出的評價值,所述第二項為目標評價網(wǎng)絡(luò)輸出的評價值。
7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述限制損失函數(shù)包括第一部分以及第二部分,所述權(quán)重系數(shù)分別作用于所述第一部分以及所述第二部分;所述第一部分用于最小化所述評價網(wǎng)絡(luò)基于全空間數(shù)據(jù)集得到的評價值,所述第二部分用于最大化所述評價網(wǎng)絡(luò)基于所述離線數(shù)據(jù)池得到的評價值。
8.一種智能行駛設(shè)備的控制方法,其特征在于,包括:
獲取智能行駛設(shè)備所處的環(huán)境狀態(tài);
基于目標神經(jīng)網(wǎng)絡(luò)以及所述環(huán)境狀態(tài),確定設(shè)備控制策略;所述目標神經(jīng)網(wǎng)絡(luò)是根據(jù)權(quán)利要求1-7任一所述的神經(jīng)網(wǎng)絡(luò)的訓練方法訓練得到;
基于所述設(shè)備控制策略控制所述智能行駛設(shè)備。
9.一種神經(jīng)網(wǎng)絡(luò)的訓練裝置,其特征在于,包括:
樣本數(shù)據(jù)獲取模塊,用于從離線數(shù)據(jù)池中獲取訓練樣本數(shù)據(jù);所述訓練樣本數(shù)據(jù)包括第一狀態(tài)、動作以及第二狀態(tài),所述第二狀態(tài)為執(zhí)行所述動作后轉(zhuǎn)移至的狀態(tài);
目標策略確定模塊,用于基于所述策略網(wǎng)絡(luò)以及所述訓練樣本數(shù)據(jù),確定目標策略;
評價結(jié)果確定模塊,用于基于所述評價網(wǎng)絡(luò),對所述目標策略進行評價,生成相應(yīng)的評價值;所述評價值用于指示所述策略網(wǎng)絡(luò)調(diào)整所述目標策略;
網(wǎng)絡(luò)參數(shù)調(diào)整模塊,用于基于預(yù)設(shè)的目標損失函數(shù),對所述評價網(wǎng)絡(luò)的參數(shù)進行調(diào)整;其中,所述目標損失函數(shù)包括限制損失函數(shù)以及利用損失函數(shù),所述限制損失函數(shù)用于最小化所述評價值,所述利用損失函數(shù)用于最大化所述評價值,且所述限制損失函數(shù)與所述利用損失函數(shù)之間存在預(yù)設(shè)的關(guān)聯(lián)關(guān)系。
10.一種智能行駛設(shè)備的控制裝置,其特征在于,包括:
環(huán)境狀態(tài)獲取模塊,用于獲取智能行駛設(shè)備所處的環(huán)境狀態(tài);
控制策略確定模塊,用于基于目標神經(jīng)網(wǎng)絡(luò)以及所述環(huán)境狀態(tài),確定設(shè)備控制策略;所述目標神經(jīng)網(wǎng)絡(luò)是根據(jù)權(quán)利要求1-7任一所述的神經(jīng)網(wǎng)絡(luò)的訓練方法訓練得到;
行駛設(shè)備控制模塊,用于基于所述設(shè)備控制策略控制所述智能行駛設(shè)備。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海商湯臨港智能科技有限公司,未經(jīng)上海商湯臨港智能科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111672995.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗設(shè)備、驗證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





