[發(fā)明專利]用于強(qiáng)化學(xué)習(xí)過程的動作輸出方法、網(wǎng)絡(luò)訓(xùn)練方法及裝置在審

申請?zhí)枺?/td>	202110376318.X	申請日：	2021-04-07
公開（公告）號：	CN113112016A	公開（公告）日：	2021-07-13
發(fā)明（設(shè)計）人：	余昊男;徐偉;張海超	申請（專利權(quán)）人：	北京地平線機(jī)器人技術(shù)研發(fā)有限公司
主分類號：	G06N3/08	分類號：	G06N3/08;G06N3/04
代理公司：	北京思源智匯知識產(chǎn)權(quán)代理有限公司 11657	代理人：	毛麗琴
地址：	100094 北京市海淀***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	用于強(qiáng)化學(xué)習(xí) 過程動作輸出方法網(wǎng)絡(luò) 訓(xùn)練裝置
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

公開了一種用于強(qiáng)化學(xué)習(xí)過程的動作輸出方法、網(wǎng)絡(luò)訓(xùn)練方法及裝置。該用于強(qiáng)化學(xué)習(xí)過程的動作輸出方法，包括：確定當(dāng)前時間點(diǎn)智能體所處環(huán)境的第一狀態(tài)；基于第一狀態(tài)和上一時間點(diǎn)智能體輸出至環(huán)境的第一歷史動作，確定當(dāng)前時間點(diǎn)針對智能體的第一候選動作；從第一候選動作和第一歷史動作中，選擇一個目標(biāo)動作；控制智能體在當(dāng)前時間點(diǎn)輸出目標(biāo)動作。本公開的實(shí)施例中，同一個動作可以被二元切換決策重復(fù)多次，以達(dá)到該動作跨越多個時間點(diǎn)的效果，從而縮短任務(wù)時間線，進(jìn)而使獎勵分配問題得到簡化，這樣有助于保證深度強(qiáng)化學(xué)習(xí)賦能的智能體在實(shí)際應(yīng)用場景中的落地使用。

技術(shù)領(lǐng)域

本公開涉及強(qiáng)化學(xué)習(xí)技術(shù)領(lǐng)域，尤其涉及一種用于強(qiáng)化學(xué)習(xí)過程的動作輸出方法、網(wǎng)絡(luò)訓(xùn)練方法及裝置。

背景技術(shù)

目前，強(qiáng)化學(xué)習(xí)的使用越來越普遍，在使用強(qiáng)化學(xué)習(xí)方法時，面對一個新的控制任務(wù)，機(jī)器人等智能體可能需要大量的試錯，花費(fèi)大量的時間，在此過程中冒著硬件損壞的危險，才能通過獎勵信號學(xué)會任務(wù)。需要說明的是，強(qiáng)化學(xué)習(xí)方法需要解決獎勵分配問題(credit assignment problem)，通常情況下，任務(wù)的時間線越長，獎勵分配問題越難解決，這樣會影響到深度強(qiáng)化學(xué)習(xí)賦能的智能體在實(shí)際應(yīng)用場景中的落地使用。

發(fā)明內(nèi)容

為了解決上述技術(shù)問題，提出了本公開。本公開的實(shí)施例提供了一種用于強(qiáng)化學(xué)習(xí)過程的動作輸出方法、網(wǎng)絡(luò)訓(xùn)練方法及裝置。

根據(jù)本公開實(shí)施例的一個方面，提供了一種用于強(qiáng)化學(xué)習(xí)過程的動作輸出方法，包括：

確定當(dāng)前時間點(diǎn)智能體所處環(huán)境的第一狀態(tài)；

基于所述第一狀態(tài)和上一時間點(diǎn)所述智能體輸出至所述環(huán)境的第一歷史動作，確定當(dāng)前時間點(diǎn)針對所述智能體的第一候選動作；

從所述第一候選動作和所述第一歷史動作中，選擇一個目標(biāo)動作；

控制所述智能體在當(dāng)前時間點(diǎn)輸出所述目標(biāo)動作。

根據(jù)本公開實(shí)施例的另一個方面，提供了一種網(wǎng)絡(luò)訓(xùn)練方法，包括：

獲取歷史數(shù)據(jù)，所獲取的歷史數(shù)據(jù)中記載有第一時間點(diǎn)智能體所處環(huán)境的第二狀態(tài)和第二時間點(diǎn)所述智能體輸出至所述環(huán)境的第二歷史動作，所述第一時間點(diǎn)為所述第二時間點(diǎn)的下一時間點(diǎn)；

基于所述第二狀態(tài)和所述第二歷史動作，經(jīng)由第二網(wǎng)絡(luò)確定所述第一時間點(diǎn)針對所述智能體的第二候選動作；

基于所述第二狀態(tài)、所述第二歷史動作和所述第二候選動作，確定所述第二候選動作的被選中概率；

基于所述第二狀態(tài)、所述第二歷史動作、所述第二候選動作和所述被選中概率，確定所述第二網(wǎng)絡(luò)的參數(shù)梯度；

基于所述參數(shù)梯度，對所述第二網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

根據(jù)本公開實(shí)施例的再一個方面，提供了一種用于強(qiáng)化學(xué)習(xí)過程的動作輸出裝置，包括：

第一確定模塊，用于確定當(dāng)前時間點(diǎn)智能體所處環(huán)境的第一狀態(tài)；

第二確定模塊，用于基于所述第一確定模塊確定的所述第一狀態(tài)和上一時間點(diǎn)所述智能體輸出至所述環(huán)境的第一歷史動作，確定當(dāng)前時間點(diǎn)針對所述智能體的第一候選動作；

選擇模塊，用于從所述第二確定模塊確定的所述第一候選動作和所述第一歷史動作中，選擇一個目標(biāo)動作；

輸出模塊，用于控制所述智能體在當(dāng)前時間點(diǎn)輸出所述選擇模塊選擇的所述目標(biāo)動作。

根據(jù)本公開實(shí)施例的又一個方面，提供了一種網(wǎng)絡(luò)訓(xùn)練裝置，包括：

第二獲取模塊，用于獲取歷史數(shù)據(jù)，所獲取的歷史數(shù)據(jù)中記載有第一時間點(diǎn)智能體所處環(huán)境的第二狀態(tài)和第二時間點(diǎn)所述智能體輸出至所述環(huán)境的第二歷史動作，所述第一時間點(diǎn)為所述第二時間點(diǎn)的下一時間點(diǎn)；

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京地平線機(jī)器人技術(shù)研發(fā)有限公司，未經(jīng)北京地平線機(jī)器人技術(shù)研發(fā)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110376318.X/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：高效節(jié)能非晶納米晶磁芯及其制作方法
下一篇：一種鎳鋅電池正極材料及其制備方法

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06N 基于特定計算模型的計算機(jī)系統(tǒng)
G06N3-00 基于生物學(xué)模型的計算機(jī)系統(tǒng)
G06N3-02 .采用神經(jīng)網(wǎng)絡(luò)模型
G06N3-12 .采用遺傳模型
G06N3-06 ..物理實(shí)現(xiàn)，即神經(jīng)網(wǎng)絡(luò)、神經(jīng)元或神經(jīng)元部分的硬件實(shí)現(xiàn)
G06N3-08 ..學(xué)習(xí)方法

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】