[發(fā)明專利]用于強(qiáng)化學(xué)習(xí)過程的動作輸出方法、網(wǎng)絡(luò)訓(xùn)練方法及裝置在審
| 申請?zhí)枺?/td> | 202110376318.X | 申請日: | 2021-04-07 |
| 公開(公告)號: | CN113112016A | 公開(公告)日: | 2021-07-13 |
| 發(fā)明(設(shè)計)人: | 余昊男;徐偉;張海超 | 申請(專利權(quán))人: | 北京地平線機(jī)器人技術(shù)研發(fā)有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N3/04 |
| 代理公司: | 北京思源智匯知識產(chǎn)權(quán)代理有限公司 11657 | 代理人: | 毛麗琴 |
| 地址: | 100094 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 強(qiáng)化 學(xué)習(xí) 過程 動作 輸出 方法 網(wǎng)絡(luò) 訓(xùn)練 裝置 | ||
公開了一種用于強(qiáng)化學(xué)習(xí)過程的動作輸出方法、網(wǎng)絡(luò)訓(xùn)練方法及裝置。該用于強(qiáng)化學(xué)習(xí)過程的動作輸出方法,包括:確定當(dāng)前時間點(diǎn)智能體所處環(huán)境的第一狀態(tài);基于第一狀態(tài)和上一時間點(diǎn)智能體輸出至環(huán)境的第一歷史動作,確定當(dāng)前時間點(diǎn)針對智能體的第一候選動作;從第一候選動作和第一歷史動作中,選擇一個目標(biāo)動作;控制智能體在當(dāng)前時間點(diǎn)輸出目標(biāo)動作。本公開的實(shí)施例中,同一個動作可以被二元切換決策重復(fù)多次,以達(dá)到該動作跨越多個時間點(diǎn)的效果,從而縮短任務(wù)時間線,進(jìn)而使獎勵分配問題得到簡化,這樣有助于保證深度強(qiáng)化學(xué)習(xí)賦能的智能體在實(shí)際應(yīng)用場景中的落地使用。
技術(shù)領(lǐng)域
本公開涉及強(qiáng)化學(xué)習(xí)技術(shù)領(lǐng)域,尤其涉及一種用于強(qiáng)化學(xué)習(xí)過程的動作輸出方法、網(wǎng)絡(luò)訓(xùn)練方法及裝置。
背景技術(shù)
目前,強(qiáng)化學(xué)習(xí)的使用越來越普遍,在使用強(qiáng)化學(xué)習(xí)方法時,面對一個新的控制任務(wù),機(jī)器人等智能體可能需要大量的試錯,花費(fèi)大量的時間,在此過程中冒著硬件損壞的危險,才能通過獎勵信號學(xué)會任務(wù)。需要說明的是,強(qiáng)化學(xué)習(xí)方法需要解決獎勵分配問題(credit assignment problem),通常情況下,任務(wù)的時間線越長,獎勵分配問題越難解決,這樣會影響到深度強(qiáng)化學(xué)習(xí)賦能的智能體在實(shí)際應(yīng)用場景中的落地使用。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題,提出了本公開。本公開的實(shí)施例提供了一種用于強(qiáng)化學(xué)習(xí)過程的動作輸出方法、網(wǎng)絡(luò)訓(xùn)練方法及裝置。
根據(jù)本公開實(shí)施例的一個方面,提供了一種用于強(qiáng)化學(xué)習(xí)過程的動作輸出方法,包括:
確定當(dāng)前時間點(diǎn)智能體所處環(huán)境的第一狀態(tài);
基于所述第一狀態(tài)和上一時間點(diǎn)所述智能體輸出至所述環(huán)境的第一歷史動作,確定當(dāng)前時間點(diǎn)針對所述智能體的第一候選動作;
從所述第一候選動作和所述第一歷史動作中,選擇一個目標(biāo)動作;
控制所述智能體在當(dāng)前時間點(diǎn)輸出所述目標(biāo)動作。
根據(jù)本公開實(shí)施例的另一個方面,提供了一種網(wǎng)絡(luò)訓(xùn)練方法,包括:
獲取歷史數(shù)據(jù),所獲取的歷史數(shù)據(jù)中記載有第一時間點(diǎn)智能體所處環(huán)境的第二狀態(tài)和第二時間點(diǎn)所述智能體輸出至所述環(huán)境的第二歷史動作,所述第一時間點(diǎn)為所述第二時間點(diǎn)的下一時間點(diǎn);
基于所述第二狀態(tài)和所述第二歷史動作,經(jīng)由第二網(wǎng)絡(luò)確定所述第一時間點(diǎn)針對所述智能體的第二候選動作;
基于所述第二狀態(tài)、所述第二歷史動作和所述第二候選動作,確定所述第二候選動作的被選中概率;
基于所述第二狀態(tài)、所述第二歷史動作、所述第二候選動作和所述被選中概率,確定所述第二網(wǎng)絡(luò)的參數(shù)梯度;
基于所述參數(shù)梯度,對所述第二網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
根據(jù)本公開實(shí)施例的再一個方面,提供了一種用于強(qiáng)化學(xué)習(xí)過程的動作輸出裝置,包括:
第一確定模塊,用于確定當(dāng)前時間點(diǎn)智能體所處環(huán)境的第一狀態(tài);
第二確定模塊,用于基于所述第一確定模塊確定的所述第一狀態(tài)和上一時間點(diǎn)所述智能體輸出至所述環(huán)境的第一歷史動作,確定當(dāng)前時間點(diǎn)針對所述智能體的第一候選動作;
選擇模塊,用于從所述第二確定模塊確定的所述第一候選動作和所述第一歷史動作中,選擇一個目標(biāo)動作;
輸出模塊,用于控制所述智能體在當(dāng)前時間點(diǎn)輸出所述選擇模塊選擇的所述目標(biāo)動作。
根據(jù)本公開實(shí)施例的又一個方面,提供了一種網(wǎng)絡(luò)訓(xùn)練裝置,包括:
第二獲取模塊,用于獲取歷史數(shù)據(jù),所獲取的歷史數(shù)據(jù)中記載有第一時間點(diǎn)智能體所處環(huán)境的第二狀態(tài)和第二時間點(diǎn)所述智能體輸出至所述環(huán)境的第二歷史動作,所述第一時間點(diǎn)為所述第二時間點(diǎn)的下一時間點(diǎn);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京地平線機(jī)器人技術(shù)研發(fā)有限公司,未經(jīng)北京地平線機(jī)器人技術(shù)研發(fā)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110376318.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





