[發(fā)明專利]用于強化學習過程的動作輸出方法、網絡訓練方法及裝置在審

申請?zhí)枺?/td>	202110376318.X	申請日：	2021-04-07
公開（公告）號：	CN113112016A	公開（公告）日：	2021-07-13
發(fā)明（設計）人：	余昊男;徐偉;張海超	申請（專利權）人：	北京地平線機器人技術研發(fā)有限公司
主分類號：	G06N3/08	分類號：	G06N3/08;G06N3/04
代理公司：	北京思源智匯知識產權代理有限公司 11657	代理人：	毛麗琴
地址：	100094 北京市海淀***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	用于強化學習過程動作輸出方法網絡訓練裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種用于強化學習過程的動作輸出方法，包括：

確定當前時間點智能體所處環(huán)境的第一狀態(tài)；

基于所述第一狀態(tài)和上一時間點所述智能體輸出至所述環(huán)境的第一歷史動作，確定當前時間點針對所述智能體的第一候選動作；

從所述第一候選動作和所述第一歷史動作中，選擇一個目標動作；

控制所述智能體在當前時間點輸出所述目標動作。

2.根據權利要求1所述的方法，其中，所述從所述第一候選動作和所述第一歷史動作中，選擇一個目標動作，包括：

基于所述第一狀態(tài)和所述第一候選動作，經由第一網絡獲取所述第一候選動作對應的未來獎勵影響預測值；

基于所述第一狀態(tài)和所述第一歷史動作，經由所述第一網絡獲取所述第一歷史動作對應的未來獎勵影響預測值；

從所述第一候選動作和所述第一歷史動作中，選擇所對應未來獎勵影響預測值較大的動作作為目標動作。

3.根據權利要求2所述的方法，其中，所述方法還包括：

獲取多組歷史數據，所獲取的每組歷史數據中均記載有所述環(huán)境的狀態(tài)、所述智能體輸出至所述環(huán)境的動作、所述環(huán)境的下一個狀態(tài)、所述環(huán)境的狀態(tài)轉移產生的獎勵，并且，所述多組歷史數據在時間線上兩兩相鄰，所述多組歷史數據中記載的動作相同；

以所述多組歷史數據作為訓練數據，利用多步自助法，訓練所述第一網絡。

4.一種網絡訓練方法，包括：

獲取歷史數據，所獲取的歷史數據中記載有第一時間點智能體所處環(huán)境的第二狀態(tài)和第二時間點所述智能體輸出至所述環(huán)境的第二歷史動作，所述第一時間點為所述第二時間點的下一時間點；

基于所述第二狀態(tài)和所述第二歷史動作，經由第二網絡確定所述第一時間點針對所述智能體的第二候選動作；

基于所述第二狀態(tài)、所述第二歷史動作和所述第二候選動作，確定所述第二候選動作的被選中概率；

基于所述第二狀態(tài)、所述第二歷史動作、所述第二候選動作和所述被選中概率，確定所述第二網絡的參數梯度；

基于所述參數梯度，對所述第二網絡進行訓練。

5.根據權利要求4所述的方法，其中，所述基于所述第二狀態(tài)、所述第二歷史動作和所述第二候選動作，確定所述第二候選動作的被選中概率，包括：

基于所述第二狀態(tài)和所述第二候選動作，經由第一網絡獲取所述第二候選動作對應的未來獎勵影響預測值；

基于所述第二狀態(tài)和所述第二歷史動作，經由所述第一網絡獲取所述第二歷史動作對應的未來獎勵影響預測值；

基于所述第二候選動作和所述第二歷史動作各自對應的未來獎勵影響預測值，確定所述第二候選動作的被選中概率。

6.根據權利要求5所述的方法，其中，所述基于所述第二候選動作和所述第二歷史動作各自對應的未來獎勵影響預測值，確定所述第二候選動作的被選中概率，包括：