[發明專利]一種強化學習方法在審
| 申請號: | 202110101401.6 | 申請日: | 2021-01-26 |
| 公開(公告)號: | CN112734048A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 李紀先;安濤;王瑞杰;朱青山;譚緒祥;劉烜宏;劉宇生;聶琳靜;于湃 | 申請(專利權)人: | 天津飛騰信息技術有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 陳志明 |
| 地址: | 300450 天津市濱海新*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 強化 學習方法 | ||
1.一種強化學習方法,其特征在于,包括:
CPU端初始化智能體參數,所述智能體參數包括智能體的模型參數,以及所述智能體的多層感知機的輸入權重矩陣和輸出權重矩陣;
所述CPU端采用所述智能體與環境進行交互,以采集初始經驗值,并將所述初始經驗值存入緩存器;
所述CPU端將經初始化的智能體參數傳輸至FPGA端;
所述FPGA端將所述經初始化的智能體參數作為訓練的初值,根據從所述緩存器中讀取的初始經驗值對所述智能體進行迭代更新。
2.如權利要求1所述的強化學習方法,其特征在于,所述FPGA端通過如下步驟以對所述智能體進行迭代更新:
讀取來自所述CPU端的所述經初始化的智能體參數;
從所述環境中獲取當前狀態,并根據所述當前狀態確定當前動作;
利用所述智能體向所述環境輸出所述當前動作,以從所述環境獲取響應于所述動作的下一個狀態、當前獎勵以及當前情節結束標志;
當所述當前情節結束標志表示為當前情節結束時,將所述當前狀態、所述當前動作、所述下一個狀態和所述當前獎勵組織成經驗值,以更新所述緩存器的數據;
判斷所述多層感知機中神經元數量是否等于網絡節點數;若是,則對所述經初始化的輸出權重矩陣進行初始化訓練,并利用所述緩存器中存儲的當前經驗值更新所述下一個狀態對應的動作Q值;若否,且在神經元數量大于所述網絡節點數時,則對所述經初始化的輸出權重矩陣進行優化,并利用所述緩存器中存儲的當前經驗值更新所述下一個狀態對應的動作Q值;
當檢測到當前運算結束時,更新所述智能體的模型參數。
3.如權利要求2所述的強化學習方法,其特征在于,所述根據所述當前狀態確定當前動作:
獲取所述當前狀態下的一隨機動作;
將所述隨機動作輸入到所述多層感知機進行預測,所述多層感知機輸出響應于下一個狀態的動作Q值;
獲取所述下一個狀態的動作Q值最大值對應的動作作為所述當前動作。
4.如權利要求2所述的強化學習方法,其特征在于,所述根據所述當前狀態確定當前動作:
獲取一獎勵隨機值;
判斷所述獎勵隨機值是否小于預設的運行于所述CPU端的智能體的隨機初始值;
若是,則將所述當前狀態輸入到所述多層感知機,所述多層感知機輸出響應于所述當前狀態的動作Q值,獲取所述當前狀態的動作Q值最大值對應的動作作為所述當前動作;
否則,將獲取所述當前狀態下的一隨機動作,將所述隨機動作輸入到所述多層感知機進行預測,所述多層感知機輸出響應于下一個狀態的動作Q值,獲取所述下一個狀態的動作Q值最大值對應的動作作為所述當前動作。
5.如權利要求1所述的強化學習方法,其特征在于,所述CPU端通過如下步驟初始化所述輸入權重矩陣和所述輸出權重矩陣:
采用一隨機值對輸入權重矩陣進行初始化,并保持不變,以獲得經初始化后的輸入權重矩陣;
對輸出權重矩陣進行初始化訓練;
對初始化訓練后的輸出權重矩陣進行優化,以獲得經初始化后的輸出權重矩陣。
6.如權利要求2或5所述的強化學習方法,其特征在于,所述方法還包括:
通過如下公式對輸出權重矩陣進行初始化訓練:
通過如下公式對輸出權重矩陣進行優化:
其中,βi為輸出權重矩陣;Hi≡G(xi·α+b),i≥0,第i個數據集ki為批處理大小,xi為第i個輸入數據集,ti為第i個m維目標數據,n為所述多層感知機的輸入層節點數,m為所述多層感知機的輸出層節點數,G為所述多層感知機的激活函數,為輸入權重矩陣,為所述多層感知機的隱藏層節點數,為隱藏層的偏置向量,I表示初始化的多層感知機參數矩陣;批處理大小ki設為1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津飛騰信息技術有限公司,未經天津飛騰信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110101401.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種手推式農用打孔機的剎車裝置
- 下一篇:一次性使用豬尾巴導尿管





