[發明專利]一種強化學習方法在審
| 申請號: | 202110101401.6 | 申請日: | 2021-01-26 |
| 公開(公告)號: | CN112734048A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 李紀先;安濤;王瑞杰;朱青山;譚緒祥;劉烜宏;劉宇生;聶琳靜;于湃 | 申請(專利權)人: | 天津飛騰信息技術有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 陳志明 |
| 地址: | 300450 天津市濱海新*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 強化 學習方法 | ||
本發明公開了一種強化學習方法,包括:CPU端初始化智能體參數,所述智能體參數包括智能體的模型參數,以及所述智能體的多層感知機的輸入權重矩陣和輸出權重矩陣;所述CPU端采用所述智能體與環境進行交互,以采集初始經驗值,并將所述初始經驗值存入緩存器;所述CPU端將經初始化的智能體參數傳輸至FPGA端;所述FPGA端將所述經初始化的智能體參數作為訓練的初值,根據從所述緩存器中讀取的初始經驗值對所述智能體進行迭代更新。本發明通過在CPU端對智能體進行初始化訓練,在FPGA端進行后續訓練,從而能有效減少FPGA的計算資源和內存空間。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種強化學習方法。
背景技術
強化學習主要研究在隨機環境中,智能體采取何種行為以最大化累計獎勵,強化學習與典型深度學習的不同之處在于,智能體本身會探索自己所處的環境并學習適當的行動。因此,強化學習需要很高的泛化能力,以便不受低質量數據影響。
為了減少對輸入數據序列的依賴性,通常將經驗回放技術應用于DQN(Deep Q-learning,強化學習),將經驗值(包括狀態、動作和獎勵)記錄在緩沖區中,然后隨機選取經驗值進行訓練。目前,邊緣設備上執行DQN強化學習存在以下問題:1)基于GPU設備對深度學習和強化學習算法的研究,但其計算功耗很大;2)基于FPGA的加速平臺,但權重參數訓練時間長,且需要相對較大的數據傳輸開銷和存儲容量;3)將TRPO算法應用于FPGA平臺上的深度強化學習,但強化神經網絡結構過于復雜,導致其在資源占用和功耗方面消耗較大。因此,FPGA等硬件平臺因計算資源和存儲資源受限,難以獨立運行強化學習。
發明內容
本發明實施例提供一種強化學習方法,通過在CPU端對智能體進行初始化訓練,在FPGA端進行后續訓練,從而能有效減少FPGA的計算資源和內存空間。
本發明一實施例提供一種強化學習方法,包括:
CPU端初始化智能體參數,所述智能體參數包括智能體的模型參數,以及所述智能體的多層感知機的輸入權重矩陣和輸出權重矩陣;
所述CPU端采用所述智能體與環境進行交互,以采集初始經驗值,并將所述初始經驗值存入緩存器;
所述CPU端將經初始化的智能體參數傳輸至FPGA端;
所述FPGA端將所述經初始化的智能體參數作為訓練的初值,根據從所述緩存器中讀取的初始經驗值對所述智能體進行迭代更新。
在一些實施例中,所述FPGA端通過如下步驟以對所述智能體進行迭代更新:
讀取來自所述CPU端的所述經初始化的智能體參數;
從所述環境中獲取當前狀態,并根據所述當前狀態確定當前動作;
利用所述智能體向所述環境輸出所述當前動作,以從所述環境獲取響應于所述動作的下一個狀態、當前獎勵以及當前情節結束標志;
當所述當前情節結束標志表示為當前情節結束時,將所述當前狀態、所述當前動作、所述下一個狀態和所述當前獎勵組織成經驗值,以更新所述緩存器的數據;
判斷所述多層感知機中神經元數量是否等于網絡節點數;若是,則對所述經初始化的輸出權重矩陣進行初始化訓練,并利用所述緩存器中存儲的當前經驗值更新所述下一個狀態對應的動作Q值;若否,且在神經元數量大于所述網絡節點數時,則對所述經初始化的輸出權重矩陣進行優化,并利用所述緩存器中存儲的當前經驗值更新所述下一個狀態對應的動作Q值;
當檢測到當前運算結束時,更新所述智能體的模型參數。
在一些實施例中,所述根據所述當前狀態確定當前動作:
獲取所述當前狀態下的一隨機動作;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津飛騰信息技術有限公司,未經天津飛騰信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110101401.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種手推式農用打孔機的剎車裝置
- 下一篇:一次性使用豬尾巴導尿管





