[發明專利]基于適合度軌跡的神經網絡強化學習方法及系統在審
| 申請號: | 201710899730.3 | 申請日: | 2017-09-28 |
| 公開(公告)號: | CN109583582A | 公開(公告)日: | 2019-04-05 |
| 發明(設計)人: | 王婷婷 | 申請(專利權)人: | 中國石油化工股份有限公司;中國石油化工股份有限公司石油物探技術研究院 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 北京思創畢升專利事務所 11218 | 代理人: | 孫向民;廉莉莉 |
| 地址: | 100728 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 強化學習 神經網絡 適合度 環境狀態 回報 結束條件 連續狀態空間 泛化性能 訪問路徑 函數逼近 狀態動作 初始化 檢測 算法 收斂 保存 返回 更新 | ||
1.一種基于適合度軌跡的神經網絡強化學習方法,其特征在于,所述神經網絡強化學習方法包括:
初始化神經網絡權值,強化學習參數及適合度軌跡;
檢測獲取當前環境狀態和立即回報值;
計算強化學習的Q值函數;
基于所述Q值函數,獲取所述適合度軌跡和更新所述神經網絡權值;
檢測新的環境狀態和立即回報值;
所述新的環境狀態和立即回報值滿足結束條件,強化學習結束,不滿足結束條件,返回重新檢測獲取所述當前環境狀態和立即回報值。
2.根據權利要求1所述的基于適合度軌跡的神經網絡強化學習方法,其中,所述計算強化學習的Q值函數包括:
基于貪心策略,選擇動作at施加到所述當前環境狀態中;
基于隱含層的高斯核函數,計算強化學習的Q值函數。
3.根據權利要求2所述的基于適合度軌跡的神經網絡強化學習方法,其中,所述Q值函數為:
式中,wo=[w1,w2...w25]T,為隱含層與輸出層之間的權值矩陣;
為一個輸出結點的激活函數;
s為當前狀態;
x為輸入信號;c為中心向量;
σ為寬度參數;b為偏差值;k為隱層神經元數目;j為輸入信號的維度。
4.根據權利要求3所述的基于適合度軌跡的神經網絡強化學習方法,其中,獲取所述適合度軌跡和更新所述神經網絡權值包括:
基于所述Q值函數,計算所述適合度軌跡和誤差信息;
基于所述適合度軌跡和誤差信息,按照梯度下降法,依次計算第二層和第一層神經網絡權值的誤差,獲取更新的所述神經網絡權值。
5.根據權利要求4所述的基于適合度軌跡的神經網絡強化學習方法,其中,所述適合度軌跡通過迭代計算獲取:
e(t)=γλe(t-1)+at
式中,γ為折扣因子;
λ為衰減因子。
6.根據權利要求5所述的基于適合度軌跡的神經網絡強化學習方法,其中,所述誤差信息為:
εTD(t)=rt+γQ(st+1,at+1)-Q(st,at)
式中,rt為環境反饋給智能體的評價值。
7.根據權利要求6所述的基于適合度軌跡的神經網絡強化學習方法,其中,所述更新的所述神經網絡權值為:
Δw(t)=ηεTD(t)e(t)=η[rt+γQ(st+1,at+1)-Q(st,at)]e(t)
式中,η為網絡權值的學習率。
8.根據權利要求7所述的基于適合度軌跡的神經網絡強化學習方法,其中,到時間步k,由神經元節點i鏈接到神經元節點j的權值修正值為:
式中,α為學習速率;
θ為一個輸出結點的激活函數;
v為其中i為輸入層節點索引;
w為權值向量;
x為輸入向量。
9.根據權利要求8所述的基于適合度軌跡的神經網絡強化學習方法,其中,在時間步t,引入所述適合度軌跡后神經元節點t連接到神經元節點j的權值修正為:
10.一種基于適合度軌跡的神經網絡強化學習系統,其特征在于,所述神經網絡強化學習系統包括:
存儲器,存儲有計算機可執行指令;
處理器,所述處理器運行所述存儲器中的計算機可執行指令,執行以下步驟:
初始化神經網絡權值,強化學習參數及適合度軌跡;
檢測獲取當前環境狀態和立即回報值;
計算強化學習的Q值函數;
基于所述Q值函數,獲取所述適合度軌跡和更新所述神經網絡權值;
檢測新的環境狀態和立即回報值;
所述新的環境狀態和立即回報值滿足結束條件,強化學習結束,不滿足結束條件,返回重新檢測獲取所述當前環境狀態和立即回報值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油化工股份有限公司;中國石油化工股份有限公司石油物探技術研究院,未經中國石油化工股份有限公司;中國石油化工股份有限公司石油物探技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710899730.3/1.html,轉載請聲明來源鉆瓜專利網。





