[發明專利]基于適合度軌跡的神經網絡強化學習方法及系統在審
| 申請號: | 201710899730.3 | 申請日: | 2017-09-28 |
| 公開(公告)號: | CN109583582A | 公開(公告)日: | 2019-04-05 |
| 發明(設計)人: | 王婷婷 | 申請(專利權)人: | 中國石油化工股份有限公司;中國石油化工股份有限公司石油物探技術研究院 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 北京思創畢升專利事務所 11218 | 代理人: | 孫向民;廉莉莉 |
| 地址: | 100728 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 強化學習 神經網絡 適合度 環境狀態 回報 結束條件 連續狀態空間 泛化性能 訪問路徑 函數逼近 狀態動作 初始化 檢測 算法 收斂 保存 返回 更新 | ||
本發明公開了一種基于適合度軌跡的神經網絡強化學習方法及系統。該神經網絡強化學習方法包括:初始化神經網絡權值,強化學習參數及適合度軌跡;獲取當前環境狀態和立即回報值;計算強化學習的Q值函數;獲取適合度軌跡和更新神經網絡權值;檢測新的環境狀態和立即回報值;新的環境狀態和立即回報值滿足結束條件,強化學習結束,不滿足結束條件,返回重新檢測獲取當前環境狀態和立即回報值。其優點在于:解決了強化學習面對連續狀態空間的函數逼近問題,同時引進的適合度軌跡,對經歷過的狀態動作正確的訪問路徑的有效保存,提高神經網絡的泛化性能,最后加快算法的收斂速度。
技術領域
本發明涉及機器學習技術領域,更具體地,涉及一種基于適合度軌跡的神經網絡強化學習方法及系統。
背景技術
強化學習在人工智能領域包括工業生產、電梯調度、路徑規劃方面越多的得到運用,可以用來解決隨機性或不確定性動態系統最優化這些決策類問題,隨著強化學習的發展及各方面應用的擴展,需要的結合的技術和算法也越來越多,此時經典的查表法就不能滿足需求。因為傳統的強化學習算法需要把state-action對應的值函數保存在表中,以進行查詢,但是計算機的存儲有限,在面對連續狀態空間的問題值表法就無法存放這種大規模數量的值函數。
面對上述難題,較常用的方式是將連續空間分散成單個可分的狀態集,使其能夠有限的分散成有限的狀態,然后使用經典的強化學習算法,但是這樣會引起很多問題,例如離散化后的狀態可能不再具有馬爾科夫性質,引入無法直接觀測到的隱含狀態,同時可能導致強化學習不再具有馬爾科夫性,這時候函數策略無法收斂,強化學習的學習能力變差。
同時神經網絡逼近函數值的快慢以及是否是全局極值都是要解決的問題,現有的一些算法容易讓強化學習陷入局部極值,無法得到最優決策,導致學習失敗。
因此,有必要開發一種能夠在無標記、無導師的情況下,有效率的得到最優決策序列的基于適合度軌跡的神經網絡強化學習方法及系統。
公開于本發明背景技術部分的信息僅僅旨在加深對本發明的一般背景技術的理解,而不應當被視為承認或以任何形式暗示該信息構成已為本領域技術人員所公知的現有技術。
發明內容
本發明提出了一種基于適合度軌跡的神經網絡強化學習方法及系統,其能夠通過徑向基函數神經網絡解決了強化學習面對連續狀態空間的函數逼近問題,有效率的得到最優決策序列,實現算法目標。
根據本發明的一方面,提出了一種基于適合度軌跡的神經網絡強化學習方法,所述神經網絡強化學習方法包括:
初始化神經網絡權值,強化學習參數及適合度軌跡;
檢測獲取當前環境狀態和立即回報值;
計算強化學習的Q值函數;
基于所述Q值函數,獲取所述適合度軌跡和更新所述神經網絡權值;
檢測新的環境狀態和立即回報值;
所述新的環境狀態和立即回報值滿足結束條件,強化學習結束,不滿足結束條件,返回重新檢測獲取所述當前環境狀態和立即回報值。
優選地,所述計算強化學習的Q值函數包括:
基于貪心策略,選擇動作at施加到所述當前環境狀態中;
基于隱含層的高斯核函數,計算強化學習的Q值函數。
優選地,所述Q值函數為:
式中,wo=[w1,w2...w25]T,為隱含層與輸出層之間的權值矩陣;
為一個輸出結點的激活函數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國石油化工股份有限公司;中國石油化工股份有限公司石油物探技術研究院,未經中國石油化工股份有限公司;中國石油化工股份有限公司石油物探技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710899730.3/2.html,轉載請聲明來源鉆瓜專利網。





