[發明專利]一種遞歸深度強化學習制導的工業區塊鏈優化方法在審
| 申請號: | 202111314149.3 | 申請日: | 2021-11-08 |
| 公開(公告)號: | CN114036230A | 公開(公告)日: | 2022-02-11 |
| 發明(設計)人: | 彭浩;劉琳;劉明生;高澤;李建華;紀樹梅 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F16/27 | 分類號: | G06F16/27;G06K9/62;G06N3/08;H04L67/61;H04L67/1097;H04L67/12;H04L67/52 |
| 代理公司: | 成都帝鵬知識產權代理事務所(普通合伙) 51265 | 代理人: | 李華 |
| 地址: | 100000*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 遞歸 深度 強化 學習 制導 工業 區塊 優化 方法 | ||
1.一種遞歸深度強化學習制導的工業區塊鏈優化方法,其特征在于,包括步驟:
S10,構建狀態空間和動作空間;
S20,根據狀態空間和動作空間,構建強化學習森林,再進入馬爾可夫決策過程;在當前決策時期內,執行動作空間,進行迭代調整塊大小與塊間隔,選擇最佳共識算法,獲得區塊鏈的塊大小、塊區間和共識算法;更新RL森林中的信息,更新后的RL森林作為下一決策時期使用;
S30,不斷進行新數據的輸入,并反復執行步驟S20,調整塊大小和塊區間,輸出最佳的共識算法。
2.根據權利要求1所述的一種遞歸深度強化學習制導的工業區塊鏈優化方法,其特征在于,輸入當前塊生產者數量K、節點數量N、所有事務大小χ、股份分布γ、工業物聯網節點的地理位置x、工業物聯網節點的計算能力c和每對工業物聯網節點之間鏈路的日期傳輸速率R,來構建狀態空間S;
決策時期t處的狀態空間包括事務大小χ、股份分布γ、工業物聯網節點的地理位置x、工業物聯網節點的計算能力c和每對工業物聯網節點之間鏈路的日期傳輸速率R的并集,記為S(t)=[χ,γ,x,c,R](t),t=1,2,...n。
3.根據權利要求1所述的一種遞歸深度強化學習制導的工業區塊鏈優化方法,其特征在于,不斷輸入新的塊產生者a、共識算法δ、塊大小SB和塊間隔TI,來構建動作空間A;
決策時期t處的動作空間包括塊產生者a、共識算法δ、塊大小SB和塊間隔TI的并集,記為A(t)=[a,δ,SB,TI](t),t=1,2,...n。
4.根據權利要求2所述的一種遞歸深度強化學習制導的工業區塊鏈優化方法,其特征在于,構建具有多層的強化學習森林,第l層森林為:
RLF(l)表示在第l層獲得最佳關系濾波閾值組合的過程,每個關系都獨立地構建了一個具有自適應深度Dr(l)=[logαkr]和自適應寬度的RL樹RLF(l),α是深度優先與寬度優先之間的權重參數,kr是關系r中的節點包含的最大鄰居數;RLTr(l)執行強化學習RLr(l)(d)過程,在每個深度以精度Wr(l)(d)過濾閾值;在第l層,RLTr(l)通過多次進行RL遞歸,獲得與先前深度的關系r相比精度更高的鄰居節點的最佳過濾閾值pr(l)(d),直到在深度Dr(l)處找到最大精度要求的閾值;所述遞歸過程為:
其中,pr(l)(d)表示當RL樹的第l層深度為d時,在關系r中需要丟棄的鄰居節點的最優比例;每個深度的RL模塊的學習范圍是由前面的深度所選擇的過濾閾值范圍內的值;當遞歸過程達到最大深度Dr(l)時,得到第l層關系r的最終濾波閾值pr(l)。
5.根據權利要求4所述的一種遞歸深度強化學習制導的工業區塊鏈優化方法,其特征在于,所述RL模塊利用馬爾可夫決策過程MDPA,S,R,F對關系過濾閾值;A和S分別是動作空間和狀態空間,R是獎勵函數,F是迭代函數和終止條件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111314149.3/1.html,轉載請聲明來源鉆瓜專利網。





