[發明專利]雙loss價值網絡深度強化學習KVFD模型力學參數全局優化方法及系統有效
| 申請號: | 202110368257.2 | 申請日: | 2021-04-06 |
| 公開(公告)號: | CN113077853B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 張紅梅;周衍;王凱;李文彬;張可浩;王炯;萬明習 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G16C60/00 | 分類號: | G16C60/00;G06F30/27;G06N3/045;G06N3/0442;G06N3/0464;G06N3/092;G06F111/14;G06F119/14 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 范巍 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | loss 價值 網絡 深度 強化 學習 kvfd 模型 力學 參數 全局 優化 方法 系統 | ||
1.一種雙loss價值網絡深度強化學習KVFD模型力學參數全局優化方法,其特征在于,包括以下步驟:
S1,將預獲取的納米壓痕測量曲線輸入訓練好的預測值獲取網絡,獲得所述納米壓痕測量曲線的參數預測值;其中,訓練好的預測值獲取網絡是基于LSTM隱層的循環神經網絡,所述循環神經網絡在訓練時使用的LOSS函數值由輸入網絡的曲線與曲線對應參數和網絡輸出的參數與參數對應曲線共同計算;
S2,將所述參數預測值作為深度強化學習算法的迭代初值進行迭代,獲得預獲取的納米壓痕測量曲線的全局參數解的逼近;其中,所述深度強化學習算法的獎勵值預測網絡通過當前迭代參數對應曲線與真實曲線的差值,給出當前參數向不同方向變化時的獎勵值,指導參數向全局參數逼近;
所述全局參數解的逼近達到預設收斂條件時,將所述全局參數解的逼近作為KVFD模型的力學參數進行輸出;
其中,步驟S1中,所述預獲取的納米壓痕測量曲線包括時間序列、受力序列和壓痕深度序列;
步驟S2中,所述將步驟S1獲得的參數預測值作為深度強化學習算法的迭代初值進行迭代,獲得預獲取的納米壓痕測量曲線的全局參數解的逼近的過程中,每一次迭代的具體步驟包括:
(1)使用獎勵評價規則和所述獎勵值預測網絡分別對當前迭代參數的備選參數集進行獎勵值預測,將二者加權相加后作為對當前迭代參數的備選參數集的獎勵評價;
所述獎勵評價規則為,對于某個備選參數的評價,先計算備選參數對應曲線與預獲取的納米壓痕測量曲線的曲線差值Δ,之后計算曲線差值的絕對平均值
獎勵值r的評價公式表示為:
(2)根據步驟(1)獲得的獎勵評價與深度強化學習算法中的Q表當前行的內容,計算Q表的新一行,找到Q表新一行中最大值,將其對應的備選參數作為當次迭代結果參數。
2.根據權利要求1所述的KVFD模型力學參數全局優化方法,其特征在于,步驟S1中,所述預測值獲取網絡包括:多個LSTM隱藏層和一個DNN網絡;
其中,所述多個LSTM隱藏層的每一層的單元數都固定一致,每個LSTM隱藏層之間采用點對點方式連接;第一個LSTM隱藏層輸入預獲取的納米壓痕測量曲線,最后一個LSTM隱藏層輸出值進入DNN網絡;
所述DNN網絡包括多個維數不同的全連接層和卷積層,用于將最后一個LSTM隱藏層輸出的值轉變為參數預測值輸出。
3.根據權利要求1所述的KVFD模型力學參數全局優化方法,其特征在于,步驟S1中,LOSS函數值的計算表達式為,
式中,Lp部分計算標簽參數θtrain與網絡輸出參數之間的loss值,Ld部分計算曲線Dtrain與網絡輸出參數對應的曲線之間的loss值,wp、wd分別為Lp、Ld兩部分的權重。
4.根據權利要求1所述的KVFD模型力學參數全局優化方法,其特征在于,步驟S2中,所述深度強化學習算法的獎勵值預測網絡包括:多個LSTM隱藏層和一個DNN網絡;
其中,所述多個LSTM隱藏層的每一層的單元數都固定一致,每個LSTM隱藏層之間采用點對點方式連接;第一個LSTM隱藏層輸入當前迭代曲線減去預獲取的納米壓痕測量曲線所得的差值,最后一個LSTM隱藏層輸出值進入DNN網絡;
所述DNN網絡包括多個維數不同的全連接層和卷積層,用于將最后一個LSTM隱藏層輸出的值轉變為對各個方向動作的獎勵預測。
5.根據權利要求4所述的KVFD模型力學參數全局優化方法,其特征在于,步驟S2中,所述獎勵值預測網絡訓練時采用的LOSS函數為標簽獎勵值向量與網絡輸出的獎勵值向量的絕對誤差和。
6.根據權利要求1所述的KVFD模型力學參數全局優化方法,其特征在于,步驟S2中,判斷所述全局參數解的逼近是否達到預設收斂條件的具體步驟包括:在當前迭代結果參數對應曲線與預獲取的納米壓痕測量曲線的誤差小于某一預設數值時停止迭代;或者,迭代次數達到預設值時停止迭代。
7.一種雙loss價值網絡深度強化學習KVFD模型力學參數全局優化系統,其特征在于,包括:
參數預測值獲取模塊,用于將預獲取的納米壓痕測量曲線輸入訓練好的預測值獲取網絡,獲得所述納米壓痕測量曲線的參數預測值;其中,訓練好的預測值獲取網絡是基于LSTM隱層的循環神經網絡,所述循環神經網絡在訓練時使用的LOSS函數值由輸入網絡的曲線與曲線對應參數和網絡輸出的參數與參數對應曲線共同計算;
深度強化學習迭代輸出模塊,用于將獲得的參數預測值作為深度強化學習算法的迭代初值進行迭代,獲得預獲取的納米壓痕測量曲線的全局參數解的逼近;其中,所述深度強化學習算法的獎勵值預測網絡通過當前迭代參數對應曲線與真實曲線的差值,給出當前參數向不同方向變化時的獎勵值,指導參數向全局參數逼近;所述全局參數解的逼近達到預設收斂條件時,將所述全局參數解的逼近作為KVFD模型的力學參數進行輸出;
步驟參數預測值獲取模塊中,所述預獲取的納米壓痕測量曲線包括時間序列、受力序列和壓痕深度序列;
步驟深度強化學習迭代輸出模塊中,所述將獲得的參數預測值作為深度強化學習算法的迭代初值進行迭代,獲得預獲取的納米壓痕測量曲線的全局參數解的逼近的過程中,每一次迭代的具體步驟包括:
(1)使用獎勵評價規則和所述獎勵值預測網絡分別對當前迭代參數的備選參數集進行獎勵值預測,將二者加權相加后作為對當前迭代參數的備選參數集的獎勵評價;
所述獎勵評價規則為,對于某個備選參數的評價,先計算備選參數對應曲線與預獲取的納米壓痕測量曲線的曲線差值Δ,之后計算曲線差值的絕對平均值
獎勵值r的評價公式表示為:
(2)根據步驟(1)獲得的獎勵評價與深度強化學習算法中的Q表當前行的內容,計算Q表的新一行,找到Q表新一行中最大值,將其對應的備選參數作為當次迭代結果參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110368257.2/1.html,轉載請聲明來源鉆瓜專利網。





