[發(fā)明專利]一種基于強化學習的動力傳動系統(tǒng)模型參數(shù)辨識方法在審
| 申請?zhí)枺?/td> | 202110002104.6 | 申請日: | 2021-01-04 |
| 公開(公告)號: | CN112632860A | 公開(公告)日: | 2021-04-09 |
| 發(fā)明(設(shè)計)人: | 丁建完;陳立平;郭超;彭奇 | 申請(專利權(quán))人: | 華中科技大學 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06F30/25;G06N20/00;G06F111/08;G06F119/14 |
| 代理公司: | 華中科技大學專利中心 42201 | 代理人: | 李智 |
| 地址: | 430074 湖北*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強化 學習 動力 傳動系統(tǒng) 模型 參數(shù) 辨識 方法 | ||
1.一種基于強化學習的動力傳動系統(tǒng)模型參數(shù)辨識方法,其特征在于,包括:
S1.構(gòu)建基于多領(lǐng)域統(tǒng)一建模語言Modelica的動力傳動系統(tǒng)動力學模型;
S2.對模型待辨識參數(shù)進行靈敏度分析;
S3.基于強化學習算法對待辨識參數(shù)進行粗調(diào):
構(gòu)建用于Modelica動力傳動系統(tǒng)模型參數(shù)辨識的強化學習框架;
利用強化學習框架進行迭代訓練,得到每個待辨識參數(shù)的最優(yōu)子區(qū)間;
S4.參數(shù)微調(diào):
以實測數(shù)據(jù)與模型估計值的均方誤差為目標函數(shù),在待辨識模型參數(shù)所形成的解空間中迭代尋優(yōu),以得到目標函數(shù)值最小時對應的各參數(shù)值,作為最終的辨識結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種基于強化學習的動力傳動系統(tǒng)模型參數(shù)辨識方法,其特征在于,步驟S2具體為,使用sobol方法對參數(shù)待定的動力傳動系統(tǒng)模型進行參數(shù)靈敏度分析,具體步驟如下:
01.在N個待辨識參數(shù)的可能取值區(qū)間范圍內(nèi)分別進行蒙特卡洛采樣,生成初始樣本矩陣一A、初始樣本矩陣二B以及交叉樣本矩陣其中i={1,2,…,N};
02.將樣本矩陣A、B、作為輸入對動力傳動系統(tǒng)模型進行仿真求解,分別得到初始樣本矩陣A、初始樣本矩陣B以及交叉樣本矩陣的模型仿真結(jié)果向量f(A)、f(B)、
03.基于仿真結(jié)果和以下公式求出每個參數(shù)的全局影響指數(shù)STi:
其中,Y表示f(A)、f(B)和構(gòu)成的向量集合;Var(Y)表示動力傳動系統(tǒng)模型輸出的方差;
04.根據(jù)參數(shù)全局影響指數(shù)的大小對待辨識參數(shù)進行敏感度排序;影響因子越大表示越敏感;
05.將靈敏度低于設(shè)定閾值的待辨識參數(shù)進行組合。
3.根據(jù)權(quán)利要求1所述的一種基于強化學習的動力傳動系統(tǒng)模型參數(shù)辨識方法,其特征在于,強化學習框架構(gòu)建過程具體包括:
(1)將模型估計值Yest與實測值Ymea的均方誤差作為強化學習目標函數(shù)F(X);
(2)構(gòu)建單步獎賞:
r=min(1,max(0,(F(Xmean)-F(Xbest))/(F(Xmean)-F(Xcur))))
其中,r表示單步獎賞值,F(xiàn)(Xcur)表示當前參數(shù)下的目標函數(shù)值,F(xiàn)(Xbest)表示最優(yōu)參數(shù)下的目標函數(shù)值,F(xiàn)(Xmean)表示參數(shù)平均值下的目標函數(shù)值;
(3)根據(jù)參數(shù)最小變化量Gi(i=1,2,...,N)及每個參數(shù)的范圍設(shè)置動作:
將第i個參數(shù)的搜索范圍拆分為個子區(qū)間,選中一個子區(qū)間后,在該子區(qū)間隨機獲取一個值作為動作;其中,為第i個參數(shù)最大值,為第i個參數(shù)最小值;最小變化量Gi指第i個參數(shù)在辨識過程中每步增加或減少的變化量;
(4)構(gòu)建動作選擇策略:
01.選擇搜索路徑:
確定下一輪選擇的動作在當前動作的左邊還是右邊,選擇指標為Lp(i,j),計算公式為:
其中,k表示參數(shù)變換組合的數(shù)量;為第l個路徑上與當前動作ai,j相鄰的k個動作中第n大的Q值,λ1為路徑權(quán)重系數(shù);
獲取一個[0,1]之間的隨機數(shù)ε1,使用如下公式確定搜索路徑l:
rand(1,2)表示1-2區(qū)間內(nèi)的隨機概率分布;
02.確定動作:
獲取一個[0,1]之間的隨機數(shù)ε2,使用如下公式確定動作a:
q(i,m)表示第i個待辨識參數(shù)的Q值,ε1和ε2都是用來保證強化學習探索性的隨機數(shù);
(5)構(gòu)建Q值函數(shù)的更新策略:
第i個參數(shù)對應的Q值函數(shù)更新公式如下:
Qr+1(i,j)+=α(r+(1-λ2)max(Lp(i,j))+λ2min(Lp(i,j))-Qr(i,j))
式中α為控制學習速率的超參數(shù),r為單步獎賞,λ2為控制更新幅度的超參數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中科技大學,未經(jīng)華中科技大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110002104.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:單風機雙通道吊頂吹風換氣設(shè)備
- 下一篇:一種微電子藥磁治療儀裝置





