[發明專利]一種基于Q-Learning的變循環航空發動機推力控制方法有效
| 申請號: | 202010502785.8 | 申請日: | 2020-06-05 |
| 公開(公告)號: | CN111594322B | 公開(公告)日: | 2022-06-03 |
| 發明(設計)人: | 齊義文;張弛;黃捷;項松;劉遠強;于文科;陳禹西;岳文豪 | 申請(專利權)人: | 沈陽航空航天大學 |
| 主分類號: | F02C9/28 | 分類號: | F02C9/28 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 劉曉嵐 |
| 地址: | 110136 遼寧省沈*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 learning 循環 航空發動機 推力 控制 方法 | ||
1.一種基于Q-Learning的變循環航空發動機推力控制方法,其特征在于:包括以下步驟:
步驟1:基于變循環航空發動機仿真模型建立Q-Learning推力控制器,以仿真模型作為訓練環境,創建二維表Q表對動作值函數Q(s,a)進行表示,其中,s為變循環航空發動機狀態參數,a為燃油流量;
步驟2:確定變循環航空發動機推力控制器當前時刻燃油流量at;
步驟2.1:獲取變循環航空發動機當前的狀態,計算變循環航空發動機當前時刻狀態參數st;
步驟2.2:將所述變循環航空發動機當前時刻狀態參數st與燃油流量a作為Q表輸入,查找所有可選擇的燃油流量a的價值,即Q值,利用ε-貪婪策略計算控制器輸出,即當前時刻燃油流量at;
步驟3:將所述當前時刻燃油流量at分配至變循環航空發動機推力控制器,實現變循環航空發動機的推力控制;
步驟4:更新動作值函數Q(s,a);
步驟4.1:獲取變循環航空發動機下一時刻狀態參數st+1,計算延時獎勵Rt+1;
步驟4.2:根據所述延時獎勵Rt+1對Q表在s=st,a=at處的值,即Q(st,at)進行更新;
步驟5:使用窗口平均方法計算控制獲得的平均獎勵值若所述平均獎勵值小于設定的目標獎勵值,令st=st+1,跳轉至步驟2,進行迭代;否則,迭代結束,完成變循環航空發動機推力控制器訓練。
2.根據權利要求1所述的一種基于Q-Learning的變循環航空發動機推力控制方法,其特征在于:所述步驟1中Q表大小為n×m,n為離散化后的狀態總數,m為離散化的動作總數;Q表使用變循環航空發動機狀態參數s與燃油流量a作為索引,輸出狀態s下執行a的Q值。
3.根據權利要求1所述的一種基于Q-Learning的變循環航空發動機推力控制方法,其特征在于:所述步驟2.1中變循環航空發動機當前時刻狀態參數包括:目標推力、目標推力與實際推力差值、目標推力與實際推力差值的導數、高壓轉子轉速、低壓轉子轉速,經過離散化后獲得當前時刻狀態參數st。
4.根據權利要求1所述的一種基于Q-Learning的變循環航空發動機推力控制方法,其特征在于:所述步驟2.2中利用的ε-貪婪策略如下:
其中,random a是在設定的動作集合中隨機選擇燃油流量控制指令,是選擇使Q(st,a)值最大的燃油流量a,rand是隨機數,ε是隨機因子,可通過改變ε大小來改變燃油流量指令的隨機性。
5.根據權利要求1所述的一種基于Q-Learning的變循環航空發動機推力控制方法,其特征在于:所述步驟4.1中延時獎勵Rt+1由目標推力與實際推力差值決定,其值的大小遵循所述目標推力與實際推力差值的絕對值越小獎勵越高的原則。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于沈陽航空航天大學,未經沈陽航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010502785.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:鏈式液體活塞壓縮系統
- 下一篇:一種林業土壤濕度自動檢測裝置





