[發(fā)明專(zhuān)利]一種基于深強(qiáng)化學(xué)習(xí)的航空發(fā)動(dòng)機(jī)控制方法、裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010328588.9 | 申請(qǐng)日: | 2020-04-23 |
| 公開(kāi)(公告)號(hào): | CN111486009A | 公開(kāi)(公告)日: | 2020-08-04 |
| 發(fā)明(設(shè)計(jì))人: | 鄭前鋼;項(xiàng)德威;席志華;陳浩穎;劉子赫;張海波;胡忠志;李秋紅 | 申請(qǐng)(專(zhuān)利權(quán))人: | 南京航空航天大學(xué) |
| 主分類(lèi)號(hào): | F02C9/28 | 分類(lèi)號(hào): | F02C9/28 |
| 代理公司: | 北京德崇智捷知識(shí)產(chǎn)權(quán)代理有限公司 11467 | 代理人: | 楊楠 |
| 地址: | 210000 江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強(qiáng)化 學(xué)習(xí) 航空發(fā)動(dòng)機(jī) 控制 方法 裝置 | ||
本發(fā)明公開(kāi)了一種基于深強(qiáng)化學(xué)習(xí)的航空發(fā)動(dòng)機(jī)控制方法,首先根據(jù)控制指令和反饋參數(shù)獲得初始的燃油流量,然后根據(jù)預(yù)設(shè)的發(fā)動(dòng)機(jī)物理限制對(duì)初步的燃油流量進(jìn)行修正,最后按照修正后的燃油流量向航空發(fā)動(dòng)機(jī)輸入相應(yīng)流量的燃油;所述根據(jù)控制指令和反饋參數(shù)獲得初始的燃油流量,具體是通過(guò)深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)實(shí)現(xiàn)。本發(fā)明還公開(kāi)了一種基于深強(qiáng)化學(xué)習(xí)的航空發(fā)動(dòng)機(jī)控制裝置。相比現(xiàn)有技術(shù),本發(fā)明采用深度增強(qiáng)學(xué)習(xí)方法來(lái)設(shè)計(jì)發(fā)動(dòng)機(jī)控制器,使得發(fā)動(dòng)機(jī)隨學(xué)習(xí)時(shí)間增加,其響應(yīng)速度不斷提高,從而提高發(fā)動(dòng)機(jī)響應(yīng)速度。
技術(shù)領(lǐng)域
本發(fā)明屬于航空宇航推進(jìn)理論與工程中的系統(tǒng)控制與仿真技術(shù)領(lǐng)域,具體涉及一種基于深強(qiáng)化學(xué)習(xí)的航空發(fā)動(dòng)機(jī)控制方法、裝置。
背景技術(shù)
航空發(fā)動(dòng)機(jī)是一個(gè)多變量、強(qiáng)非線性、強(qiáng)耦合性、時(shí)滯的受控對(duì)象。隨著發(fā)動(dòng)機(jī)升級(jí)換代,如何在保證發(fā)動(dòng)機(jī)安全穩(wěn)定運(yùn)行情況下,設(shè)計(jì)性能良好的發(fā)動(dòng)機(jī)控制器變得越來(lái)越困難;而且,對(duì)于這樣一個(gè)復(fù)雜多變的控制裝置,沒(méi)有必要的控制是不可能保證其正常工作的;此外,發(fā)動(dòng)機(jī)的性能不僅與機(jī)械制造技術(shù)、材料特性和加工工藝的質(zhì)量密切相關(guān),而且與控制系統(tǒng)的質(zhì)量密切相關(guān);同時(shí),發(fā)動(dòng)機(jī)控制系統(tǒng)將減輕駕駛員操作的負(fù)擔(dān)。因此,有必要研究如何設(shè)計(jì)具有高響應(yīng)速度的航空發(fā)動(dòng)機(jī)控制方法。
近年來(lái),基于深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的控制方法,由于采用無(wú)模型、深層學(xué)習(xí)(Deep Learning,DL)等技術(shù),該方法可以隨著學(xué)習(xí)時(shí)間的延長(zhǎng),其智能化程度將越來(lái)越高,引起了許多研究者的研究興趣。SuigEMA等人提出了一種基于強(qiáng)化學(xué)習(xí)(RL)算法的被動(dòng)動(dòng)態(tài)步行機(jī)器人控制器。Wang等人采用Q學(xué)習(xí)算法選擇雙足機(jī)器人在不平坦表面上行走的PD控制器參數(shù)。Ziqiang等人設(shè)計(jì)的基于BP神經(jīng)網(wǎng)絡(luò)的二維雙足機(jī)器人Q學(xué)習(xí)控制器。Mnih等人提出了基于卷積神經(jīng)網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)方法,并成功地從高維感覺(jué)輸入中直接學(xué)習(xí)控制策略。Lillicrap等人提出了一個(gè)基于確定性策略梯度的無(wú)模型算法,該算法可以在連續(xù)動(dòng)作空間上操作。Oh等人在Minecraft(一個(gè)靈活的3D世界)中引入了一組新的RL任務(wù),并使用這些任務(wù)系統(tǒng)地比較和對(duì)比現(xiàn)有的DRL體系結(jié)構(gòu)和基于內(nèi)存的DLL體系結(jié)構(gòu)。上述工作在DRL的應(yīng)用方面取得了很大的控制效果。但目前尚未發(fā)現(xiàn)有人對(duì)DRL在發(fā)動(dòng)機(jī)控制中的應(yīng)用進(jìn)行研究。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題在于克服現(xiàn)有技術(shù)不足,提供一種基于深強(qiáng)化學(xué)習(xí)的航空發(fā)動(dòng)機(jī)控制方法,采用深度增強(qiáng)學(xué)習(xí)方法來(lái)設(shè)計(jì)發(fā)動(dòng)機(jī)控制器,使得發(fā)動(dòng)機(jī)隨學(xué)習(xí)時(shí)間增加,其響應(yīng)速度不斷提高,從而提高發(fā)動(dòng)機(jī)響應(yīng)速度。
本發(fā)明具體采用以下技術(shù)方案解決上述技術(shù)問(wèn)題:
一種基于深強(qiáng)化學(xué)習(xí)的航空發(fā)動(dòng)機(jī)控制方法,首先根據(jù)控制指令和反饋參數(shù)獲得初始的燃油流量,然后根據(jù)預(yù)設(shè)的發(fā)動(dòng)機(jī)物理限制對(duì)初步的燃油流量進(jìn)行修正,最后按照修正后的燃油流量向航空發(fā)動(dòng)機(jī)輸入相應(yīng)流量的燃油;所述根據(jù)控制指令和反饋參數(shù)獲得初始的燃油流量,具體是通過(guò)深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)實(shí)現(xiàn),所述深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的動(dòng)作值函數(shù)Qj(s,a)如下:
其中s是發(fā)動(dòng)機(jī)狀態(tài),a是發(fā)動(dòng)機(jī)的動(dòng)作,α是深度強(qiáng)化學(xué)習(xí)的學(xué)習(xí)率,r是回報(bào)值,γ是回報(bào)衰減率,sj是第j時(shí)刻發(fā)動(dòng)機(jī)狀態(tài),st是發(fā)動(dòng)機(jī)目標(biāo)狀態(tài);回報(bào)值rj的計(jì)算公式具體如下:
其中,是預(yù)測(cè)的控制目標(biāo)值,u是發(fā)動(dòng)機(jī)控制輸入,Q和R是正定的對(duì)稱(chēng)矩陣。
優(yōu)選地,所述深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的輸入為當(dāng)前和過(guò)去的燃油流量Wfb、過(guò)去時(shí)刻風(fēng)扇轉(zhuǎn)子轉(zhuǎn)速Nf、壓氣機(jī)轉(zhuǎn)子轉(zhuǎn)速Nc、風(fēng)扇喘振裕度Smf、壓氣機(jī)喘振裕度Smc以及高壓渦輪進(jìn)口溫度T41,所述深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的輸出為動(dòng)作值函數(shù)。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于南京航空航天大學(xué),未經(jīng)南京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010328588.9/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
- 根據(jù)用戶(hù)學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 一種針對(duì)競(jìng)爭(zhēng)失效的航空發(fā)動(dòng)機(jī)可靠性評(píng)估方法
- 一種基于混合威布爾分布的航空發(fā)動(dòng)機(jī)可靠性監(jiān)測(cè)方法
- 航空發(fā)動(dòng)機(jī)維修支撐構(gòu)件
- 一種基于深度信念網(wǎng)絡(luò)的航空發(fā)動(dòng)機(jī)維修等級(jí)決策方法
- 一種航空發(fā)動(dòng)機(jī)燃燒室壽命預(yù)測(cè)方法
- 一種航空發(fā)動(dòng)機(jī)汽缸及航空發(fā)動(dòng)機(jī)
- 航空發(fā)動(dòng)機(jī)數(shù)字控制系統(tǒng)教學(xué)裝置及方法
- 一種航空發(fā)動(dòng)機(jī)余熱回收利用系統(tǒng)
- 一種物理與數(shù)據(jù)驅(qū)動(dòng)的航空發(fā)動(dòng)機(jī)數(shù)字孿生建模方法
- 綠色可變式航空發(fā)動(dòng)機(jī)





