[發(fā)明專(zhuān)利]一種基于積分補(bǔ)償強(qiáng)化學(xué)習(xí)的無(wú)人飛行器穩(wěn)定控制算法在審
| 申請(qǐng)?zhí)枺?/td> | 202011014279.0 | 申請(qǐng)日: | 2020-09-24 |
| 公開(kāi)(公告)號(hào): | CN112148025A | 公開(kāi)(公告)日: | 2020-12-29 |
| 發(fā)明(設(shè)計(jì))人: | 王慶領(lǐng);胡歡;孫長(zhǎng)銀 | 申請(qǐng)(專(zhuān)利權(quán))人: | 東南大學(xué) |
| 主分類(lèi)號(hào): | G05D1/08 | 分類(lèi)號(hào): | G05D1/08;G05D1/10 |
| 代理公司: | 南京眾聯(lián)專(zhuān)利代理有限公司 32206 | 代理人: | 周蔚然 |
| 地址: | 210096 *** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 積分 補(bǔ)償 強(qiáng)化 學(xué)習(xí) 無(wú)人 飛行器 穩(wěn)定 控制 算法 | ||
本發(fā)明公開(kāi)了一種基于積分補(bǔ)償強(qiáng)化學(xué)習(xí)的無(wú)人飛行器穩(wěn)定控制算法,通過(guò)模型參數(shù)設(shè)定、期望速度設(shè)定、初始化、策略網(wǎng)絡(luò),最終查看是否收斂,通過(guò)離線仿真階段和在線實(shí)際飛行階段的學(xué)習(xí)訓(xùn)練,策略不斷迭代更新,最終通過(guò)對(duì)飛行器的速度實(shí)時(shí)跟蹤實(shí)現(xiàn)精確穩(wěn)定的飛行控制策略的構(gòu)建。本發(fā)明實(shí)現(xiàn)了無(wú)人飛行系統(tǒng)穩(wěn)定安全的飛行控制策略,并且針對(duì)速度跟蹤上存在穩(wěn)態(tài)誤差問(wèn)題,通過(guò)提出狀態(tài)積分補(bǔ)償器處理狀態(tài)向量里的速度誤差分量,來(lái)降低速度跟蹤的穩(wěn)態(tài)誤差,具有創(chuàng)新性,并且該算法適應(yīng)的范圍較廣,在無(wú)人飛行系統(tǒng)的姿態(tài)控制存在穩(wěn)態(tài)誤差問(wèn)題上同樣適用,有良好的經(jīng)濟(jì)效益和社會(huì)效益,適合推廣使用。
技術(shù)領(lǐng)域
本發(fā)明屬于無(wú)人飛行器控制領(lǐng)域,具體涉及一種基于積分補(bǔ)償強(qiáng)化學(xué)習(xí)的無(wú)人飛行器穩(wěn)定控制算法。
背景技術(shù)
過(guò)去幾十年里,我國(guó)無(wú)人飛行機(jī)技術(shù)的快速發(fā)展得到了廣泛關(guān)注,并在農(nóng)業(yè)領(lǐng)域,工業(yè)檢查和海洋搜救等領(lǐng)域發(fā)揮巨大作用。這導(dǎo)致對(duì)無(wú)人飛行器的大量研究,并在實(shí)際中得到應(yīng)用,雖然其結(jié)構(gòu)簡(jiǎn)單,但仍然存在很多問(wèn)題。第一,飛行器的實(shí)時(shí)控制意味著數(shù)據(jù)的實(shí)時(shí)采集和計(jì)算,這需要很高時(shí)間靈敏度的傳感器和先進(jìn)計(jì)算設(shè)備。第二,飛行過(guò)程需要應(yīng)對(duì)各種復(fù)雜惡劣的環(huán)境以及可能出現(xiàn)的故障。第三,無(wú)人飛行器是個(gè)高度非線性、多輸入多輸出的欠耦合系統(tǒng),而且會(huì)包含大量的未建模動(dòng)態(tài)和非線性外部擾動(dòng)。
為了解決這些問(wèn)題,設(shè)計(jì)出一種具有抗干擾能力控制算法,保證無(wú)人飛行器的安全穩(wěn)定運(yùn)行,現(xiàn)有的方法是比例-積分-微分(PID)控制算法,PID控制算法是實(shí)際應(yīng)用中常見(jiàn)的控制方法,在許多研究中PID算法作為基線控制算法。但是由于抗干擾依賴(lài)于其積分項(xiàng),當(dāng)干擾不恒定時(shí),控制精度非常差,只有在受到影響后才能抑制干擾,而且實(shí)現(xiàn)無(wú)人機(jī)的高精度控制也越來(lái)越困難,且PID的增益選擇也是經(jīng)過(guò)反復(fù)試驗(yàn)的,難以滿足動(dòng)態(tài)性能要求。
發(fā)明內(nèi)容
為解決上述問(wèn)題,本發(fā)明公開(kāi)了一種基于動(dòng)作器-評(píng)判器的深度強(qiáng)化學(xué)習(xí)算法框架實(shí)現(xiàn)無(wú)人飛行器控制,并在評(píng)判器里引入狀態(tài)積分補(bǔ)償器,以通過(guò)對(duì)誤差狀態(tài)積分來(lái)減少穩(wěn)態(tài)誤差,提高了無(wú)人飛行器速度跟蹤控制的準(zhǔn)確性和控制器的魯棒性。策略訓(xùn)練階段采用在線和離線的雙階段學(xué)習(xí)模式來(lái)訓(xùn)練控制策略,在離線階段,通過(guò)仿真來(lái)訓(xùn)練簡(jiǎn)化無(wú)人飛行器模型以取得魯棒性能良好的控制器,在在線階段,通過(guò)實(shí)際場(chǎng)景中訓(xùn)練真正的無(wú)人飛行器模型,并不斷優(yōu)化控制策略最終實(shí)現(xiàn)穩(wěn)定高精度的飛行控制策略器。
為達(dá)到上述目的,本發(fā)明的技術(shù)方案如下:
一種基于積分補(bǔ)償強(qiáng)化學(xué)習(xí)的無(wú)人飛行器穩(wěn)定控制算法(PPOIS),包括以下步驟:
步驟A:在離線仿真階段,無(wú)人飛行器模型各參數(shù)初始化,建立簡(jiǎn)化動(dòng)力學(xué)方程;
步驟B:每輪實(shí)驗(yàn)迭代開(kāi)始時(shí)隨機(jī)初始化一個(gè)期望速度[xe,ye,ze]作為訓(xùn)練目標(biāo);
步驟C:隨機(jī)初始化策略器網(wǎng)絡(luò)π作為策略輸出,隨機(jī)初始化評(píng)估器網(wǎng)絡(luò)用來(lái)評(píng)估策略性能,隨機(jī)初始化初始各軸向速度x,y,z和三個(gè)姿態(tài)角φ,θ,清空初始狀態(tài)積分補(bǔ)償器;
步驟D:觀測(cè)無(wú)人飛行器狀態(tài)向量St,批量的狀態(tài)向量作為神經(jīng)網(wǎng)絡(luò)輸入,其中xΔ,yΔ,zΔ表示各個(gè)軸向?qū)嶋H速度與期望速度之差,神經(jīng)網(wǎng)絡(luò)輸出一個(gè)高斯分布,依概率采樣一個(gè)值并歸一化到[0,1]區(qū)間作為電機(jī)轉(zhuǎn)子的PWM信號(hào)ai(i=1,2,...N),N個(gè)轉(zhuǎn)子的PWM信號(hào)組成一組策略向量at=[a1,a2,...,aN];
步驟E:設(shè)定回報(bào)獎(jiǎng)勵(lì)函數(shù)用來(lái)實(shí)時(shí)反饋當(dāng)前策略at的好壞;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于東南大學(xué),未經(jīng)東南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011014279.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:一種黃花菜干制品的制備方法
- 下一篇:一種界面配置系統(tǒng)和方法
- 掩模版彎曲補(bǔ)償裝置、檢測(cè)補(bǔ)償系統(tǒng)及補(bǔ)償方法
- 半主動(dòng)升沉補(bǔ)償裝置控制系統(tǒng)
- 像素補(bǔ)償方法、裝置及電視
- 顯示面板的補(bǔ)償方法、補(bǔ)償裝置及存儲(chǔ)介質(zhì)
- 光學(xué)補(bǔ)償方法、光學(xué)補(bǔ)償系統(tǒng)、顯示方法和顯示裝置
- 一種光瞳補(bǔ)償裝置和光刻機(jī)
- 改善低壓差線性穩(wěn)壓器全負(fù)載穩(wěn)定性的補(bǔ)償方法及其電路
- 一種油量傳感器油位補(bǔ)償裝置
- 適用于長(zhǎng)線傳輸?shù)母咝阅茈妷貉a(bǔ)償器
- 一種多抽頭補(bǔ)償電抗器智能投切控制裝置實(shí)現(xiàn)方法





