[發(fā)明專(zhuān)利]一種基于積分補(bǔ)償強(qiáng)化學(xué)習(xí)的無(wú)人飛行器穩(wěn)定控制算法在審

申請(qǐng)?zhí)枺?/td>	202011014279.0	申請(qǐng)日：	2020-09-24
公開(kāi)（公告）號(hào)：	CN112148025A	公開(kāi)（公告）日：	2020-12-29
發(fā)明（設(shè)計(jì)）人：	王慶領(lǐng);胡歡;孫長(zhǎng)銀	申請(qǐng)（專(zhuān)利權(quán)）人：	東南大學(xué)
主分類(lèi)號(hào)：	G05D1/08	分類(lèi)號(hào)：	G05D1/08;G05D1/10
代理公司：	南京眾聯(lián)專(zhuān)利代理有限公司 32206	代理人：	周蔚然
地址：	210096 ***	國(guó)省代碼：	江蘇;32
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于積分補(bǔ)償強(qiáng)化學(xué)習(xí) 無(wú)人飛行器穩(wěn)定控制算法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專(zhuān)利詞庫(kù) 專(zhuān)利權(quán)人專(zhuān)利榜在售專(zhuān)利公布日期熱門(mén)專(zhuān)利

【說(shuō)明書(shū)】：

本發(fā)明公開(kāi)了一種基于積分補(bǔ)償強(qiáng)化學(xué)習(xí)的無(wú)人飛行器穩(wěn)定控制算法，通過(guò)模型參數(shù)設(shè)定、期望速度設(shè)定、初始化、策略網(wǎng)絡(luò)，最終查看是否收斂，通過(guò)離線仿真階段和在線實(shí)際飛行階段的學(xué)習(xí)訓(xùn)練，策略不斷迭代更新，最終通過(guò)對(duì)飛行器的速度實(shí)時(shí)跟蹤實(shí)現(xiàn)精確穩(wěn)定的飛行控制策略的構(gòu)建。本發(fā)明實(shí)現(xiàn)了無(wú)人飛行系統(tǒng)穩(wěn)定安全的飛行控制策略，并且針對(duì)速度跟蹤上存在穩(wěn)態(tài)誤差問(wèn)題，通過(guò)提出狀態(tài)積分補(bǔ)償器處理狀態(tài)向量里的速度誤差分量，來(lái)降低速度跟蹤的穩(wěn)態(tài)誤差，具有創(chuàng)新性，并且該算法適應(yīng)的范圍較廣，在無(wú)人飛行系統(tǒng)的姿態(tài)控制存在穩(wěn)態(tài)誤差問(wèn)題上同樣適用，有良好的經(jīng)濟(jì)效益和社會(huì)效益，適合推廣使用。

技術(shù)領(lǐng)域

本發(fā)明屬于無(wú)人飛行器控制領(lǐng)域，具體涉及一種基于積分補(bǔ)償強(qiáng)化學(xué)習(xí)的無(wú)人飛行器穩(wěn)定控制算法。

背景技術(shù)

過(guò)去幾十年里，我國(guó)無(wú)人飛行機(jī)技術(shù)的快速發(fā)展得到了廣泛關(guān)注，并在農(nóng)業(yè)領(lǐng)域，工業(yè)檢查和海洋搜救等領(lǐng)域發(fā)揮巨大作用。這導(dǎo)致對(duì)無(wú)人飛行器的大量研究，并在實(shí)際中得到應(yīng)用，雖然其結(jié)構(gòu)簡(jiǎn)單，但仍然存在很多問(wèn)題。第一，飛行器的實(shí)時(shí)控制意味著數(shù)據(jù)的實(shí)時(shí)采集和計(jì)算，這需要很高時(shí)間靈敏度的傳感器和先進(jìn)計(jì)算設(shè)備。第二，飛行過(guò)程需要應(yīng)對(duì)各種復(fù)雜惡劣的環(huán)境以及可能出現(xiàn)的故障。第三，無(wú)人飛行器是個(gè)高度非線性、多輸入多輸出的欠耦合系統(tǒng)，而且會(huì)包含大量的未建模動(dòng)態(tài)和非線性外部擾動(dòng)。

為了解決這些問(wèn)題，設(shè)計(jì)出一種具有抗干擾能力控制算法，保證無(wú)人飛行器的安全穩(wěn)定運(yùn)行，現(xiàn)有的方法是比例-積分-微分(PID)控制算法，PID控制算法是實(shí)際應(yīng)用中常見(jiàn)的控制方法，在許多研究中PID算法作為基線控制算法。但是由于抗干擾依賴(lài)于其積分項(xiàng)，當(dāng)干擾不恒定時(shí)，控制精度非常差，只有在受到影響后才能抑制干擾，而且實(shí)現(xiàn)無(wú)人機(jī)的高精度控制也越來(lái)越困難，且PID的增益選擇也是經(jīng)過(guò)反復(fù)試驗(yàn)的，難以滿足動(dòng)態(tài)性能要求。

發(fā)明內(nèi)容

為解決上述問(wèn)題，本發(fā)明公開(kāi)了一種基于動(dòng)作器-評(píng)判器的深度強(qiáng)化學(xué)習(xí)算法框架實(shí)現(xiàn)無(wú)人飛行器控制，并在評(píng)判器里引入狀態(tài)積分補(bǔ)償器，以通過(guò)對(duì)誤差狀態(tài)積分來(lái)減少穩(wěn)態(tài)誤差，提高了無(wú)人飛行器速度跟蹤控制的準(zhǔn)確性和控制器的魯棒性。策略訓(xùn)練階段采用在線和離線的雙階段學(xué)習(xí)模式來(lái)訓(xùn)練控制策略，在離線階段，通過(guò)仿真來(lái)訓(xùn)練簡(jiǎn)化無(wú)人飛行器模型以取得魯棒性能良好的控制器，在在線階段，通過(guò)實(shí)際場(chǎng)景中訓(xùn)練真正的無(wú)人飛行器模型，并不斷優(yōu)化控制策略最終實(shí)現(xiàn)穩(wěn)定高精度的飛行控制策略器。

為達(dá)到上述目的，本發(fā)明的技術(shù)方案如下：

一種基于積分補(bǔ)償強(qiáng)化學(xué)習(xí)的無(wú)人飛行器穩(wěn)定控制算法(PPOIS)，包括以下步驟：

步驟A：在離線仿真階段，無(wú)人飛行器模型各參數(shù)初始化，建立簡(jiǎn)化動(dòng)力學(xué)方程；

步驟B：每輪實(shí)驗(yàn)迭代開(kāi)始時(shí)隨機(jī)初始化一個(gè)期望速度[x_e,y_e,z_e]作為訓(xùn)練目標(biāo)；

步驟C：隨機(jī)初始化策略器網(wǎng)絡(luò)π作為策略輸出，隨機(jī)初始化評(píng)估器網(wǎng)絡(luò)用來(lái)評(píng)估策略性能，隨機(jī)初始化初始各軸向速度x,y,z和三個(gè)姿態(tài)角φ,θ,清空初始狀態(tài)積分補(bǔ)償器；

步驟D：觀測(cè)無(wú)人飛行器狀態(tài)向量S_t，批量的狀態(tài)向量作為神經(jīng)網(wǎng)絡(luò)輸入，其中x_Δ,y_Δ,z_Δ表示各個(gè)軸向?qū)嶋H速度與期望速度之差，神經(jīng)網(wǎng)絡(luò)輸出一個(gè)高斯分布，依概率采樣一個(gè)值并歸一化到[0,1]區(qū)間作為電機(jī)轉(zhuǎn)子的PWM信號(hào)a_i(i＝1,2,...N)，N個(gè)轉(zhuǎn)子的PWM信號(hào)組成一組策略向量a_t＝[a₁,a₂,...,a_N]；

步驟E：設(shè)定回報(bào)獎(jiǎng)勵(lì)函數(shù)用來(lái)實(shí)時(shí)反饋當(dāng)前策略a_t的好壞；

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于東南大學(xué)，未經(jīng)東南大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011014279.0/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

上一篇：一種黃花菜干制品的制備方法
下一篇：一種界面配置系統(tǒng)和方法

同類(lèi)專(zhuān)利

專(zhuān)利分類(lèi)

G 物理

G05 控制；調(diào)節(jié)
G05D 非電變量的控制或調(diào)節(jié)系統(tǒng)
G05D1-00 陸地、水上、空中或太空中的運(yùn)載工具的位置、航道、高度或姿態(tài)的控制，例如自動(dòng)駕駛儀
G05D1-02 .二維的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿態(tài)的控制，即搖擺、俯仰角或偏航角的控制
G05D1-10 .三維的位置或航道的同時(shí)控制
G05D1-12 .尋找目標(biāo)的控制

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

[發(fā)明專(zhuān)利]一種基于積分補(bǔ)償強(qiáng)化學(xué)習(xí)的無(wú)人飛行器穩(wěn)定控制算法在審

專(zhuān)利文獻(xiàn)下載