[發(fā)明專(zhuān)利]一種非線性離散時(shí)間系統(tǒng)的在線學(xué)習(xí)控制方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011635930.6 | 申請(qǐng)日: | 2020-12-31 |
| 公開(kāi)(公告)號(hào): | CN113485099B | 公開(kāi)(公告)日: | 2023-09-22 |
| 發(fā)明(設(shè)計(jì))人: | 李新興;查文中;王雪源;王蓉 | 申請(qǐng)(專(zhuān)利權(quán))人: | 中國(guó)電子科技集團(tuán)公司信息科學(xué)研究院 |
| 主分類(lèi)號(hào): | G05B13/02 | 分類(lèi)號(hào): | G05B13/02 |
| 代理公司: | 北京中知法苑知識(shí)產(chǎn)權(quán)代理有限公司 11226 | 代理人: | 李明;趙吉陽(yáng) |
| 地址: | 100086 北京*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 非線性 離散 時(shí)間 系統(tǒng) 在線 學(xué)習(xí) 控制 方法 | ||
本發(fā)明公開(kāi)了非線性離散時(shí)間系統(tǒng)的在線學(xué)習(xí)控制方法,包括行為策略選擇步驟,最優(yōu)Q?函數(shù)定義步驟,評(píng)價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)引入步驟,估計(jì)誤差計(jì)算步驟,以及最后的最優(yōu)權(quán)重計(jì)算步驟,當(dāng)評(píng)價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)的權(quán)重收斂之后,執(zhí)行網(wǎng)絡(luò)的輸出即為最優(yōu)控制器的近似值。本發(fā)明無(wú)需在策略評(píng)估和策略提高之間反復(fù)迭代,可實(shí)現(xiàn)對(duì)最優(yōu)控制器的實(shí)時(shí)在線學(xué)習(xí);采用離軌策略學(xué)習(xí)機(jī)制,有效克服了直接啟發(fā)式動(dòng)態(tài)規(guī)劃方法對(duì)狀態(tài)?策略空間探索不足的問(wèn)題,執(zhí)行網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)可使用任意形式的激活函數(shù),本發(fā)明可實(shí)現(xiàn)對(duì)最優(yōu)控制器的在線學(xué)習(xí),并且無(wú)需系統(tǒng)模型,僅需要行為策略產(chǎn)生的狀態(tài)數(shù)據(jù)。
技術(shù)領(lǐng)域
本發(fā)明涉及工業(yè)生產(chǎn)控制領(lǐng)域,具體的,涉及一種對(duì)非線性離散時(shí)間系統(tǒng)的在線學(xué)習(xí)控制方法。
背景技術(shù)
在工業(yè)生產(chǎn)的過(guò)程中,工程技術(shù)人員往往需要對(duì)機(jī)器人、無(wú)人機(jī)、無(wú)人車(chē)等控制對(duì)象的控制器進(jìn)行優(yōu)化設(shè)計(jì),以滿足一定的控制指標(biāo)要去。由于上述控制對(duì)象往往表現(xiàn)出很強(qiáng)的非線性,使得控制器的優(yōu)化面臨很大困難。從最優(yōu)控制的角度來(lái)看,獲得最優(yōu)控制控制器需要求解復(fù)雜的哈密頓-雅可比-貝爾曼方程(HJB方程),但HJB方程為非線性的偏微分方程,非常難求解。傳統(tǒng)的動(dòng)態(tài)規(guī)劃、變分法、譜方法等由于具有極高的計(jì)算復(fù)雜度,在實(shí)際應(yīng)用過(guò)程中往往面臨很大的局限性。
自適應(yīng)動(dòng)態(tài)規(guī)劃作為近年來(lái)興起的一種新型的智能控制算法,通過(guò)將強(qiáng)化學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)近似、動(dòng)態(tài)規(guī)劃以及自適應(yīng)控制等技術(shù)進(jìn)行融合,可實(shí)現(xiàn)對(duì)最優(yōu)控制器的在線學(xué)習(xí),有效克服了傳統(tǒng)方法計(jì)算復(fù)雜度高的問(wèn)題。針對(duì)非線性離散時(shí)間系統(tǒng)的最優(yōu)控制問(wèn)題,Jennie?Si和Yu-Tsung?Wang在論文“Online?learning?control?by?association?andreinforcement”中首次提出了直接啟發(fā)式動(dòng)態(tài)規(guī)劃算法,該算法采用廣義策略迭代的基本思想,通過(guò)引入兩個(gè)神經(jīng)網(wǎng)絡(luò)(即執(zhí)行網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)),可實(shí)現(xiàn)對(duì)最優(yōu)控制器和最優(yōu)值函數(shù)的實(shí)時(shí)在線學(xué)習(xí)。經(jīng)過(guò)近些年的不斷發(fā)展,算法的收斂性和穩(wěn)定性分析目前也具有一定的理論基礎(chǔ)。雖然直接啟發(fā)式動(dòng)態(tài)規(guī)劃算法可實(shí)現(xiàn)在線自適應(yīng)最優(yōu)控制,該算法仍存在以下不足:1)該算法采用了在軌策略(on-policy)學(xué)習(xí)機(jī)制,存在對(duì)狀態(tài)-策略空間探索不足的問(wèn)題,容易陷入局部最優(yōu)解;2)執(zhí)行網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)的激活函數(shù)均采用的雙曲正切函數(shù),并且目前所有的收斂性和穩(wěn)定性分析結(jié)果均以雙曲正切函數(shù)為基礎(chǔ),對(duì)于其他類(lèi)型的激活函數(shù)則不再適用。
因此,如何克服上述的直接啟發(fā)式動(dòng)態(tài)規(guī)劃方法存在的以上不足,使得收斂性和穩(wěn)定性分析結(jié)果不再局限雙曲正切函數(shù),成為現(xiàn)有技術(shù)亟需解決的技術(shù)問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種非線性離散時(shí)間系統(tǒng)的在線學(xué)習(xí)控制方法,能夠?qū)顟B(tài)-策略空間具有更好的探索能力,使得執(zhí)行網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)的激活函數(shù)類(lèi)型可任意選擇,不再局限于雙曲正切函數(shù);相比于策略迭代或值迭代等迭代式方法,該方法可實(shí)現(xiàn)對(duì)最優(yōu)控制器的在線學(xué)習(xí),并且無(wú)需系統(tǒng)模型,僅需要行為策略產(chǎn)生的狀態(tài)數(shù)據(jù)。
為達(dá)此目的,本發(fā)明采用以下技術(shù)方案:
一種非線性離散時(shí)間系統(tǒng)的在線學(xué)習(xí)控制方法,包括如下步驟:
行為策略選擇步驟S110:
根據(jù)被控對(duì)象的特點(diǎn),利用已有經(jīng)驗(yàn)選擇行為策略u(píng),行為策略為學(xué)習(xí)過(guò)程中實(shí)際應(yīng)用到被控對(duì)象的控制策略,其主要作用是用來(lái)產(chǎn)生學(xué)習(xí)過(guò)程中需要用到的系統(tǒng)狀態(tài)數(shù)據(jù);
最優(yōu)Q-函數(shù)定義步驟S120:
定義如下的最優(yōu)Q-函數(shù):
其物理意義為:在k時(shí)刻,采取行為策略u(píng),而在之后的所有時(shí)刻,均采取最優(yōu)控制策略u(píng)*,即目標(biāo)策略,由最優(yōu)Q-函數(shù)定義可知,上式可等價(jià)表示為:
最優(yōu)控制可表示為:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)電子科技集團(tuán)公司信息科學(xué)研究院,未經(jīng)中國(guó)電子科技集團(tuán)公司信息科學(xué)研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011635930.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。





