[發(fā)明專利]一種非線性離散時(shí)間系統(tǒng)的在線學(xué)習(xí)控制方法有效

申請(qǐng)?zhí)枺?/td>	202011635930.6	申請(qǐng)日：	2020-12-31
公開（公告）號(hào)：	CN113485099B	公開（公告）日：	2023-09-22
發(fā)明（設(shè)計(jì)）人：	李新興;查文中;王雪源;王蓉	申請(qǐng)（專利權(quán)）人：	中國電子科技集團(tuán)公司信息科學(xué)研究院
主分類號(hào)：	G05B13/02	分類號(hào)：	G05B13/02
代理公司：	北京中知法苑知識(shí)產(chǎn)權(quán)代理有限公司 11226	代理人：	李明;趙吉陽
地址：	100086 北京***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種非線性離散時(shí)間系統(tǒng) 在線學(xué)習(xí) 控制方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種非線性離散時(shí)間系統(tǒng)的在線學(xué)習(xí)控制方法，包括如下步驟：

行為策略選擇步驟S110：

根據(jù)被控對(duì)象的特點(diǎn)，利用已有經(jīng)驗(yàn)選擇行為策略u(píng)，行為策略為學(xué)習(xí)過程中實(shí)際應(yīng)用到被控對(duì)象的控制策略，其主要作用是用來產(chǎn)生學(xué)習(xí)過程中需要用到的系統(tǒng)狀態(tài)數(shù)據(jù)；

最優(yōu)Q-函數(shù)定義步驟S120：

定義如下的最優(yōu)Q-函數(shù)：

其物理意義為：在k時(shí)刻，采取行為策略u(píng)，而在之后的所有時(shí)刻，均采取最優(yōu)控制策略u(píng)^*，即目標(biāo)策略，由最優(yōu)Q-函數(shù)定義可知，上式可等價(jià)表示為：

最優(yōu)控制可表示為：

對(duì)于線性系統(tǒng)，Q^*(x_k,u_k)和分別是關(guān)于(x_k,u_k)和x_k的非線性函數(shù)；

評(píng)價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)引入步驟S130：

引入評(píng)價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)分別對(duì)Q^*(x_k,u_k)和進(jìn)行在線逼近，所述評(píng)價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)為神經(jīng)網(wǎng)絡(luò)；

評(píng)價(jià)網(wǎng)絡(luò)用來學(xué)習(xí)最優(yōu)Q-函數(shù)Q^*(x_k,u_k)，執(zhí)行網(wǎng)絡(luò)用來學(xué)習(xí)最優(yōu)控制器u^*，假設(shè)評(píng)價(jià)網(wǎng)絡(luò)中神經(jīng)網(wǎng)絡(luò)激活函數(shù)的數(shù)量為N_c，并記為最小二乘意義下評(píng)價(jià)網(wǎng)絡(luò)對(duì)Q^*(x_k,u_k)的最佳逼近，則可表示為：

其中，為隱藏層到輸出層的權(quán)重，為評(píng)價(jià)網(wǎng)絡(luò)中隱藏層中所有激活函數(shù)構(gòu)成的集合，為評(píng)價(jià)網(wǎng)絡(luò)輸入層到隱藏層的權(quán)重，其中，為第i個(gè)激活函數(shù)對(duì)應(yīng)的權(quán)重，表示(x_k,u_k)對(duì)應(yīng)的各激活函數(shù)的輸入值，表示第i個(gè)激活函數(shù)的輸入值；

設(shè)執(zhí)行網(wǎng)絡(luò)激活函數(shù)的數(shù)量為N_a，并記為最小二乘意義下執(zhí)行網(wǎng)絡(luò)對(duì)的最佳逼近，則可表示為：

執(zhí)行網(wǎng)絡(luò)的輸入為系統(tǒng)狀態(tài)，其中，為隱藏層到輸入層的權(quán)重，為執(zhí)行網(wǎng)絡(luò)隱藏層激活函數(shù)構(gòu)成的集合，為輸入層到隱藏層的權(quán)重，其中，為第i個(gè)激活函數(shù)對(duì)應(yīng)的權(quán)重，代表x_k對(duì)應(yīng)的各激活函數(shù)的輸入值，表示第i個(gè)激活函數(shù)的輸入值，對(duì)于x_k+1，則有

估計(jì)誤差計(jì)算步驟S140:

最優(yōu)近似值和代替精確值和可得如下的估計(jì)誤差：

其中，表示輸入為時(shí)，評(píng)價(jià)網(wǎng)絡(luò)中各激活函數(shù)的輸入值，即

最優(yōu)權(quán)重計(jì)算步驟S150：

對(duì)評(píng)價(jià)網(wǎng)絡(luò)的最優(yōu)權(quán)重W_c和執(zhí)行網(wǎng)絡(luò)的最優(yōu)權(quán)重W_a進(jìn)行在線學(xué)習(xí)，假設(shè)在k時(shí)刻，評(píng)價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)對(duì)W_c和W_a的估計(jì)值分別為和其中，l≤k，即學(xué)習(xí)過程要在行為策略開始產(chǎn)生狀態(tài)數(shù)據(jù)之后進(jìn)行，則執(zhí)行網(wǎng)絡(luò)在k時(shí)刻的輸出可表示為：

在行為策略u(píng)_k生成下一個(gè)狀態(tài)x_k+1之前，執(zhí)行網(wǎng)絡(luò)還無法給出k+1時(shí)刻對(duì)W_a的估計(jì)，因此，k+1時(shí)刻執(zhí)行網(wǎng)絡(luò)對(duì)W_a的估計(jì)值仍采用則k+1時(shí)刻執(zhí)行網(wǎng)絡(luò)的輸出為：

同理，當(dāng)輸入為(x_k,u_k)時(shí)，評(píng)價(jià)網(wǎng)絡(luò)的輸出為：

當(dāng)輸入為時(shí)，評(píng)價(jià)網(wǎng)絡(luò)的輸出為：

其中，同樣，在生成狀態(tài)x_k+1之前，評(píng)價(jià)網(wǎng)絡(luò)也無法給出k+1時(shí)刻對(duì)W_c的估計(jì)，所以k+1時(shí)刻評(píng)價(jià)網(wǎng)絡(luò)對(duì)W_c的估計(jì)值同樣取因此有：

用估計(jì)值代替真實(shí)值得到如下的估計(jì)誤差：

對(duì)于評(píng)價(jià)網(wǎng)絡(luò)的權(quán)重采用梯度下降法進(jìn)行調(diào)節(jié)，

對(duì)于執(zhí)行網(wǎng)絡(luò)的權(quán)重則采用重要性加權(quán)法進(jìn)行訓(xùn)練，并采用改進(jìn)的梯度下降法對(duì)進(jìn)行在線調(diào)節(jié)，

當(dāng)評(píng)價(jià)網(wǎng)絡(luò)的權(quán)重和執(zhí)行網(wǎng)絡(luò)的權(quán)重收斂之后，執(zhí)行網(wǎng)絡(luò)的輸出即為最優(yōu)控制器的近似值。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國電子科技集團(tuán)公司信息科學(xué)研究院，未經(jīng)中國電子科技集團(tuán)公司信息科學(xué)研究院許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011635930.6/1.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】