[發(fā)明專利]一種非線性離散時(shí)間系統(tǒng)的在線學(xué)習(xí)控制方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011635930.6 | 申請(qǐng)日: | 2020-12-31 |
| 公開(公告)號(hào): | CN113485099B | 公開(公告)日: | 2023-09-22 |
| 發(fā)明(設(shè)計(jì))人: | 李新興;查文中;王雪源;王蓉 | 申請(qǐng)(專利權(quán))人: | 中國電子科技集團(tuán)公司信息科學(xué)研究院 |
| 主分類號(hào): | G05B13/02 | 分類號(hào): | G05B13/02 |
| 代理公司: | 北京中知法苑知識(shí)產(chǎn)權(quán)代理有限公司 11226 | 代理人: | 李明;趙吉陽 |
| 地址: | 100086 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 非線性 離散 時(shí)間 系統(tǒng) 在線 學(xué)習(xí) 控制 方法 | ||
1.一種非線性離散時(shí)間系統(tǒng)的在線學(xué)習(xí)控制方法,包括如下步驟:
行為策略選擇步驟S110:
根據(jù)被控對(duì)象的特點(diǎn),利用已有經(jīng)驗(yàn)選擇行為策略u(píng),行為策略為學(xué)習(xí)過程中實(shí)際應(yīng)用到被控對(duì)象的控制策略,其主要作用是用來產(chǎn)生學(xué)習(xí)過程中需要用到的系統(tǒng)狀態(tài)數(shù)據(jù);
最優(yōu)Q-函數(shù)定義步驟S120:
定義如下的最優(yōu)Q-函數(shù):
其物理意義為:在k時(shí)刻,采取行為策略u(píng),而在之后的所有時(shí)刻,均采取最優(yōu)控制策略u(píng)*,即目標(biāo)策略,由最優(yōu)Q-函數(shù)定義可知,上式可等價(jià)表示為:
最優(yōu)控制可表示為:
對(duì)于線性系統(tǒng),Q*(xk,uk)和分別是關(guān)于(xk,uk)和xk的非線性函數(shù);
評(píng)價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)引入步驟S130:
引入評(píng)價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)分別對(duì)Q*(xk,uk)和進(jìn)行在線逼近,所述評(píng)價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)為神經(jīng)網(wǎng)絡(luò);
評(píng)價(jià)網(wǎng)絡(luò)用來學(xué)習(xí)最優(yōu)Q-函數(shù)Q*(xk,uk),執(zhí)行網(wǎng)絡(luò)用來學(xué)習(xí)最優(yōu)控制器u*,假設(shè)評(píng)價(jià)網(wǎng)絡(luò)中神經(jīng)網(wǎng)絡(luò)激活函數(shù)的數(shù)量為Nc,并記為最小二乘意義下評(píng)價(jià)網(wǎng)絡(luò)對(duì)Q*(xk,uk)的最佳逼近,則可表示為:
其中,為隱藏層到輸出層的權(quán)重,為評(píng)價(jià)網(wǎng)絡(luò)中隱藏層中所有激活函數(shù)構(gòu)成的集合,為評(píng)價(jià)網(wǎng)絡(luò)輸入層到隱藏層的權(quán)重,其中,為第i個(gè)激活函數(shù)對(duì)應(yīng)的權(quán)重,表示(xk,uk)對(duì)應(yīng)的各激活函數(shù)的輸入值,表示第i個(gè)激活函數(shù)的輸入值;
設(shè)執(zhí)行網(wǎng)絡(luò)激活函數(shù)的數(shù)量為Na,并記為最小二乘意義下執(zhí)行網(wǎng)絡(luò)對(duì)的最佳逼近,則可表示為:
執(zhí)行網(wǎng)絡(luò)的輸入為系統(tǒng)狀態(tài),其中,為隱藏層到輸入層的權(quán)重,為執(zhí)行網(wǎng)絡(luò)隱藏層激活函數(shù)構(gòu)成的集合,為輸入層到隱藏層的權(quán)重,其中,為第i個(gè)激活函數(shù)對(duì)應(yīng)的權(quán)重,代表xk對(duì)應(yīng)的各激活函數(shù)的輸入值,表示第i個(gè)激活函數(shù)的輸入值,對(duì)于xk+1,則有
估計(jì)誤差計(jì)算步驟S140:
最優(yōu)近似值和代替精確值和可得如下的估計(jì)誤差:
其中,表示輸入為時(shí),評(píng)價(jià)網(wǎng)絡(luò)中各激活函數(shù)的輸入值,即
最優(yōu)權(quán)重計(jì)算步驟S150:
對(duì)評(píng)價(jià)網(wǎng)絡(luò)的最優(yōu)權(quán)重Wc和執(zhí)行網(wǎng)絡(luò)的最優(yōu)權(quán)重Wa進(jìn)行在線學(xué)習(xí),假設(shè)在k時(shí)刻,評(píng)價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)對(duì)Wc和Wa的估計(jì)值分別為和其中,l≤k,即學(xué)習(xí)過程要在行為策略開始產(chǎn)生狀態(tài)數(shù)據(jù)之后進(jìn)行,則執(zhí)行網(wǎng)絡(luò)在k時(shí)刻的輸出可表示為:
在行為策略u(píng)k生成下一個(gè)狀態(tài)xk+1之前,執(zhí)行網(wǎng)絡(luò)還無法給出k+1時(shí)刻對(duì)Wa的估計(jì),因此,k+1時(shí)刻執(zhí)行網(wǎng)絡(luò)對(duì)Wa的估計(jì)值仍采用則k+1時(shí)刻執(zhí)行網(wǎng)絡(luò)的輸出為:
同理,當(dāng)輸入為(xk,uk)時(shí),評(píng)價(jià)網(wǎng)絡(luò)的輸出為:
當(dāng)輸入為時(shí),評(píng)價(jià)網(wǎng)絡(luò)的輸出為:
其中,同樣,在生成狀態(tài)xk+1之前,評(píng)價(jià)網(wǎng)絡(luò)也無法給出k+1時(shí)刻對(duì)Wc的估計(jì),所以k+1時(shí)刻評(píng)價(jià)網(wǎng)絡(luò)對(duì)Wc的估計(jì)值同樣取因此有:
用估計(jì)值代替真實(shí)值得到如下的估計(jì)誤差:
對(duì)于評(píng)價(jià)網(wǎng)絡(luò)的權(quán)重采用梯度下降法進(jìn)行調(diào)節(jié),
對(duì)于執(zhí)行網(wǎng)絡(luò)的權(quán)重則采用重要性加權(quán)法進(jìn)行訓(xùn)練,并采用改進(jìn)的梯度下降法對(duì)進(jìn)行在線調(diào)節(jié),
當(dāng)評(píng)價(jià)網(wǎng)絡(luò)的權(quán)重和執(zhí)行網(wǎng)絡(luò)的權(quán)重收斂之后,執(zhí)行網(wǎng)絡(luò)的輸出即為最優(yōu)控制器的近似值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國電子科技集團(tuán)公司信息科學(xué)研究院,未經(jīng)中國電子科技集團(tuán)公司信息科學(xué)研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011635930.6/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:存儲(chǔ)器陣列及其形成方法
- 下一篇:
- 同類專利
- 專利分類





