[發(fā)明專利]一種基于強(qiáng)化學(xué)習(xí)算法的比例控制器參數(shù)自整定方法在審
| 申請(qǐng)?zhí)枺?/td> | 202310400856.7 | 申請(qǐng)日: | 2023-04-14 |
| 公開(公告)號(hào): | CN116400582A | 公開(公告)日: | 2023-07-07 |
| 發(fā)明(設(shè)計(jì))人: | 劉亞俊;郭能昌;全霖鋒;高筠硯 | 申請(qǐng)(專利權(quán))人: | 華南理工大學(xué) |
| 主分類號(hào): | G05B11/42 | 分類號(hào): | G05B11/42 |
| 代理公司: | 廣州粵高專利商標(biāo)代理有限公司 44102 | 代理人: | 黃月瑩 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強(qiáng)化 學(xué)習(xí) 算法 比例 控制器 參數(shù) 方法 | ||
本發(fā)明公開了一種基于強(qiáng)化學(xué)習(xí)算法的比例控制器參數(shù)自整定方法,包括以下步驟:通過算法損失函數(shù)設(shè)計(jì),并對(duì)網(wǎng)絡(luò)輸入量進(jìn)行預(yù)處理;構(gòu)建深度確定性策略梯度強(qiáng)化學(xué)習(xí)算法與影子演員網(wǎng)絡(luò)的算法復(fù)合框架;基于環(huán)境信息,批評(píng)家網(wǎng)絡(luò)進(jìn)行參數(shù)更新;基于環(huán)境信息與批評(píng)家網(wǎng)絡(luò)輸出,對(duì)表演家網(wǎng)路參數(shù)進(jìn)行優(yōu)化,并與影子網(wǎng)路數(shù)據(jù)進(jìn)行同步;重復(fù)上述步驟,直至滿足強(qiáng)化學(xué)習(xí)算法終止條件,并輸出表演家網(wǎng)絡(luò)參數(shù)。與傳統(tǒng)控制器參數(shù)整定方法相比,本發(fā)明方法主要面向應(yīng)用于變工況場(chǎng)景的控制器,本發(fā)明的比例參數(shù)可基于當(dāng)前狀態(tài),通過神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)調(diào)節(jié),使系統(tǒng)具有較小的超調(diào)量、上升時(shí)間、調(diào)節(jié)時(shí)間等。
技術(shù)領(lǐng)域
本發(fā)明涉及控制器參數(shù)整定領(lǐng)域,具體涉及一種基于強(qiáng)化學(xué)習(xí)算法的比例控制器參數(shù)自整定方法。
技術(shù)背景
參數(shù)調(diào)整是一項(xiàng)控制器設(shè)計(jì)過程中枯燥但是關(guān)鍵的工作。研究者們一直在嘗試擺脫使用試湊的方法進(jìn)行控制器參數(shù)選定。對(duì)于已知參數(shù)的帶時(shí)延的一階慣性環(huán)節(jié),Ziegler-Nichols方法可通過整定公式計(jì)算出PID參數(shù)值。Ziegler和Nichols的工作,是PID參數(shù)調(diào)整方法的起源,為許多后來的工作提供了經(jīng)驗(yàn)與基準(zhǔn)、粒子群優(yōu)化(PSO)和蟻群優(yōu)化(ACO)算法,一些有效的控制器參數(shù)調(diào)整策略被提出。不同于前面所述的控制器參數(shù)調(diào)整方法,這些使用這些算法時(shí),不需要對(duì)被控對(duì)象建立相關(guān)模型。然而,這些無模型的參數(shù)調(diào)整方法,卻非常容易陷入局部最優(yōu)解。為了獲得全局最優(yōu)解,基于強(qiáng)化學(xué)習(xí)算法的無模型的參數(shù)調(diào)整方法被提出。強(qiáng)化學(xué)習(xí)采用自我監(jiān)督學(xué)習(xí)的形式,它與環(huán)境相互作用,并通過試錯(cuò)改進(jìn)。原則上,它們可能會(huì)超過人類的能力,并在缺乏人類專業(yè)知識(shí)的領(lǐng)域運(yùn)作。研究人員已經(jīng)實(shí)現(xiàn)利用強(qiáng)化學(xué)習(xí)算法將參數(shù)整定的工作相結(jié)合,以提高獲取全局最優(yōu)解的可能性,并在仿真系統(tǒng)、實(shí)物系統(tǒng)中進(jìn)行了驗(yàn)證。這些基于強(qiáng)化學(xué)習(xí)算法的無模型的控制器設(shè)計(jì)方法在以往的研究中都被取得了一定的實(shí)驗(yàn)效果(Double?Q-PID?algorithm?for?mobilerobot?controllgnacio?Carlucho,Mariano?De?Paula;Gerardo?G.Acosta?INTEIYMEL,Centro?de?lmvestigaciones?en?Fisica?e?Ilngenierin?del?Centro?ClFICEN-LNICEN-CICpBA-CONICET,Olavarria?7400,Argentina)。然而實(shí)際應(yīng)用中,這些基于強(qiáng)化學(xué)習(xí)算法的無模型的控制器設(shè)計(jì)方法存在局限性:缺乏有效改進(jìn),以應(yīng)對(duì)控制器算力緊張問題。對(duì)于控制器而言,算力一直是稀缺的資源。在控制器計(jì)算單元中,一個(gè)完整的強(qiáng)化學(xué)習(xí)算法,特別是是深度強(qiáng)化學(xué)習(xí)算法的計(jì)算,是耗時(shí)和資源密集型的。兩類不夠完美的方法被提出以解決該問題:第一種方法是提高控制器性能,但該方案將提高設(shè)備成本。另外一種方法是在在強(qiáng)化學(xué)習(xí)算法運(yùn)行結(jié)束后,固定相關(guān)網(wǎng)絡(luò)參數(shù),以降低應(yīng)用強(qiáng)化學(xué)習(xí)經(jīng)驗(yàn)的計(jì)算成本,但該方案只適用于工況單一的場(chǎng)景,無法實(shí)現(xiàn)參數(shù)自整定
發(fā)明內(nèi)容
為了解決控制器參數(shù)自整定領(lǐng)域中,現(xiàn)有基于強(qiáng)化學(xué)習(xí)方法技術(shù)應(yīng)用成本高、算力消耗大等缺點(diǎn),同時(shí)實(shí)現(xiàn)在算力有限設(shè)備中,獲得全局最優(yōu)控制器控制參數(shù)的目的。本發(fā)明提出了一種基于強(qiáng)化學(xué)習(xí)算法的比例控制器參數(shù)自整定方法,通過構(gòu)建強(qiáng)化學(xué)習(xí)算法與影子演員網(wǎng)絡(luò)的復(fù)合結(jié)構(gòu),經(jīng)過數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)模型訓(xùn)練等過程,實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)與影子演員網(wǎng)絡(luò)參數(shù)的調(diào)整,并利用影子演員網(wǎng)絡(luò)實(shí)現(xiàn)控制器參數(shù)自整定,以最終達(dá)到優(yōu)化控制器綜合控制性能的目的。
本發(fā)明至少通過如下技術(shù)方案之一實(shí)現(xiàn)。
一種基于強(qiáng)化學(xué)習(xí)算法的比例控制器參數(shù)自整定方法,包括以下步驟:
利用預(yù)實(shí)驗(yàn),對(duì)變工況場(chǎng)景下電機(jī)的轉(zhuǎn)速數(shù)據(jù)進(jìn)行采集;
將電機(jī)的轉(zhuǎn)速數(shù)據(jù)進(jìn)行預(yù)測(cè)處理,對(duì)負(fù)載變化區(qū)間進(jìn)行預(yù)測(cè);
搭建基于強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的控制器參數(shù)整定網(wǎng)絡(luò)并訓(xùn)練,控制器參數(shù)整定網(wǎng)絡(luò)包括批評(píng)家網(wǎng)絡(luò)、表演家網(wǎng)絡(luò)、影子演員網(wǎng)絡(luò);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華南理工大學(xué),未經(jīng)華南理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310400856.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





