[發(fā)明專利]一種基于迭代學習控制的批次反應釜控制方法的生成方法有效
| 申請?zhí)枺?/td> | 202110255704.3 | 申請日: | 2021-03-09 |
| 公開(公告)號: | CN113050412B | 公開(公告)日: | 2023-03-21 |
| 發(fā)明(設計)人: | 洪文晶;徐星海;師佳 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G05B13/02 | 分類號: | G05B13/02 |
| 代理公司: | 廈門原創(chuàng)專利事務所(普通合伙) 35101 | 代理人: | 劉劍鋒 |
| 地址: | 361000 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 學習 控制 批次 反應 方法 生成 | ||
本發(fā)明涉及一種基于迭代學習控制的批次反應釜控制方法的生成方法,所述迭代學習控制包含迭代學習控制算法和強化學習算法,所述方法包含以下步驟:S1,調試批次反應釜;S2,通過迭代學習控制算法對所述批次反應釜進行多批次的軌跡跟蹤;采集所述批次反應釜的多批次數(shù)據并存入經驗回放池中;S3,通過強化學習控制算法提取所述多批次數(shù)據,生成初始控制策略;S4,通過強化學習控制算法對所述批次反應釜實時軌跡跟蹤;采集所述批次反應釜的實時數(shù)據并存入經驗回放池中;S5,通過強化學習控制算法利用所述多批次數(shù)據和所述實時數(shù)據對所述初始控制策略進行多次更新優(yōu)化,直到得到穩(wěn)定控制策略。
技術領域
本發(fā)明涉及自動控制領域,具體指有一種基于迭代學習控制的批次反應釜控制方法的生成方法。
背景技術
目前對批次反應釜進行控制的主要方法為迭代學習控制(Iterative LearningControl,ILC)。這種控制算法通過利用之前批次得到的誤差信息對控制輸入進行優(yōu)化,使得控制器在批次任務這類重復性任務中不斷逼近最優(yōu)控制策略。
由于實際生產過程重復性不高,對于前饋型迭代學習控制算法來說,僅利用之前批次過程的控制信息進行策略優(yōu)化會導致魯棒性下降,因此現(xiàn)有的迭代學習控制算法無法對非重復目標軌跡的批次反應過程進行有效控制。并且,實際生產過程生產周期長,對生產安全要求高,僅利用反饋信息以及探索更新的方式進行控制任務需要大量的學習時間以及有幾率產生違反安全生產的策略。現(xiàn)有的學習算法無法結合迭代數(shù)據和實時數(shù)據生成更具優(yōu)勢的控制方法。
針對上述的現(xiàn)有技術存在的問題設計一種基于迭代學習控制的批次反應釜控制方法的生成方法是本發(fā)明研究的目的。
發(fā)明內容
針對上述現(xiàn)有技術存在的問題,本發(fā)明在于提供一種基于迭代學習控制的批次反應釜控制方法的生成方法,能夠有效解決上述現(xiàn)有技術存在的問題。
本發(fā)明的技術方案是:
一種基于迭代學習控制的批次反應釜控制方法的生成方法,所述迭代學習控制包含迭代學習控制算法和強化學習算法,所述方法包含以下步驟:
S1,調試批次反應釜,使其處于初始穩(wěn)定工作點,根據反應工藝參數(shù)設定目標控制軌跡;
S2,通過迭代學習控制算法對所述批次反應釜進行多批次的軌跡跟蹤;采集所述批次反應釜的多批次數(shù)據并存入經驗回放池中,所述多批次數(shù)據包含輸入數(shù)據、輸出數(shù)據以及物理狀態(tài)數(shù)據;
S3,通過強化學習控制算法提取所述多批次數(shù)據,生成初始控制策略;
S4,通過強化學習控制算法對所述批次反應釜實時軌跡跟蹤;采集所述批次反應釜的實時數(shù)據并存入經驗回放池中,所述實時數(shù)據包含輸入數(shù)據、輸出數(shù)據以及物理狀態(tài)數(shù)據;
S5,通過強化學習控制算法利用所述多批次數(shù)據和所述實時數(shù)據對所述初始控制策略進行多次更新優(yōu)化,直到得到穩(wěn)定控制策略。
進一步地,所述迭代學習控制算法為P-型迭代學習控制算法。
進一步地,所述P-型迭代學習控制算法為前饋型控制算法。
進一步地,所述強化學習控制算法為深度確定性策略梯度強化學習算法。
進一步地,步驟S3中,所述控制策略生成模塊按批次順序依次提取所述多批次數(shù)據。
進一步地,步驟S5中,通過強化學習算法利用所述多批次數(shù)據和所述實時數(shù)據對所述初始控制策略進行多次更新優(yōu)化之后,進一步包含以下步驟:通過所述多批次數(shù)據引導所述強化學習控制算法進行有效學習。
進一步地,步驟S5中,所述多批次數(shù)據的數(shù)據量占所述多批次數(shù)據和所述實時數(shù)據的數(shù)據量總和的15%-35%。
進一步地,所述迭代學習控制算法的學習率L=0.4-0.6。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110255704.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電子煙霧化器
- 下一篇:一種基于波形法原理的鋼纖維送壓式生產設備





