[發明專利]一種基于迭代學習控制的批次反應釜控制方法的生成方法有效
| 申請號: | 202110255704.3 | 申請日: | 2021-03-09 |
| 公開(公告)號: | CN113050412B | 公開(公告)日: | 2023-03-21 |
| 發明(設計)人: | 洪文晶;徐星海;師佳 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G05B13/02 | 分類號: | G05B13/02 |
| 代理公司: | 廈門原創專利事務所(普通合伙) 35101 | 代理人: | 劉劍鋒 |
| 地址: | 361000 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 學習 控制 批次 反應 方法 生成 | ||
1.一種基于迭代學習控制的批次反應釜控制方法的生成方法,其特征在于:所述迭代學習控制包含迭代學習控制算法和強化學習算法,所述方法包含以下步驟:
S1,調試批次反應釜,使其處于初始穩定工作點,根據反應工藝參數設定目標控制軌跡;
S2,通過迭代學習控制算法對所述批次反應釜進行多批次的軌跡跟蹤;采集所述批次反應釜的多批次數據并存入經驗回放池中,所述多批次數據包含輸入數據、輸出數據以及物理狀態數據;所述迭代學習控制算法的學習率L=0.4-0.6;迭代學習控制算法在本步驟中用于獲取多批次數據;
S3,通過強化學習控制算法提取所述多批次數據,生成初始控制策略,所述強化學習控制算法基于神經網絡實現,并且所述神經網絡的學習率;
S4,通過強化學習控制算法對所述批次反應釜實時軌跡跟蹤;采集所述批次反應釜的實時數據并存入經驗回放池中,所述實時數據包含輸入數據、輸出數據以及物理狀態數據;強化學習控制算法可以將迭代學習控制算法的多批次數據引入強化學習經驗回放池,以此引導強化學習控制算法有效學習并加速強化學習訓練效率;
S5,通過強化學習控制算法利用所述多批次數據和所述實時數據對所述初始控制策略進行多次更新優化,直到得到穩定控制策略。
2.根據權利要求1所述的一種基于迭代學習控制的批次反應釜控制方法的生成方法,其特征在于:所述迭代學習控制算法為P-型迭代學習控制算法。
3.根據權利要求2所述的一種基于迭代學習控制的批次反應釜控制方法的生成方法,其特征在于:所述P-型迭代學習控制算法為前饋型控制算法。
4.根據權利要求1所述的一種基于迭代學習控制的批次反應釜控制方法的生成方法,其特征在于:所述強化學習控制算法為深度確定性策略梯度強化學習算法。
5.根據權利要求1所述的一種基于迭代學習控制的批次反應釜控制方法的生成方法,其特征在于:步驟S3中,所述控制策略生成模塊按批次順序依次提取所述多批次數據。
6.根據權利要求5所述的一種基于迭代學習控制的批次反應釜控制方法的生成方法,其特征在于:步驟S5中,通過強化學習算法利用所述多批次數據和所述實時數據對所述初始控制策略進行多次更新優化之后,進一步包含以下步驟:通過所述多批次數據引導所述強化學習控制算法進行有效學習。
7.根據權利要求1所述的一種基于迭代學習控制的批次反應釜控制方法的生成方法,其特征在于:步驟S5中,所述多批次數據的數據量占所述多批次數據和所述實時數據的數據量總和的15%-35%。
8.根據權利要求1所述的一種基于迭代學習控制的批次反應釜控制方法的生成方法,其特征在于:所述神經網絡通過Adam優化器對學習率進行調節,定義:代表第 次更新時的網絡參數、是前次優化中梯度的平方均值、代表第次更新時前次的參數梯度總和,α代表學習率,
。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110255704.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電子煙霧化器
- 下一篇:一種基于波形法原理的鋼纖維送壓式生產設備





