[發明專利]基于強化學習算法的雙饋感應風力發電機自校正控制方法在審
| 申請號: | 201710073833.4 | 申請日: | 2017-02-10 |
| 公開(公告)號: | CN106877766A | 公開(公告)日: | 2017-06-20 |
| 發明(設計)人: | 余濤;程樂峰;李靖;王克英 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | H02P21/14 | 分類號: | H02P21/14 |
| 代理公司: | 廣州市華學知識產權代理有限公司44245 | 代理人: | 許菲菲 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 強化 學習 算法 感應 風力發電機 校正 控制 方法 | ||
1.基于強化學習算法的雙饋感應風力發電機自校正控制方法,其特征在于,在基于PI控制的矢量控制系統中的PI控制器上增加RL控制器,動態校正PI控制器的輸出,RL控制器包括RL-P控制器和RL-Q控制器,RL-P控制器和RL-Q控制器分別對有功和無功功率控制信號校正;該自校正控制方法包括如下步驟:
S1:RL-P控制器和RL-Q控制器分別采樣有功功率誤差值ΔP和無功功率誤差值ΔQ;RL-P控制器和RL-Q控制器分別判斷功率誤差值ΔP和ΔQ所屬區間sk;
S2:對于所識別的區間sk,RL-P控制器或RL-Q控制器根據該sk所對應的動作概率分布用隨機函數輸出動作αk,得RL-P控制器或RL-Q控制器輸出的校正信號;對于動作α相應的被選擇的概率的集合構成概率分布,每個區間s有其對應的概率分布Ps(a);
對于RL-P控制器,動作值αk與PI控制器的輸出信號用加法器相加得到定子q軸電流的給定值iqs*,即有功功率的控制信號;
對于RL-Q控制器,動作值αk與PI控制器的輸出信號用加法器相加得到定子d軸電流的給定值ids*,即無功功率的控制信號;
S3:RL-P控制器和RL-Q控制器分別采樣有功功率誤差值ΔP和無功功率誤差值ΔQ并判斷其所屬區間sk+1;
S4:RL控制器由獎勵函數獲得立即獎勵值rk;獎勵函數設計為:
式中值是動作集A的指針,該指針為第k次動作值α在動作集A中的序號,μ1和μ2為平衡前后各平方項的權重值,其數值均為通過大量仿真實驗調試所得;
S5:基于Q值迭代公式更新Q矩陣;Q函數為一種期望折扣獎勵值,Q學習的目的是估計最優控制策略的Q值,設Qk為最優值函數Q*的第k次迭代值,Q值迭代公式設計為:
式中α、γ為折扣因子,其數值均為通過大量仿真實驗調試所得;
S6:根據動作選擇策略更新公式更新動作概率分布;利用一種追蹤算法設計動作選擇策略,策略基于概率分布,初始化時,賦予各狀態下每個可行動作相等的被選概率,隨著迭代的進行,概率隨Q值表格的變化而變化;RL控制器找出狀態sk下具有最高Q值的動作ag,ag稱為貪婪動作;動作概率分布的迭代公式為:
和分別為第k次迭代時sk狀態和非sk狀態下選擇動作a的概率;β為動作搜索速度,其數值通過大量仿真實驗調試所得;
S7:令k=k+1,并返回步驟S2;根據動作概率分布選擇并輸出動作αk+1,被選擇的動作與PI控制器的輸出信號相疊加產生相應的定子電流給定值信號,即功率控制信號,并按順序依次執行接下來的步驟不斷循環,在經過多次的迭代后,每個狀態s存在Qsk以概率1收斂于Qs*,即獲得一個以Qs*表示的最優控制策略以及該最優控制策略所對應的貪婪動作ag,至此完成自校正過程,此時每個狀態s下RL控制器輸出值ag與PI控制器的輸出信號疊加,即可自動優化PI控制器的控制性能,使功率誤差值小。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710073833.4/1.html,轉載請聲明來源鉆瓜專利網。





