[發明專利]一種風場協同控制方法及裝置有效
| 申請號: | 202010035870.8 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN111245008B | 公開(公告)日: | 2021-07-16 |
| 發明(設計)人: | 趙俊華;趙煥;梁高琪 | 申請(專利權)人: | 香港中文大學(深圳) |
| 主分類號: | H02J3/38 | 分類號: | H02J3/38;H02J3/46 |
| 代理公司: | 深圳市恒申知識產權事務所(普通合伙) 44312 | 代理人: | 袁文英 |
| 地址: | 518060 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 協同 控制 方法 裝置 | ||
1.一種風場協同控制方法,其特征在于,所述控制方法包括以下步驟:
接收風場系統中神經網絡單元發送的初始代理狀態,及接收所述神經網絡單元發送的初始代理行為,所述初始代理行為為所述初始代理狀態對應的行為;
基于預設的風場分析模型,利用所述初始代理狀態及所述初始代理行為確定預執行行為,并確定所述預執行行為的引導獎勵;
根據所述引導獎勵的收益確定獎勵參數,并根據所述獎勵參數及所述預執行行為更新所述神經網絡單元,得到新的代理狀態及新的代理行為,直至所述代理狀態及所述代理行為確定的執行行為收斂;
根據所述執行行為生成控制行為信號,利用所述控制行為信號控制所述風場系統;
其中,所述基于預設的風場分析模型,利用所述初始代理狀態及所述初始代理行為確定預執行行為,及確定所述預執行行為的引導獎勵的步驟包括:
基于所述風場分析模型獲取所述初始代理狀態對應的標準行為,依照所述標準行為將所述初始代理行為更新為所述預執行行為;
所述標準行為的公式如下:
ac=arg max K(st,ac,t)
其中,ac表示所述標準行為,st表示t時刻的觀察狀態,ac,t表示t時刻的所述標準行為,K表示所述風場分析模型函數;
所述預執行行為的計算公式如下:
ae=(1-γi)·ao+γi·ac
其中,ae表示所述預執行行為,γ表示折現因子,i表示迭代次數,ao表示所述代理行為,ac表示所述標準行為;
基于所述風場分析模型確定所述預執行行為對應的引導獎勵,所述引導獎勵的計算公式如下:
rg,t=E(st,ae,t)
其中,rg,t表示t時刻的引導獎勵,E表示用于評估的所述風場分析模型,st表示t時刻的觀察狀態,ae,t表示t時刻的預執行行為。
2.如權利要求1所述的風場協同控制方法,其特征在于,所述神經網絡單元包含:Q網絡及策略網絡;
則所述接收風場系統中神經網絡單元發送的初始代理狀態,及接收所述神經網絡單元發送的初始代理行為的步驟之前包括:
將所述Q網絡進行初始化處理,得到初始代理狀態,所述Q網絡的表達式如下:
Q(a,s|θQ)
其中,a表示所述行為,s表示觀察狀態,θQ表示Q網絡參數;
將所述策略網絡進行初始化處理,得到初始代理行為,所述策略網絡的表達式如下:
μ(s|θμ)
其中,s表示所述觀察狀態,θμ表示策略網絡參數;
所述初始代理行為的計算公式如下:
ao,t=μ(st|θμ)+Nt
其中,ao,t表示t時刻的代理行為,μ(st|θμ)表示所述策略網絡選擇的所述代理行為,st表示t時刻的觀察狀態,θμ表示策略網絡參數,Nt表示高斯噪聲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于香港中文大學(深圳),未經香港中文大學(深圳)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010035870.8/1.html,轉載請聲明來源鉆瓜專利網。





