[發明專利]一種基于相關冗余變換與增強學習的多維度協同控制方法有效
| 申請號: | 201711407168.4 | 申請日: | 2017-12-22 |
| 公開(公告)號: | CN108021028B | 公開(公告)日: | 2019-04-09 |
| 發明(設計)人: | 李鵬華;王歡;李嫄源;朱智勤;張家昌 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G05B13/04 | 分類號: | G05B13/04 |
| 代理公司: | 北京同恒源知識產權代理有限公司 11275 | 代理人: | 趙榮之 |
| 地址: | 400065 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 相關 冗余 變換 增強 學習 多維 協同 控制 方法 | ||
1.一種基于相關冗余變換與增強學習的多維度協同控制方法,其特征在于:該方法包括以下步驟:
S1:多源異構信息特征統一與融合;
S2:采用基于POMDP模型的控制狀態策略引導;
S3:采用基于深度增強學習的控制狀態引導策略優化;
S4:采用基于總線的分布式底層控制;
所述步驟S2具體為:采用多源異構融合技術獲得的商務旅居房車各類設備的控制狀態,建立POMDP模型以感知、適應、追蹤設備控制狀態的變化;通過POMDP模型的內部作用器給設備控制狀態施加動作,以引起設備控制狀態發生變化,并獲得一定回報;根據獲得的累計回報來衡量所執行一系列策略的可能性,進而將商務旅居房車的設備控制問題轉換成策略選擇問題;具體地,POMDP模型描述為{S,A,T,O,Q,β},綜合環境狀態在POMDP模型概率分布中的置信狀態表示為B={bt},其t時刻的概率分布為bt={bt(s1),...,bt(Sm)};其中,bt(si)表示t時刻環境狀態為Si的概率;通過對當前時刻控制環境的觀察與動作的選擇,POMDP模型推導出下一時刻控制狀態的置信值;假設起始時刻的置信狀態為b0,執行動作a與觀察O,獲得下一時刻置信狀態b1;當處于控制狀態S1,模型獲得的觀察為O1,模型內部狀態為i1;通過計算,根據控制狀態引導策略選擇相應的動作a1,導致環境狀態從S1轉移到S2,模型獲得回報r1與觀察O2,此時模型內部狀態從i1(b1)轉移到i2(b2),然后模型依此繼續運行;
具體地,構建問題的引導策略估計函數實現對話狀態跟蹤,該函數為其中,是對應節點n的動作向量狀態s的值;通過控制狀態策略演化,得到下一時刻的控制狀態引導策略函數,其中表示最優策略,Vt*表示上一時刻的策略函數;
所述步驟S3具體為:根據POMDP模型得到商務旅居房車設備控制狀態的引導策略,采用基于深度增強學習DQN的策略優化方法來選擇最佳行動策略;具體地,采用Q-網絡(Q(s,a;θ))定義行為策略,利用目標Q-網絡(Q(s,a;θ-))生成DQN丟失項的目標Q值,以及重新記憶POMDP模型用于訓練Q網絡的隨機采樣狀態值;通過增強學習定義POMDP模型的預期總回報其中,回報rt由每個時間步長的因子γ=[0,1]折算,T是終止步驟;采用動作值函數Qπ(s,a)觀察狀態St的預期回報,并利用神經網絡Q(s,a)=(Q(s,a;θ-))近似動作值函數;對于基于動作a下的引導策略π,最優動作值函數Qπ(s,a)=E[Rt|st=a,a1=a,π]通過策略實現;構建含有動作值a的Bellman方程通過調整Q-network對迭代的Bellman目標參數進行求解;
首先,DQN使用記憶重構,在POMDP模型的每個時間步長t內,將記憶元組et=(st,at,rt,st+1)存放到記憶存儲器Dt={e1,...,et}中;
其次,DQN分別維持兩個獨立的Q網絡(Q(s,a;θ))和(Q(s,a;θ-));當前參數θ在每個時間步長內進行多次更新,并在N次迭代之后被復制到舊參數θ-中;在更新迭代時,為了最小化相對于舊參數θ-的均方Bellman誤差,通過優化損失函數來更新當前參數θ;對于每次更新i,從記憶存儲器D中單獨采樣獲取記憶元組(s,a,r,s`)~U(D);對于每個樣本,通過隨機梯度下降算法更新當前參數δ;下降的梯度gi通過θ相對于θ-的損失樣本梯度求得;
最后,在每個時間步長t內,選擇相對于當前Q-網絡(Q(s,a;θ))的偏好行為動作;使用中心參數服務器來維護Q網絡(Q(s,a;θ-))的分布式表示;同時,該參數服務器接收強化學習到的漸變信息,并在異步隨機梯度下降算法的驅動下,應用這些漸變信息來修改參數向量θ-。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711407168.4/1.html,轉載請聲明來源鉆瓜專利網。





