[發明專利]一種基于雙評論家強化學習技術的水下航行器目標區域上浮控制方法有效

申請號：	202110262597.7	申請日：	2021-03-11
公開（公告）號：	CN113033119B	公開（公告）日：	2022-03-25
發明（設計）人：	李沂濱;張天澤;繆旭弘;魏征;尤岳;周廣禮;賈磊;莊英豪;宋艷	申請（專利權）人：	山東大學
主分類號：	G06F30/28	分類號：	G06F30/28;G06N3/04;G06N3/08;B63G8/18;B63G8/14
代理公司：	濟南金迪知識產權代理有限公司 37219	代理人：	王楠
地址：	250199 山***	國省代碼：	山東;37
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于評論家強化學習技術水下航行目標區域上浮控制方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于雙評論家強化學習技術的水下航行器目標區域上浮控制方法，其特征在于，包括步驟如下：

1、定義任務環境及模型

1-1、構建水下航行器所在的目標區域任務環境及水下航行器動力學模型；

任務環境包括固定在地理原點的E-ξηζ坐標系、設置了三維地圖尺寸的三維區域、上浮成功區域；

水下航行器包括三個執行機構，分別為艉部推進器、艉部水平舵以及艉部垂直舵；

通過在仿真中基于牛頓-歐拉運動方程推導，對水下航行器進行六自由度的動力學建模，包括，在E-ξηζ坐標系下對水下航行器坐標{ξ，η，ζ}及姿態角進行描述，使用固定在水下航行器上隨水下航行器運動的、以其重心為原點O的O-xyz坐標系，描述水下航行器的線速度{u，v，w}及角速度{p，q，r}；其中，ζ，η，ζ為固定坐標系E-ξηζ下的三維坐標值；ψ，θ為固定坐標系E-ξηζ繞三個坐標軸旋轉的姿態角角度：艏向角ψ、橫滾角以及俯仰角θ，u，v，w為水下航行器AUV在O-xyz坐標系下沿三個坐標軸運動的線速度值，p，q，r為O-xyz坐標系下繞三個坐標軸旋轉的角速度；根據構建好的水下航行器動力學模型，已知t時刻水下航行器的運動狀態，由水下航行器艉部推進器輸出力的大小及艉部水平舵、艉部垂直舵的舵角偏轉值，經四階龍格庫塔法解算微分方程得到t+1時刻的運動狀態；

1-2、定義獎勵函數

對水下航行器智能體構建如下獎勵分量：

首先，根據水下航行器上浮行為進行獎勵，設定該獎勵分量為每一個仿真時間步長水下航行器到水面的距離的減小值；并且將該值限定在[-2，2]的范圍內，具體如式(1)：

r_trans＝clip[(d_old-d_new)，-2，2] (1)

其中，d_old表示水下航行器上一時刻水下航行器與水面的距離，d_new表示水下航行器當前時刻水下航行器與水面的距離，r_trans為轉移獎勵函數；

其次，根據水下航行器要到達目標區域進行獎勵，設定該獎勵分量根據水下航行器重心在任意時刻所在水平面內的投影點到所在到指定區域中心在該水平面的投影點的距離設定；并且將該值限定在[-2，2]的范圍內，具體如式(2)：

其中，β為上浮成功區域半徑的γ次方，r_area表示上浮至指定區域的獎勵函數分量，表示某時刻距離指定區域中心的距離的γ次方；

第三，設置時間懲罰項為：r_time＝1.5，且當一個episode所使用的仿真步長超出500個時，任務環境反饋done＝True，即任務結束；

最后，對任務環境進行了地圖范圍的限制，當水下航行器碰到地圖邊界時，給予一個較大的懲罰：

綜合起來，獎勵函數被設定為：

r＝α₁*r_trans+α₂*r_area+α₃*r_time+r_map (4)

其中α₁、α₂、α₃用于協調為各獎勵分量所占的權重；

1-3、定義狀態空間S

在本發明所構建的水下航行器仿真環境中，狀態空間由水下航行器對環境的幾個觀察分量構成，即狀態空間可相應定義為S＝{obs₁，obs₂，...，obs_n}，n為觀察分量的數量，其中包括：每個時刻水下航行器與水面的距離、水下航行器重心所在水平面內投影點到所在到上浮成功區域中心在該水平面投影點的距離、水下航行器的艏向角與俯仰角、水下航行器艉部推進器輸出力的大小、水下航行器艉部水平舵舵角與垂直舵舵角的大小，以及水下航行器上的四個聲吶對周圍障礙物的探測反饋；

1-4、定義動作空間

水下航行器的三個執行機構分別為艉部推進器、艉部水平舵以及艉部垂直舵；本發明所提出的控制算法通過建立從水下航行器的各觀察量到控制推進器輸出力的大小、兩組舵面的偏轉角度的非線性映射，定義動作空間為A＝{F，D_θ，D_ψ}其中，F為推進器輸出力的大小，D_θ，D_ψ為水平舵以及垂直舵的偏轉角度；

2、上浮控制算法訓練

(1)、網絡參數初始化階段：

(1-1)、設定神經網絡包括評估網絡和目標網絡，評估網絡中包括演員網絡和評論家網絡1、評論家網絡2，目標網絡中包括演員網絡和評論家網絡1、評論家網絡2；隨機初始化各網絡參數：

評估演員網絡參數θ^π、目標演員網絡參數θ^π′；評估評論家網絡1參數目標評論家網絡1參數評估評論家網絡2參數目標評論家網絡2參數評估演員網絡的輸出值為π(s|θ^π)，目標演員網絡的輸出為π′(s|θ^π′)，評估評論家網絡1輸出為目標評論家網絡1的輸出為評估評論家網絡2輸出為目標評論家網絡2的輸出為

(1-2)、初始化訓練過程相關超參數：目標網絡軟替代更新頻率參數τ；交互經驗緩存空間尺寸M；專家經驗緩存空間尺寸D；每個時間步從M與D兩個經驗回放緩存空間采樣得到的轉移過程總數為batch，獎勵折損率γ；

(2)預訓練階段：

(2-1)、將若干條控制水下航行器成功上浮到目標區域的episode作為專家數據加載到專家經驗回放緩存空間中永久存儲；其中，各episode中單步轉移過程以(s_t-1，a_t，r_t，s_t，done)的形式存儲；其中s_t-1為上一時刻狀態、a_t為當前時刻采取的動作、r_t為當前時刻獲得的獎勵值、s_t為當前時刻狀態、done為當時刻是否觸發任務終止條件的標志位；

(2-2)、經驗回放緩存中的單步轉移過程在網絡學習過程中被采樣的概率正比于其優先級p_i，被采樣的概率計算方式為：

其中，ρ為調節優先級影響大小的指數因子；k為經驗回放緩存中已有的轉移過程的數目；而p_i的計算方式為：

其中，λ₃為調節貢獻度的權重值；Q(s_i，a_i|θ^Q)為評估評論家網絡對某第i個狀態-動作對的輸出值；為對a求取梯度；δ_i為此時刻的單步轉移過程與上一時刻單步轉移過程的時序誤差值：

δ_i＝r+γmax_a′Q(s′，a′|θ^Q′)-Q(s，a|θ′) (8)

∈為一個正常數，r為前文的獎勵函數值；γ為獎勵折損因子；Q(s′，a′|θ^Q′)為目標評論家網絡根據下一時刻狀態-動作對(s′，a′)的輸出值；Q(s，a|θ′)為目標評論家網絡根據當前時刻狀態-動作對(s，a)的輸出值；

(2-3)、開始預訓練：在這個階段網絡只使用專家經驗回放緩存中存儲的轉移過程進行網絡的更新，并不與任務環境進行交互，設定預訓練的步數n_pre；在學習過程中，評估評論家的兩個網絡及評估演員網絡的損失函數被設計為：

為經由兩個評論家網絡計算得到的單步轉移過程loss函數，為梯度算子，即對評估演員網絡的網絡參數求取梯度，式(9)中計算評論家網絡的第一項L₁(θ^Q)為單步轉移過程的損失函數，其具體的計算方式為：

式(12)、(13)中表明了本發明中雙評論家網絡的運算方式，所構建的兩組評論家網絡彼此網絡參數不共享，且更新方式也彼此獨立，其中，r為前文的獎勵函數值；γ為獎勵折損因子，代表1號目標評論家網絡根據目標演員網絡的輸出而做出的輸出，代表2號目標評論家網絡根據目標演員網絡的輸出而做出的輸出，π′(s′|θ^π′)即為目標演員網絡根據下一時刻狀態s′做出的輸出；分別為1、2號評估評論家網絡根據智能體在當前時刻狀態-動作對(s，a)的輸出；而在獲取演員網絡所需的Q(s，a)值時，通過取兩評論家網絡輸出值中的最小值作為用于式(10)中J(θ^π)的Q值；

另外，式(10)中也包含了多步轉移過程之間的信息L_n(θ^Q)；計算n步轉移過程損失函數的計算方式為：

λ₁、λ₂為調節單步、n步轉移過程影響損失函數的比重，為對評估演員網絡輸出取梯度運算，并與兩個評估評論家網絡輸出的最小值做乘積，其中Q(s′_n-1，π′(s′|θ^π′)|θ^Q′)及Q(s，π(s)|θ^Q)的計算如(12)(13)所示；損失函數中的與為網絡的L2正則化項；

最后，每個時間步對所有目標網絡采取軟更新，其計算方式為：

θ^π′＝τθ^π′+(1-τ)θ^π′ (15)

其中，θ^π′為目標演員網絡參數，為目標評論家網絡參數，τ為軟更新因子；

(3)正式訓練階段：

(3-1)、預訓練完成后，開始實際控制水下航行器與仿真任務環境交互；每次訓練過程的開始時，水下航行器起點被設置為上浮成功區域以下、遠離上浮成功區域的任意一點，并且水下航行器的初始艏向角ψ也是隨機的；

(3-2)、水下航行器將當前通過觀測得到的狀態空間S的一條向量加載到評估演員網絡，得到網絡的輸出后與動作選擇噪聲疊加后得到選擇的動作a_t＝π(s_t-1，θ^π)+n_t，其中n_t為加入的高斯噪聲，a_t即為水下航行器推進器輸出力的大小及艉部垂直舵角、水平舵舵角的角度值；仿真任務環境根據水下航行器此時的實際狀態反饋給水下航行器單步獎勵值r_t；算法將與任務環境交互產生的單步轉移過程(s_t-1，a_t，r_t，s_t)存放在交互經驗回放緩存M中；

(3-3)、每個時間步后，按照公式(6)計算得到的采樣概率隨機從水下航行器交互經驗回放緩存M與專家經驗回放緩存D中采樣，并將得到的batch條混合數據，依照與步驟(2-3)的方式進行各網絡的參數更新；

(3-4)、通過(3-2)、(3-3)不斷迭代訓練，直至達到預設的仿真步數；通過查看每個episode的獎勵收斂情況及水下航行器完成環境任務的成功次數判斷算法的控制性能。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于山東大學，未經山東大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110262597.7/1.html，轉載請聲明來源鉆瓜專利網。