日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于雙評論家強化學習技術的水下航行器目標區域上浮控制方法有效

專利信息
申請號: 202110262597.7 申請日: 2021-03-11
公開(公告)號: CN113033119B 公開(公告)日: 2022-03-25
發明(設計)人: 李沂濱;張天澤;繆旭弘;魏征;尤岳;周廣禮;賈磊;莊英豪;宋艷 申請(專利權)人: 山東大學
主分類號: G06F30/28 分類號: G06F30/28;G06N3/04;G06N3/08;B63G8/18;B63G8/14
代理公司: 濟南金迪知識產權代理有限公司 37219 代理人: 王楠
地址: 250199 山*** 國省代碼: 山東;37
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 評論家 強化 學習 技術 水下 航行 目標 區域 上浮 控制 方法
【權利要求書】:

1.一種基于雙評論家強化學習技術的水下航行器目標區域上浮控制方法,其特征在于,包括步驟如下:

1、定義任務環境及模型

1-1、構建水下航行器所在的目標區域任務環境及水下航行器動力學模型;

任務環境包括固定在地理原點的E-ξηζ坐標系、設置了三維地圖尺寸的三維區域、上浮成功區域;

水下航行器包括三個執行機構,分別為艉部推進器、艉部水平舵以及艉部垂直舵;

通過在仿真中基于牛頓-歐拉運動方程推導,對水下航行器進行六自由度的動力學建模,包括,在E-ξηζ坐標系下對水下航行器坐標{ξ,η,ζ}及姿態角進行描述,使用固定在水下航行器上隨水下航行器運動的、以其重心為原點O的O-xyz坐標系,描述水下航行器的線速度{u,v,w}及角速度{p,q,r};其中,ζ,η,ζ為固定坐標系E-ξηζ下的三維坐標值;ψ,θ為固定坐標系E-ξηζ繞三個坐標軸旋轉的姿態角角度:艏向角ψ、橫滾角以及俯仰角θ,u,v,w為水下航行器AUV在O-xyz坐標系下沿三個坐標軸運動的線速度值,p,q,r為O-xyz坐標系下繞三個坐標軸旋轉的角速度;根據構建好的水下航行器動力學模型,已知t時刻水下航行器的運動狀態,由水下航行器艉部推進器輸出力的大小及艉部水平舵、艉部垂直舵的舵角偏轉值,經四階龍格庫塔法解算微分方程得到t+1時刻的運動狀態;

1-2、定義獎勵函數

對水下航行器智能體構建如下獎勵分量:

首先,根據水下航行器上浮行為進行獎勵,設定該獎勵分量為每一個仿真時間步長水下航行器到水面的距離的減小值;并且將該值限定在[-2,2]的范圍內,具體如式(1):

rtrans=clip[(dold-dnew),-2,2] (1)

其中,dold表示水下航行器上一時刻水下航行器與水面的距離,dnew表示水下航行器當前時刻水下航行器與水面的距離,rtrans為轉移獎勵函數;

其次,根據水下航行器要到達目標區域進行獎勵,設定該獎勵分量根據水下航行器重心在任意時刻所在水平面內的投影點到所在到指定區域中心在該水平面的投影點的距離設定;并且將該值限定在[-2,2]的范圍內,具體如式(2):

其中,β為上浮成功區域半徑的γ次方,rarea表示上浮至指定區域的獎勵函數分量,表示某時刻距離指定區域中心的距離的γ次方;

第三,設置時間懲罰項為:rtime=1.5,且當一個episode所使用的仿真步長超出500個時,任務環境反饋done=True,即任務結束;

最后,對任務環境進行了地圖范圍的限制,當水下航行器碰到地圖邊界時,給予一個較大的懲罰:

綜合起來,獎勵函數被設定為:

r=α1*rtrans2*rarea3*rtime+rmap (4)

其中α1、α2、α3用于協調為各獎勵分量所占的權重;

1-3、定義狀態空間S

在本發明所構建的水下航行器仿真環境中,狀態空間由水下航行器對環境的幾個觀察分量構成,即狀態空間可相應定義為S={obs1,obs2,...,obsn},n為觀察分量的數量,其中包括:每個時刻水下航行器與水面的距離、水下航行器重心所在水平面內投影點到所在到上浮成功區域中心在該水平面投影點的距離、水下航行器的艏向角與俯仰角、水下航行器艉部推進器輸出力的大小、水下航行器艉部水平舵舵角與垂直舵舵角的大小,以及水下航行器上的四個聲吶對周圍障礙物的探測反饋;

1-4、定義動作空間

水下航行器的三個執行機構分別為艉部推進器、艉部水平舵以及艉部垂直舵;本發明所提出的控制算法通過建立從水下航行器的各觀察量到控制推進器輸出力的大小、兩組舵面的偏轉角度的非線性映射,定義動作空間為A={F,Dθ,Dψ}其中,F為推進器輸出力的大小,Dθ,Dψ為水平舵以及垂直舵的偏轉角度;

2、上浮控制算法訓練

(1)、網絡參數初始化階段:

(1-1)、設定神經網絡包括評估網絡和目標網絡,評估網絡中包括演員網絡和評論家網絡1、評論家網絡2,目標網絡中包括演員網絡和評論家網絡1、評論家網絡2;隨機初始化各網絡參數:

評估演員網絡參數θπ、目標演員網絡參數θπ′;評估評論家網絡1參數目標評論家網絡1參數評估評論家網絡2參數目標評論家網絡2參數評估演員網絡的輸出值為π(s|θπ),目標演員網絡的輸出為π′(s|θπ′),評估評論家網絡1輸出為目標評論家網絡1的輸出為評估評論家網絡2輸出為目標評論家網絡2的輸出為

(1-2)、初始化訓練過程相關超參數:目標網絡軟替代更新頻率參數τ;交互經驗緩存空間尺寸M;專家經驗緩存空間尺寸D;每個時間步從M與D兩個經驗回放緩存空間采樣得到的轉移過程總數為batch,獎勵折損率γ;

(2)預訓練階段:

(2-1)、將若干條控制水下航行器成功上浮到目標區域的episode作為專家數據加載到專家經驗回放緩存空間中永久存儲;其中,各episode中單步轉移過程以(st-1,at,rt,st,done)的形式存儲;其中st-1為上一時刻狀態、at為當前時刻采取的動作、rt為當前時刻獲得的獎勵值、st為當前時刻狀態、done為當時刻是否觸發任務終止條件的標志位;

(2-2)、經驗回放緩存中的單步轉移過程在網絡學習過程中被采樣的概率正比于其優先級pi,被采樣的概率計算方式為:

其中,ρ為調節優先級影響大小的指數因子;k為經驗回放緩存中已有的轉移過程的數目;而pi的計算方式為:

其中,λ3為調節貢獻度的權重值;Q(si,aiQ)為評估評論家網絡對某第i個狀態-動作對的輸出值;為對a求取梯度;δi為此時刻的單步轉移過程與上一時刻單步轉移過程的時序誤差值:

δi=r+γmaxa′Q(s′,a′|θQ′)-Q(s,a|θ′) (8)

∈為一個正常數,r為前文的獎勵函數值;γ為獎勵折損因子;Q(s′,a′|θQ′)為目標評論家網絡根據下一時刻狀態-動作對(s′,a′)的輸出值;Q(s,a|θ′)為目標評論家網絡根據當前時刻狀態-動作對(s,a)的輸出值;

(2-3)、開始預訓練:在這個階段網絡只使用專家經驗回放緩存中存儲的轉移過程進行網絡的更新,并不與任務環境進行交互,設定預訓練的步數npre;在學習過程中,評估評論家的兩個網絡及評估演員網絡的損失函數被設計為:

為經由兩個評論家網絡計算得到的單步轉移過程loss函數,為梯度算子,即對評估演員網絡的網絡參數求取梯度,式(9)中計算評論家網絡的第一項L1Q)為單步轉移過程的損失函數,其具體的計算方式為:

式(12)、(13)中表明了本發明中雙評論家網絡的運算方式,所構建的兩組評論家網絡彼此網絡參數不共享,且更新方式也彼此獨立,其中,r為前文的獎勵函數值;γ為獎勵折損因子,代表1號目標評論家網絡根據目標演員網絡的輸出而做出的輸出,代表2號目標評論家網絡根據目標演員網絡的輸出而做出的輸出,π′(s′|θπ′)即為目標演員網絡根據下一時刻狀態s′做出的輸出;分別為1、2號評估評論家網絡根據智能體在當前時刻狀態-動作對(s,a)的輸出;而在獲取演員網絡所需的Q(s,a)值時,通過取兩評論家網絡輸出值中的最小值作為用于式(10)中J(θπ)的Q值;

另外,式(10)中也包含了多步轉移過程之間的信息LnQ);計算n步轉移過程損失函數的計算方式為:

λ1、λ2為調節單步、n步轉移過程影響損失函數的比重,為對評估演員網絡輸出取梯度運算,并與兩個評估評論家網絡輸出的最小值做乘積,其中Q(s′n-1,π′(s′|θπ′)|θQ′)及Q(s,π(s)|θQ)的計算如(12)(13)所示;損失函數中的與為網絡的L2正則化項;

最后,每個時間步對所有目標網絡采取軟更新,其計算方式為:

θπ′=τθπ′+(1-τ)θπ′ (15)

其中,θπ′為目標演員網絡參數,為目標評論家網絡參數,τ為軟更新因子;

(3)正式訓練階段:

(3-1)、預訓練完成后,開始實際控制水下航行器與仿真任務環境交互;每次訓練過程的開始時,水下航行器起點被設置為上浮成功區域以下、遠離上浮成功區域的任意一點,并且水下航行器的初始艏向角ψ也是隨機的;

(3-2)、水下航行器將當前通過觀測得到的狀態空間S的一條向量加載到評估演員網絡,得到網絡的輸出后與動作選擇噪聲疊加后得到選擇的動作at=π(st-1,θπ)+nt,其中nt為加入的高斯噪聲,at即為水下航行器推進器輸出力的大小及艉部垂直舵角、水平舵舵角的角度值;仿真任務環境根據水下航行器此時的實際狀態反饋給水下航行器單步獎勵值rt;算法將與任務環境交互產生的單步轉移過程(st-1,at,rt,st)存放在交互經驗回放緩存M中;

(3-3)、每個時間步后,按照公式(6)計算得到的采樣概率隨機從水下航行器交互經驗回放緩存M與專家經驗回放緩存D中采樣,并將得到的batch條混合數據,依照與步驟(2-3)的方式進行各網絡的參數更新;

(3-4)、通過(3-2)、(3-3)不斷迭代訓練,直至達到預設的仿真步數;通過查看每個episode的獎勵收斂情況及水下航行器完成環境任務的成功次數判斷算法的控制性能。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202110262597.7/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 少妇特黄v一区二区三区图片| 精品国产伦一区二区三区免费| 丰满岳乱妇bd在线观看k8| 97香蕉久久国产超碰青草软件| 久久99国产精品视频| 亚欧精品在线观看| 国产呻吟久久久久久久92| 91视频国产一区| 久久精品国产96| 国产乱人乱精一区二视频国产精品| 素人av在线| 亚洲精品主播| 国产二区视频在线播放| 国产精品视频久久久久| 精品久久综合1区2区3区激情| 国产97在线播放| 国产无遮挡又黄又爽又色视频| 电影午夜精品一区二区三区| 国产日韩欧美自拍| 日韩一级精品视频在线观看| 久久99精品国产麻豆宅宅| 免费精品一区二区三区第35| 午夜片在线| 免费91麻豆精品国产自产在线观看| 国产亚洲精品久久久久久网站| 91精品综合在线观看| 天天干狠狠插| 国产精品久久人人做人人爽| 狠狠躁夜夜躁xxxxaaaa| 国产在线观看二区| av午夜在线观看| 日韩一级在线视频| 97国产精品久久| 狠狠色噜噜狠狠狠狠2021天天| 日本大码bbw肉感高潮| 国产精品一区二区免费 | 91久久一区二区| 国产精品5区| 国产高清不卡一区| 69精品久久| 99国产精品99久久久久久粉嫩| 午夜电影三级| 国产一区欧美一区| 丰满岳乱妇bd在线观看k8| 69久久夜色精品国产69乱青草 | 91精品免费观看| 激情欧美日韩| 午夜激情看片| 国产91热爆ts人妖在线| 综合久久激情| 91狠狠操| 17c国产精品一区二区| 国产精品一区在线观看你懂的 | 日韩欧美国产精品一区| 97人人澡人人添人人爽超碰| 国产91在线拍偷自揄拍| 玖玖精品国产| 久久人人爽爽| 国产69精品福利视频| 在线国产一区二区三区| 国产日韩欧美精品一区二区| 亚洲福利视频二区| 国产精品日韩电影| 狠狠躁夜夜躁人人爽天天天天97| 国产精品视频一区二区三| 国产亚洲精品久久777777| 国产69精品99久久久久久宅男| 日本一区二区在线电影| 国产一级二级在线| 日本一区二区三区中文字幕| 精品国产一区二区三区久久久久久| 国产99久久久久久免费看| 热久久国产| 久久久久亚洲精品视频| 午夜电影理伦片2023在线观看| 老太脱裤子让老头玩xxxxx | 亚洲国产另类久久久精品性| 91在线一区| 日韩精品一区二区免费| 日韩a一级欧美一级在线播放| 国产亚洲精品久久久久久网站| 国产一区免费在线| 午夜社区在线观看| 国产天堂第一区| 大bbw大bbw超大bbw| 久久99国产精品视频| 亚洲第一天堂无码专区| 亚洲精品一区在线| 日韩精品中文字幕一区| 一区二区久久精品| 国产欧美日韩中文字幕| 国产69精品久久久久久久久久| 欧美久久精品一级c片| 日本一区二区三区免费播放| 精品一区在线观看视频| 国产精品国产亚洲精品看不卡15| 亚洲国产精品一区二区久久hs| 久久国产精品视频一区| 岛国黄色网址| 欧美日韩国产三区| 国产一区日韩一区| 国产一区二区极品| 久久69视频| 国内精品99| 亚洲精品久久久久久久久久久久久久| 国产一二区在线观看| 日本一区二区免费电影| 亚洲精品久久久久不卡激情文学| 日韩一区二区中文字幕| 日韩av在线免费电影| 久久福利视频网| 欧美日韩国产区| 大桥未久黑人强制中出| 欧美乱偷一区二区三区在线| 久久精品综合| 日韩精品一区二区三区不卡| 国产香蕉97碰碰久久人人| 国产精品欧美一区二区三区奶水| 久久精品亚洲精品国产欧美| 欧美一区二区三区白人| 国产乱xxxxx97国语对白| 国产精品久久亚洲7777| 99久久免费精品国产男女性高好| 99久久国产综合精品麻豆 | 免费视频拗女稀缺一区二区| 色综合久久精品| 欧美久久精品一级c片| 亚洲精品色婷婷| 88国产精品欧美一区二区三区三| 久久精品综合| 日韩av中文字幕第一页| 日韩av不卡一区二区| 欧美一区二三区人人喊爽| 久久人91精品久久久久久不卡| 国产午夜三级一区二区三| 91麻豆精品国产91久久久久| 午夜电影毛片| 国产色婷婷精品综合在线播放| 91制服诱惑| 国产精品国产亚洲精品看不卡15 | 国产一区二区片| 国产精品黑色丝袜的老师| 国产在线不卡一区| 午夜伦全在线观看| 亚洲欧美国产精品久久| 曰韩av在线| 91久久国语露脸精品国产高跟 | 99久久国产综合精品女不卡| 丝袜脚交一区二区| 日韩精品一区二区三区中文字幕| 日本一二三区视频| 久久久久久国产一区二区三区| 91香蕉一区二区三区在线观看| 99精品区| 国产精品国产三级国产专播精品人 | 国产理论一区二区三区| 欧美精品久久一区| 精品福利一区二区| 日韩精品免费播放| 一色桃子av| 香蕉av一区二区三区| 亚洲精品久久久久中文字幕欢迎你 | 肉丝肉足丝袜一区二区三区| 国产欧美一区二区三区免费看 | 国产午夜三级一二三区| 国产精品一区亚洲二区日本三区 | 免费看大黄毛片全集免费| 国产精品日韩高清伦字幕搜索| 中文字幕日韩一区二区| 国产精品久久久久久久妇女| 精品中文久久| 娇妻被又大又粗又长又硬好爽 | 国产精品国产三级国产专区53| 国产麻豆91欧美一区二区| 久久99久国产精品黄毛片入口| av午夜剧场| 99久久免费精品国产男女性高好| 鲁丝一区二区三区免费观看| 手机看片国产一区| 一区二区三区香蕉视频| 好吊色欧美一区二区三区视频 | 伊人av中文av狼人av| 欧美精品在线观看视频| 国产精品一区二区在线观看免费| 欧美精品国产一区二区| 国产色99| 亚洲精品一品区二品区三品区| 中文字幕制服狠久久日韩二区| 国产理论片午午午伦夜理片2021 | 亚洲自拍偷拍一区二区三区| 欧美日韩中文不卡| 日本激情视频一区二区三区| 一区二区91| 久久精品—区二区三区| 91国产在线看| 香港三日三级少妇三级99| 亚洲综合日韩精品欧美综合区| 玖玖精品国产| 久久99国产综合精品| 欧美一区二区三区久久综合| 国产一区在线免费观看| 午夜伦情电午夜伦情电影| 在线观看黄色91| 欧美色图视频一区| 久久网站精品| 精品久久香蕉国产线看观看gif | 午夜一区二区三区在线观看| 久久国产欧美日韩精品| 视频一区二区中文字幕| 欧美性xxxxx极品少妇| 欧美日韩国产精品综合| 91久久国语露脸精品国产高跟| 狠狠色噜狠狠狠狠| 91黄色免费看| 国产精品视频一二区| 久久不卡精品| 91精品啪在线观看国产手机| 日韩av中文字幕一区二区| 午夜毛片在线观看| 久久久久久亚洲精品中文字幕| 欧美日韩一区二区三区四区五区| 中文字幕一区一区三区| 午夜av电影网| 久久午夜精品福利一区二区| 精品免费久久久久久久苍| 亚洲欧美日韩另类精品一区二区三区| 亚洲久久在线| 亚洲1区在线观看| 欧美性二区| 一级女性全黄久久生活片免费| 午夜肉伦伦影院九七影网| 亚洲精品久久久久久久久久久久久久 | 国产一二区在线| 国产无遮挡又黄又爽免费网站| 欧美一区二区三区不卡视频| 午夜爽爽爽男女免费观看| 欧美xxxxhdvideos| 996久久国产精品线观看| 午夜av片| 北条麻妃久久99精品| 午夜诱惑影院| 午夜激情在线播放| 欧美一区二区三区不卡视频| 国产日韩欧美一区二区在线观看| 日本精品一区二区三区在线观看视频| 亚洲神马久久|