[發(fā)明專利]一種基于強化學(xué)習(xí)的水下無人航行器安全機會路由方法及裝置有效
| 申請?zhí)枺?/td> | 202111176454.0 | 申請日: | 2021-10-09 |
| 公開(公告)號: | CN114025405B | 公開(公告)日: | 2023-07-28 |
| 發(fā)明(設(shè)計)人: | 王桐;崔立佳;高山;陳立偉 | 申請(專利權(quán))人: | 哈爾濱工程大學(xué) |
| 主分類號: | H04W40/12 | 分類號: | H04W40/12;H04L45/02 |
| 代理公司: | 哈爾濱市陽光惠遠知識產(chǎn)權(quán)代理有限公司 23211 | 代理人: | 張宏威 |
| 地址: | 150000 黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 強化 學(xué)習(xí) 水下 無人 航行 安全 機會 路由 方法 裝置 | ||
1.一種基于強化學(xué)習(xí)的水下無人航行器安全機會路由方法,其特征在于,所述方法包括:
利用水下無人航行器向通信范圍內(nèi)初次篩選節(jié)點,并根據(jù)初步篩選的節(jié)點建立信任評估模型;
將初步篩選的節(jié)點利用信任評估模型進行評估,所述評估模型的評估元素由直接信任值DTValue和間接信任值ITValue兩部分組成;
評估元素輸入模糊邏輯系統(tǒng),獲取評估節(jié)點綜合信任值,評估節(jié)點綜合信任值更新到相遇節(jié)點信任值動態(tài)表中;
根據(jù)模糊邏輯系統(tǒng)輸出的評估節(jié)點綜合信任值,使用強化學(xué)習(xí)進行路由選擇,設(shè)置狀態(tài)-動作值更新函數(shù)和設(shè)置獎勵函數(shù);
所述直接信任值DTValue評估元素選取為:1、通過節(jié)點數(shù)據(jù)包發(fā)送接收時間差推算節(jié)點間相對距離,由節(jié)點間相對距離預(yù)估路徑損耗衡量節(jié)點間通信質(zhì)量;2、節(jié)點熟悉度;3、節(jié)點中繼比;
所述間接信任值DTValue保證對當(dāng)前節(jié)點評價的客觀性,每個節(jié)點維護一個動態(tài)信任值表,記錄其它節(jié)點對自身的綜合信任值數(shù)據(jù),動態(tài)信任值表中數(shù)據(jù)的均值作為間接信任值輸出;
所述間接信任值根據(jù)模糊邏輯系統(tǒng)輸出的評估節(jié)點綜合信任值,使用強化學(xué)習(xí)進行路由選擇、設(shè)置狀態(tài)-動作值更新函數(shù)和獎勵函數(shù),步驟包括:
根據(jù)模糊邏輯的方法確定相遇節(jié)點綜合信任值,使用強化學(xué)習(xí)中Q學(xué)習(xí)策略為消息尋找合適的轉(zhuǎn)發(fā)路徑,狀態(tài)-動作值Q值的更新公式定義如下:
其中,Qd(s,x)為目的節(jié)點為d的數(shù)據(jù)包在節(jié)點s中選擇節(jié)點x作為下一跳轉(zhuǎn)發(fā)節(jié)點的狀態(tài)-動作值,即s向x轉(zhuǎn)發(fā)目的節(jié)點為d的數(shù)據(jù)包對應(yīng)的轉(zhuǎn)發(fā)效用Q值,在進行更新時將存儲在狀態(tài)-動作值表中對應(yīng)的Q值取出代入公式,并將更新后的值重新存入狀態(tài)-動作值表;α為學(xué)習(xí)系數(shù),0≤α≤1;γd(s,x)為在節(jié)點s中向節(jié)點x轉(zhuǎn)發(fā)目的節(jié)點為d的數(shù)據(jù)包所對應(yīng)的動態(tài)折扣因子;Nx表示節(jié)點x的接觸節(jié)點集合,該集合包含節(jié)點x移動過程中遇到的所有節(jié)點,Qd′(x,y)為保證移動機會網(wǎng)絡(luò)安全動態(tài)變化引入的節(jié)點綜合信任值的狀態(tài)-動作值;
所述動態(tài)折扣因子γd(s,x)為
γd(s,x)=γ*eCTValue(s,x)-1,
其中,γ為固定常數(shù),γ∈(0,1];
所述獎勵函數(shù)即為立即回報值,是與節(jié)點綜合信任值相關(guān)的函數(shù),是對成功傳輸?shù)穆窂缴系墓?jié)點的一種正向反饋:
其中,CTValue(s,x)表示節(jié)點s的相遇節(jié)點中節(jié)點x的綜合信譽值;
所述的正向反饋是消息成功送達目的節(jié)點后的反饋。
2.根據(jù)權(quán)利要求1所述的一種基于強化學(xué)習(xí)的水下無人航行器安全機會路由方法,其特征在于,所述水下無人航行器在節(jié)點向通信范圍內(nèi)初次篩選,并根據(jù)初步篩選的節(jié)點建立信任評估模型的過程為:
攜帶消息的水下無人航行器節(jié)點向通信范圍內(nèi)其它節(jié)點發(fā)送廣播,請求其它節(jié)點回饋其節(jié)點信息,獲取數(shù)據(jù)包,根據(jù)對方數(shù)據(jù)包信息中的間接信任值ITValue進行初次篩選,選擇間接信任值超過閾值的節(jié)點作為候選中繼節(jié)點進一步評估。
3.根據(jù)權(quán)利要求1所述的一種基于強化學(xué)習(xí)的水下無人航行器安全機會路由方法,其特征在于,所述由節(jié)點間相對距離預(yù)估路徑損耗衡量節(jié)點間通信質(zhì)量,其任意一對節(jié)點在水聲信道中發(fā)生的路徑損耗A(d,f)為:
A(d,f)=A0dkα1(f)d,
其中,f是頻率,d是距離,A0是單位歸一化常數(shù),k是傳播因子,表示傳播的幾何形狀,α1是吸收因子。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工程大學(xué),未經(jīng)哈爾濱工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111176454.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進式學(xué)習(xí)管理方法及漸進式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





