[發明專利]自適應能耗和延遲的水聲傳感器網絡路由決策方法在審
| 申請號: | 201910325682.6 | 申請日: | 2019-04-22 |
| 公開(公告)號: | CN110113796A | 公開(公告)日: | 2019-08-09 |
| 發明(設計)人: | 蘇毅珊;范榕;張麟 | 申請(專利權)人: | 天津大學 |
| 主分類號: | H04W40/04 | 分類號: | H04W40/04;H04W40/10;H04L12/721;H04B13/02 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 程毓英 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 水聲傳感器網絡 網絡 路由決策 剩余能量 自適應 延遲 能耗 傳感器節點 數據預處理 節點部署 離線訓練 鄰居節點 深度信息 損失函數 網絡參數 初始化 輸入層 源節點 回報 | ||
1.一種基于深度Q網絡的自適應能耗和延遲的水聲傳感器網絡路由決策方法,包括下列的步驟:
(1)以某傳感器節點作為源節點,對從鄰居節點接收到的剩余能量和深度信息通過公式rre=reini/remax和rde=deini/demax進行數據預處理,作為深度Q網絡的輸入層信息,其中reini和deini分別表示某鄰居節點當前的剩余能量和深度,remax和demax分別表示該源節點的所有鄰居節點中具有最大剩余能量和深度的數值;
(2)構造深度Q網絡,包括輸入層、若干隱藏層和輸出層,通過全連接方式連接各層,輸出層輸出Q值,其中Q值表示在某一節點狀態下做出某種行為的獎勵值;
(3)構造損失函數:通過公式L(w)=E[(Qreal-Qesti(si,ai,w))2]得到深度Q網絡的損失函數,其中表示將要更新的獎勵Q值,R(si,ai)表示在狀態si采取行動ai后所獲得的回報,γ表示折扣因子,P(si,ai,si+1)表示在狀態si采取行動ai后轉移到狀態si+1的概率,Q*(si+1,ai+1,w)=maxQesti(si+1,ai+1,w)表示在下一個狀態si+1采取行動ai+1后所能獲得的最大Q值,w是網絡參數;Qesti(si,ai,w)表示在當前狀態si下采取行動ai能夠獲得的Q值;
(4)考慮節點的剩余能量和深度,構造深度Q網絡的回報函數:若當前源節點的下一跳節點是水面接收節點,則回報函數R(si,ai)=100;否則,回報函數R(si,ai)=c+αrre+βrde,其中α和β分別代表限定數據預處理后的剩余能量和深度權重的參數,c的值是α和β的總和且小于100;
(5)初始化深度Q網絡參數;
(6)在將節點部署到水下之前采用離線訓練的方式訓練深度Q網絡,利用公式對損失函數中的網絡參數w進行梯度求導,利用公式更新參數w,其中η∈[0,1];傳感器網絡的狀態信息(包括相鄰節點的連接關系,剩余能量和深度)為初始設定值;網絡訓練結束后,選擇具有最大Q值的節點作為轉發節點,從而獲得源節點到水面接收節點的最優傳遞路徑;
(7)根據傳感器節點初始狀態信息在水下部署傳感器網絡,利用離線訓練得到的深度Q網絡參數和Q值,每獲得一個狀態和行為數據對所對應的損失函數,累積存儲損失梯度直到設置的更新周期到期時通過公式統一更新參數w;通過水下傳感器節點在不同通信階段得到的更新狀態信息,周期性在線訓練深度Q網絡,修正深度Q網絡參數并得到更新后的Q值;選擇具有最大Q值的節點作為轉發節點,從而獲得不同節點狀態下的源節點到水面接收節點的最優傳遞路徑;直到網絡壽命終結,深度Q網絡更新訓練結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910325682.6/1.html,轉載請聲明來源鉆瓜專利網。





