[發(fā)明專利]一種基于深度強(qiáng)化學(xué)習(xí)的水下無線傳感器網(wǎng)絡(luò)拓?fù)淇刂品椒?/span>有效
| 申請(qǐng)?zhí)枺?/td> | 202111121811.3 | 申請(qǐng)日: | 2021-09-24 |
| 公開(公告)號(hào): | CN113923123B | 公開(公告)日: | 2023-06-09 |
| 發(fā)明(設(shè)計(jì))人: | 劉春鳳;趙昭;曲雯毓;余濤;王子恒 | 申請(qǐng)(專利權(quán))人: | 天津大學(xué) |
| 主分類號(hào): | H04L41/12 | 分類號(hào): | H04L41/12;H04W40/24;G06N3/092;G06N3/088;G06N3/084;G06N3/0464;H04W4/38;H04W28/08 |
| 代理公司: | 天津市北洋有限責(zé)任專利代理事務(wù)所 12201 | 代理人: | 韓帥 |
| 地址: | 300072*** | 國(guó)省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 強(qiáng)化 學(xué)習(xí) 水下 無線 傳感器 網(wǎng)絡(luò) 拓?fù)?/a> 控制 方法 | ||
1.一種基于深度強(qiáng)化學(xué)習(xí)的水下無線傳感器網(wǎng)絡(luò)拓?fù)淇刂品椒ǎㄈ缦虏襟E:
S1.離線訓(xùn)練階段
步驟101:拓?fù)淇刂浦行墨@取已經(jīng)完成部署的水面匯聚節(jié)點(diǎn)和水下傳感器節(jié)點(diǎn)的坐標(biāo)信息,并根據(jù)這些坐標(biāo)信息生成拓?fù)淇刂祁A(yù)定順序;
步驟102:拓?fù)淇刂浦行臑槌跏季W(wǎng)絡(luò)拓?fù)渲械拿織l鏈路隨機(jī)生成傳輸成功概率,同時(shí)為每個(gè)水下傳感器節(jié)點(diǎn)隨機(jī)生成剩余能量值;
步驟103:拓?fù)淇刂浦行母鶕?jù)強(qiáng)化學(xué)習(xí)框架按照拓?fù)淇刂祁A(yù)定順序依次為水下傳感器節(jié)點(diǎn)選擇它的數(shù)據(jù)傳輸?shù)南乱惶?jié)點(diǎn),并將該選擇作為當(dāng)前狀態(tài)的卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù);其中:所述步驟103中拓?fù)淇刂浦行臑樗聜鞲衅鞴?jié)點(diǎn)選擇數(shù)據(jù)傳輸?shù)南乱惶?jié)點(diǎn)過程;
步驟301:按照拓?fù)淇刂祁A(yù)定順序,某水下傳感器節(jié)點(diǎn)ni為當(dāng)前狀態(tài)st對(duì)應(yīng)的水下傳感器節(jié)點(diǎn),拓?fù)淇刂浦行睦没谏疃葘W(xué)習(xí)的蒙特卡洛樹搜索方法去計(jì)算當(dāng)前狀態(tài)st的每個(gè)動(dòng)作at的收益其中:
所述步驟301中基于深度學(xué)習(xí)的蒙特卡洛樹搜索方法包含四個(gè)步驟:選擇、擴(kuò)展、模擬和方向傳播:
1)選擇過程:以水下傳感器節(jié)點(diǎn)ni對(duì)應(yīng)當(dāng)前狀態(tài)st作為搜索樹的根節(jié)點(diǎn),當(dāng)前狀態(tài)st的最優(yōu)動(dòng)作由公式1計(jì)算所得;當(dāng)前狀態(tài)st執(zhí)行最優(yōu)動(dòng)作后,轉(zhuǎn)移到由最優(yōu)動(dòng)作決定的下一個(gè)狀態(tài)st+1,這個(gè)狀態(tài)st+1將執(zhí)行動(dòng)作選擇;重復(fù)上述步驟直到到達(dá)一個(gè)之前沒有出現(xiàn)過的狀態(tài),它被稱為葉子狀態(tài);
其中公式1表示如下:
式中at是當(dāng)前狀態(tài)st的一個(gè)動(dòng)作;At是當(dāng)前狀態(tài)st的動(dòng)作集;C是一個(gè)預(yù)先設(shè)定的調(diào)節(jié)系數(shù),且C0;M(st)是相同最優(yōu)動(dòng)作下狀態(tài)st對(duì)應(yīng)的水下傳感器節(jié)點(diǎn)被到達(dá)的次數(shù);M(st,at)是當(dāng)前狀態(tài)st選擇動(dòng)作at的次數(shù);Qπ(st,at)是當(dāng)前狀態(tài)st選擇動(dòng)作at期望收益,它由公式2計(jì)算獲得;p(st,at)是當(dāng)前狀態(tài)st選擇動(dòng)作at的估計(jì)概率,它通過向卷積神經(jīng)網(wǎng)絡(luò)輸入當(dāng)前狀態(tài)st和動(dòng)作at獲得;
其中公式2表示如下:
式中M(st,at)是當(dāng)前狀態(tài)st選擇動(dòng)作at的次數(shù);Qπ'(st,at)是第M(st,at)-1次時(shí)的當(dāng)前狀態(tài)st選擇動(dòng)作at的期望收益;Vt+1(at)表示執(zhí)行動(dòng)作at到達(dá)狀態(tài)st+1后狀態(tài)st+1獲得的期望收益,它通過向卷積神經(jīng)網(wǎng)絡(luò)輸入當(dāng)前狀態(tài)st和動(dòng)作at獲得;
2)擴(kuò)展過程:當(dāng)達(dá)到一個(gè)葉子狀態(tài)時(shí),擴(kuò)展該葉子狀態(tài),直到MCTS搜索次數(shù)達(dá)到設(shè)定的閾值;
3)模擬過程:使用公式1來計(jì)算在擴(kuò)展階段被擴(kuò)展的葉子狀態(tài)的最優(yōu)動(dòng)作;當(dāng)?shù)竭_(dá)最終狀態(tài)shn所對(duì)應(yīng)的水下傳感器節(jié)點(diǎn)時(shí),狀態(tài)shn的期望收益為Vhn由公式3獲得;當(dāng)shn執(zhí)行完動(dòng)作后,網(wǎng)絡(luò)拓?fù)渫瓿缮桑?/p>
其中:最終狀態(tài)shn是拓?fù)淇刂浦行陌凑胀負(fù)淇刂祁A(yù)定順序遍歷h次網(wǎng)絡(luò)中n個(gè)水下傳感器節(jié)點(diǎn):
其中:公式3表示如下:
式中式中ahn是當(dāng)前狀態(tài)shn的一個(gè)動(dòng)作;Ahn是當(dāng)前狀態(tài)shn的動(dòng)作集;Tπ表示通過將已生成的網(wǎng)絡(luò)拓?fù)湟约皩?duì)應(yīng)的網(wǎng)絡(luò)信道和傳輸信息輸入到已有的網(wǎng)絡(luò)模擬器中去計(jì)算獲得的該網(wǎng)絡(luò)拓?fù)鋵?duì)應(yīng)的網(wǎng)絡(luò)生命周期;
4)反向傳播過程:將公式3的模擬獎(jiǎng)勵(lì)回傳給根節(jié)點(diǎn),并更新所經(jīng)過的所有狀態(tài)上的信息;
步驟302:拓?fù)淇刂浦行倪x擇當(dāng)前狀態(tài)st的所有動(dòng)作中具有最大收益的動(dòng)作去作為當(dāng)前狀態(tài)下采取的最佳動(dòng)作;
步驟303:當(dāng)前狀態(tài)st轉(zhuǎn)移到下一個(gè)狀態(tài)st+1,直到所有狀態(tài)被遍歷;
步驟104:卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)集合存儲(chǔ)到訓(xùn)練元組;
步驟105:從訓(xùn)練元組中以隨機(jī)抽樣的方式選擇一組訓(xùn)練數(shù)據(jù)集合去作為訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的輸入,經(jīng)過這次訓(xùn)練完的卷積神經(jīng)網(wǎng)絡(luò)將被更新;在下一次的拓?fù)淇刂七^程中,拓?fù)淇刂浦行睦酶峦昃矸e神經(jīng)網(wǎng)絡(luò)的基于深度學(xué)習(xí)的蒙特卡洛樹搜索方法去計(jì)算動(dòng)作收益;
步驟106:判斷拓?fù)淇刂浦行氖欠襁_(dá)到預(yù)先設(shè)定的自學(xué)習(xí)次數(shù),若是進(jìn)入在線控制階段;否則返回步驟102;
S2、在線控制階段
步驟201:水下傳感器節(jié)點(diǎn)將當(dāng)前網(wǎng)絡(luò)信道和傳輸狀態(tài)的信息包發(fā)送到拓?fù)淇刂浦行模?/p>
步驟202:當(dāng)拓?fù)淇刂浦行慕邮盏剿兴聜鞲衅鞴?jié)點(diǎn)的信息包后,拓?fù)淇刂浦行氖褂门c離線訓(xùn)練部分相同的強(qiáng)化學(xué)習(xí)框架生成網(wǎng)絡(luò)拓?fù)洌?/p>
步驟203:當(dāng)拓?fù)淇刂浦行纳删W(wǎng)絡(luò)拓?fù)浜螅阅軌蚋采w所有水下傳感器節(jié)點(diǎn)的發(fā)射功率發(fā)送網(wǎng)絡(luò)拓?fù)湫畔凰聜鞲衅鞴?jié)點(diǎn)收到網(wǎng)絡(luò)拓?fù)湫畔螅鶕?jù)網(wǎng)絡(luò)拓?fù)湫畔匦逻x擇鄰居節(jié)點(diǎn)進(jìn)行連接,達(dá)到根據(jù)水下通信環(huán)境去進(jìn)行網(wǎng)絡(luò)拓?fù)淇刂频哪康摹?/p>
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于天津大學(xué),未經(jīng)天津大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111121811.3/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





