[發明專利]一種基于強化學習的設備到設備的鄰近服務方法有效
| 申請號: | 202011074638.1 | 申請日: | 2020-10-09 |
| 公開(公告)號: | CN112272353B | 公開(公告)日: | 2021-09-28 |
| 發明(設計)人: | 郭天昊;岳文淵;張鋼;王倩;郭大波 | 申請(專利權)人: | 山西大學 |
| 主分類號: | H04W4/021 | 分類號: | H04W4/021;H04W4/50;H04W4/70;H04L29/08;G06N3/04 |
| 代理公司: | 北京市廣友專利事務所有限責任公司 11237 | 代理人: | 張仲波 |
| 地址: | 030091*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 設備 鄰近 服務 方法 | ||
1.一種基于強化學習的設備到設備的鄰近服務方法,其特征在于,包括以下步驟:
S1、服務請求設備發送服務請求信號,通過鄰近的服務提供設備,將所述服務請求信號傳送給無法直接通信的移動通信基站;
S2、所述移動通信基站根據所述服務請求設備與所有服務提供設備的連接通信歷史,對具備服務條件的服務提供設備進行評分和排序;
S3、所述移動通信基站根據排序結果為所述服務請求設備選擇預設數量的備選服務提供設備;
S4、當所述服務請求設備與所述備選服務提供設備移動到通信距離以內時,所述備選服務提供設備開始與所述服務請求設備進行通信并提供服務;
S5、若當前備選服務提供設備移動超出通信距離時,所述服務請求設備連接到所述移動通信基站選擇的下一個備選服務提供設備,同時重復步驟S2和步驟S3,為所述服務請求設備重新選擇預設數量的備選服務提供設備;
所述步驟S2包括:
建立基于強化學習的卷積神經網絡,對所述服務請求設備與所有服務提供設備的連接通信歷史進行學習;
每隔預設時間更新目標卷積神經網絡中的預測參數;
利用更新的卷積神經網絡從所有服務提供設備中預測出性能更優、功耗更低的服務提供設備,并進行排序;
其中,所述性能更優是指所述服務提供設備的接入時間更長、中斷時間更短;
所述步驟S2具體包括:
利用卷積神經網絡表示行為-值函數;
對所述卷積神經網絡進行初始化,包括初始化經驗池;
利用ε-greedy策略隨機選擇服務提供設備;
利用異策略的時間差分方法對值函數進行更新;
對歷史通信數據進行預處理后存放到經驗池中;
從經驗池中采樣數據,并根據采樣數據更新預測參數;
利用更新的卷積神經網絡對服務提供設備進行預測。
2.根據權利要求1所述的基于強化學習的設備到設備的鄰近服務方法,其特征在于,所述具備服務條件的服務提供設備,其判定條件為:
所述服務提供設備與所述服務請求設備之間的距離小于最小信號與干擾加噪聲比SINR所要求的最大通信距離。
3.根據權利要求1所述的基于強化學習的設備到設備的鄰近服務方法,其特征在于,在對所述卷積神經網絡進行更新的過程中,將所述服務提供設備的接入時間與中斷時間的差值作為獎勵值。
4.根據權利要求1所述的基于強化學習的設備到設備的鄰近服務方法,其特征在于,所述鄰近服務方法還包括:
所述服務請求設備與所述服務提供設備通信中斷或服務完成后,本次服務的數據在中斷時間內傳送至所述移動通信基站,為所述移動通信基站下一次評分和排序提供依據。
5.根據權利要求1所述的基于強化學習的設備到設備的鄰近服務方法,其特征在于,所述鄰近服務方法還包括:
所述服務提供設備具有最大連接數量,同時僅為不超出所述最大連接數量的所述服務請求設備提供服務,超出所述最大連接數量的所述服務請求設備基于剩余時間緊迫性進行排序等待。
6.根據權利要求5所述的基于強化學習的設備到設備的鄰近服務方法,其特征在于,所述鄰近服務方法還包括:
所述服務提供設備連接的所述服務請求設備超出最大連接數量后,所述移動通信基站從所述備選服務提供設備中優選當前排序最前的服務提供設備繼續為所述服務請求設備提供服務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山西大學,未經山西大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011074638.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種塑料管熔接設備
- 下一篇:一種用于松材線蟲病疫木的監測設備





