[發明專利]一種基于強化學習的無線視頻低時延抗干擾傳輸方法有效
| 申請號: | 202011107882.3 | 申請日: | 2020-10-16 |
| 公開(公告)號: | CN112291495B | 公開(公告)日: | 2021-08-03 |
| 發明(設計)人: | 肖亮;林海彬;肖奕霖;林紫涵 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | H04N7/10 | 分類號: | H04N7/10;H04N21/2343 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙) 35200 | 代理人: | 馬應森 |
| 地址: | 361005 福建*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 無線 視頻 低時延 抗干擾 傳輸 方法 | ||
1.一種基于強化學習的無線視頻低時延抗干擾傳輸方法,其特征在于包括以下步驟:
步驟1:網絡初始化及參量定義:
令θ1=h1h2...hi,i≥0,θ1初始值為構造一個網絡權重為θ1的神經網絡A;令θ2=f1f2...fi,i≥0,θ2初始值為構造一個網絡權重為θ2的神經網絡C;記通信信道系統可用信道為N個,所用通信信道為第c個;設視頻發送方和接收方通信時的信號發射功率為p,最大信號發射功率為均勻量化為M個等級;設傳輸的視頻編碼碼率為R,最小視頻編碼碼率為
步驟2:在第k時隙,視頻接收方利用導頻信息并通過信道估計獲得第k時隙的信噪比及RSSI信息,分別記為r(k)和g(k),記錄上一時隙通信信道c(k-1);令系統觀測狀態s(k)=[r(k),g(k),c(k-1)];
步驟3:將s(k)輸入所述神經網絡A,網絡輸出各個策略的長期效益值,即Q值,采用Softmax回歸模型對各個策略的Q值進行歸一化處理,得到策略的概率分布π(s(k),A,θ1),根據π(s(k),A,θ1)進行采樣得到視頻傳輸策略a=[a1,a2,a3],并將視頻傳輸策略a所對應的概率取對數得到的數值記為
步驟4:視頻接收方通過反饋信道Y將由步驟3得到的視頻傳輸策略a反饋給視頻發送方,視頻發送方收到視頻傳輸策略a后立即改變視頻的視頻編碼碼率、傳輸信道和功率;視頻接收方等待t秒,并計算t秒內的BER,記為b,計算t秒內平均數據包時延,記為l;
步驟5:按下式計算視頻傳輸策略a的即時收益u:
其中,w為時延指標權重,z1、z2為常數,B為誤碼率閾值;
步驟6:將步驟2得到的s(k)輸入所述神經網絡C,將網絡的輸出記為V(k);視頻接收方根據步驟2得到s(k+1),并將s(k+1)作為所述神經網絡C的輸入,將此時的網絡輸出記為V(k+1);令所述神經網絡C評判所述神經網絡A生成的策略得分為I:
I=u+γV(k+1)-V(k)
其中,γ為算法的長期效益折扣因子;
步驟7:對第k時隙所述神經網絡A的權重參數θ1和所述神經網絡C的權重參數θ2進行更新操作;
計算損失值F(θ1):
通過反向傳播算法計算損失值F(θ1)對所述神經網絡A每一個參數的梯度,記為采用深度學習模型優化算法Adam算法,根據梯度更新深度所述神經網絡A的權重參數θ1;
計算損失值F(θ2):
F(θ2)=I2
通過反向傳播算法計算損失值F(θ2)對深度所述神經網絡C每一個參數的梯度,記為采用深度學習模型優化算法Adam算法,根據梯度更新深度所述神經網絡C的權重參數θ2;
步驟8:重復步驟2~7,直到誤碼率b<B且通信時延l<L。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011107882.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自旋轉型家庭燒烤裝置
- 下一篇:一種前端設備目錄獲取方法及裝置





