[發(fā)明專利]一種基于Q學(xué)習(xí)的無(wú)線網(wǎng)絡(luò)視頻傳輸自適應(yīng)控制方法有效

申請(qǐng)?zhí)枺?/td>	201810372915.3	申請(qǐng)日：	2018-04-24
公開(kāi)（公告）號(hào)：	CN108391143B	公開(kāi)（公告）日：	2020-10-27
發(fā)明（設(shè)計(jì)）人：	朱曉榮;董天才;邵喆丹	申請(qǐng)（專利權(quán)）人：	南京郵電大學(xué)
主分類號(hào)：	H04N21/2662	分類號(hào)：	H04N21/2662;H04N21/238;H04W28/22;H04W28/24;H04L12/825
代理公司：	南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) 32249	代理人：	楊曉玲
地址：	210003 江蘇***	國(guó)省代碼：	江蘇;32
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	一種基于學(xué)習(xí) 無(wú)線網(wǎng)絡(luò) 視頻傳輸自適應(yīng) 控制方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書(shū)】：

1.一種基于Q學(xué)習(xí)的無(wú)線網(wǎng)絡(luò)視頻傳輸自適應(yīng)控制方法，其特征是，包括如下步驟：

步驟1)根據(jù)視頻傳輸?shù)木唧w場(chǎng)景建立基于馬爾科夫決策的視頻傳輸控制模型，將決策時(shí)刻、動(dòng)作空間、狀態(tài)空間和效用函數(shù)映射到系統(tǒng)的參數(shù)中，建立MDP模型；

步驟2)使用Q學(xué)習(xí)算法對(duì)模型進(jìn)行求解，依靠網(wǎng)絡(luò)控制器實(shí)時(shí)的搜集網(wǎng)絡(luò)參數(shù)，通過(guò)matlab擬合確定各個(gè)網(wǎng)絡(luò)參數(shù)對(duì)于服務(wù)質(zhì)量QoS的影響因子得到服務(wù)質(zhì)量QoS的歸一化值表達(dá)式后構(gòu)造用戶體驗(yàn)質(zhì)量QoE的預(yù)測(cè)公式，構(gòu)建出系統(tǒng)狀態(tài)參數(shù)；

構(gòu)建Q值表并依據(jù)Q值迭代公式和回報(bào)函數(shù)對(duì)Q值表進(jìn)行更新，直至得到最優(yōu)的發(fā)送策略；

所述步驟2)的具體內(nèi)容為：

21)初始化數(shù)據(jù)，分別設(shè)定學(xué)習(xí)速率初始值α₀，折扣因子γ，探索概率初始值ε₀，初始的視頻發(fā)送速率；

22)獲取當(dāng)前的狀態(tài)，當(dāng)視頻數(shù)據(jù)到達(dá)時(shí)，通過(guò)適配器搜集網(wǎng)絡(luò)時(shí)延、丟包、時(shí)延抖動(dòng)以及緩存區(qū)長(zhǎng)度信息，并計(jì)算得到動(dòng)作前的用戶體驗(yàn)質(zhì)量QoE值，得到系統(tǒng)狀態(tài)(i,j),i＝0,1,2,…,m-1；j＝0,1,2,…,n；其中i表示用戶體驗(yàn)質(zhì)量QoE的狀態(tài)，j表示緩沖區(qū)隊(duì)列長(zhǎng)度，m表示用戶體驗(yàn)質(zhì)量QoE的總狀態(tài)數(shù)，n表示隊(duì)列總長(zhǎng)度；

23)獲得Q值：計(jì)算當(dāng)前狀態(tài)下所有可能發(fā)生的動(dòng)作a₁,a₂,...,a_n所對(duì)應(yīng)的Q值Q(s,a₁)，Q(s,a₂),…,Q(s,a_n)，其中動(dòng)作a_i，1≤i≤n，表示對(duì)發(fā)送速率的調(diào)整，選擇一個(gè)與網(wǎng)絡(luò)狀態(tài)相匹配的發(fā)送速率，s表示系統(tǒng)當(dāng)前狀態(tài)，得到當(dāng)前網(wǎng)絡(luò)狀態(tài)下對(duì)應(yīng)不同發(fā)送速率的Q值；

24)動(dòng)作選擇：以Boltzmann搜索算法中定義的概率來(lái)選擇發(fā)送速率模式的選取，本次決策得到的用戶體驗(yàn)質(zhì)量QoE值和上次決策的用戶體驗(yàn)質(zhì)量QoE值計(jì)算可得回報(bào)值。

2.根據(jù)權(quán)利要求1所述的一種基于Q學(xué)習(xí)的無(wú)線網(wǎng)絡(luò)視頻傳輸自適應(yīng)控制方法，其特征是，所述步驟1)中采用馬爾科夫決策過(guò)程模型應(yīng)用到視頻傳輸?shù)乃俾收{(diào)解時(shí)需要將決策時(shí)刻、動(dòng)作空間、狀態(tài)空間和效用函數(shù)映射到系統(tǒng)的參數(shù)中，整個(gè)映射過(guò)程如下：

a)決策時(shí)刻：在每一幀開(kāi)始時(shí)獲得當(dāng)前時(shí)刻系統(tǒng)的狀態(tài)，每一幀的長(zhǎng)度為T_f；所述系統(tǒng)的狀態(tài)用兩個(gè)參數(shù)進(jìn)行描述，包括用服務(wù)質(zhì)量QoS所衡量的用戶體驗(yàn)質(zhì)量和接收端緩沖區(qū)的隊(duì)列長(zhǎng)度；

在獲得系統(tǒng)的狀態(tài)信息后，做出決策動(dòng)作，選擇發(fā)送速率模式，即選擇在一幀時(shí)間內(nèi)發(fā)送的數(shù)據(jù)包的個(gè)數(shù)；

b)獲得狀態(tài)空間：用服務(wù)質(zhì)量QoS所衡量的用戶體驗(yàn)質(zhì)量可由下式得到：Qa是一個(gè)不同網(wǎng)絡(luò)類型反映不同QoE值的常量，A表示視頻的分辨率等級(jí)，常量R反應(yīng)視頻幀結(jié)構(gòu)中GOP的長(zhǎng)度，用戶體驗(yàn)質(zhì)量QoE的取值在[0,5]范圍內(nèi)，根據(jù)需求把用戶體驗(yàn)質(zhì)量QoE平均劃分為m個(gè)區(qū)間，則每個(gè)區(qū)間的長(zhǎng)度為用戶體驗(yàn)質(zhì)量QoE有m個(gè)狀態(tài)；

假設(shè)隊(duì)列長(zhǎng)度為n，可知隊(duì)列長(zhǎng)度有n+1個(gè)狀態(tài)，包含隊(duì)列長(zhǎng)度為零的情況；所述隊(duì)列長(zhǎng)度指當(dāng)時(shí)隊(duì)列中包含的數(shù)據(jù)包數(shù)目，與接收端緩沖區(qū)的數(shù)據(jù)包進(jìn)入速率和播放速率有關(guān)；所述緩沖區(qū)的數(shù)據(jù)包進(jìn)入速率為發(fā)送端速率和丟包率的差值；

系統(tǒng)共有m(n+1)個(gè)狀態(tài)，得到系統(tǒng)的狀態(tài)空間S＝{(i,j)|i＝0,1,2,…,m-1；j＝0,1,2,…,n}；

c)動(dòng)作空間：某時(shí)刻動(dòng)作a定義為系統(tǒng)狀態(tài)為(i,j)時(shí)對(duì)于發(fā)送速率的調(diào)整，選擇一個(gè)與網(wǎng)絡(luò)狀態(tài)相匹配的發(fā)送速率；

假設(shè)有X種可供選擇的發(fā)送速率模式，每一個(gè)發(fā)送速率是指在一個(gè)時(shí)間間隔內(nèi)所發(fā)送的數(shù)據(jù)包的個(gè)數(shù)，動(dòng)作空間可以表示為a＝{1,2,…,X}，該集合是一個(gè)有限行動(dòng)集，存在一個(gè)最優(yōu)策略；

d)效用函數(shù)：將回報(bào)函數(shù)r作為效用函數(shù)，MDP模型的效用函數(shù)為ρ(s_t,s_t+1,a_t)＝r(τ(t),b(t),p(t))，τ(t),b(t),p(t)是狀態(tài)空間的參數(shù)，分別為時(shí)延長(zhǎng)度、接收端緩沖區(qū)的長(zhǎng)度和丟包率，根據(jù)實(shí)際情況以及經(jīng)驗(yàn)值進(jìn)行調(diào)整；

設(shè)計(jì)回報(bào)函數(shù)為每次動(dòng)作后的用戶體驗(yàn)質(zhì)量QoE增量r(k)＝ΔQoE(k)＝QoE(i′,j′)-QoE(i,j)，其中表示在動(dòng)作a(i,j)作用下系統(tǒng)由狀態(tài)(i,j)轉(zhuǎn)移到了狀態(tài)(i′,j′)，k表示此次動(dòng)作是第k次決策，QoE(i,j)為狀態(tài)(i,j)時(shí)的用戶滿意度，QoE(i′,j′)為狀態(tài)(i′,j′)時(shí)的用戶滿意度；

基于a)-d)形成報(bào)酬函數(shù)：每個(gè)決策時(shí)刻感知探測(cè)得到系統(tǒng)狀態(tài)S后需選擇動(dòng)作a，即每次探測(cè)得到系統(tǒng)狀態(tài)后都要選擇一個(gè)對(duì)應(yīng)的速率模式；動(dòng)作前后的用戶體驗(yàn)的體驗(yàn)有兩種情況：選擇動(dòng)作a后，用戶體驗(yàn)質(zhì)量QoE得到改善，即ΔQoE＞0；選擇動(dòng)作a后，用戶體驗(yàn)質(zhì)量QoE變差，即ΔQoE＜0，定義報(bào)酬函數(shù)為：其中，K表示整個(gè)視頻傳輸過(guò)程所需探測(cè)的總次數(shù)。

3.根據(jù)權(quán)利要求2所述的一種基于Q學(xué)習(xí)的無(wú)線網(wǎng)絡(luò)視頻傳輸自適應(yīng)控制方法，其特征是，所述步驟2)中使用Q學(xué)習(xí)算法對(duì)模型進(jìn)行求解時(shí)，Q學(xué)習(xí)算法的各個(gè)要素與視頻傳輸系統(tǒng)的各個(gè)參數(shù)的對(duì)應(yīng)關(guān)系為：狀態(tài)S對(duì)應(yīng)于MDP模型中狀態(tài)空間，動(dòng)作a對(duì)應(yīng)于MDP模型的動(dòng)作空間，強(qiáng)化信號(hào)對(duì)應(yīng)于MDP模型的效用函數(shù)，環(huán)境對(duì)應(yīng)用于傳輸視頻的無(wú)線網(wǎng)絡(luò)環(huán)境；

Q學(xué)習(xí)通過(guò)以下迭代規(guī)則來(lái)獲得其中，α是Q學(xué)習(xí)的學(xué)習(xí)速率，γ∈[0,1)是折扣因子，Q_t(s,a)是在s狀態(tài)時(shí)采取動(dòng)作a所對(duì)應(yīng)的Q值，A是動(dòng)作空間，表示所有發(fā)送端所有可選的發(fā)送速率集合，Q_t(s′,a′)是下一步的狀態(tài)s′和下一步動(dòng)作a′對(duì)應(yīng)的Q值；

學(xué)習(xí)的最終目標(biāo)是最大化期望值的長(zhǎng)期累積回報(bào)，即使得報(bào)酬函數(shù)的值最大，使得Q值與長(zhǎng)期回報(bào)函數(shù)相匹配，形成最優(yōu)策略π^*(s)；所述最優(yōu)策略π^*(s)為使得報(bào)酬函數(shù)Reward值最大的一系列發(fā)送速率值。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué)，未經(jīng)南京郵電大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810372915.3/1.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

上一篇：一種視頻增強(qiáng)的方法及相關(guān)設(shè)備
下一篇：一種機(jī)器人

同類專利

專利分類

H 電學(xué)

H04 電通信技術(shù)
H04N 圖像通信，如電視
H04N21-00 可選的內(nèi)容分發(fā)，例如交互式電視，VOD〔視頻點(diǎn)播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器，例如：VOD服務(wù)器；其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備，如STB[機(jī)頂盒]；相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠(yuǎn)程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過(guò)內(nèi)容產(chǎn)生器獨(dú)立于分配過(guò)程實(shí)現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理；內(nèi)容本身
H04N21-81 ..其單媒體部件

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書(shū)；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】