[發(fā)明專利]一種基于Q學(xué)習(xí)的無(wú)線網(wǎng)絡(luò)視頻傳輸自適應(yīng)控制方法有效
| 申請(qǐng)?zhí)枺?/td> | 201810372915.3 | 申請(qǐng)日: | 2018-04-24 |
| 公開(kāi)(公告)號(hào): | CN108391143B | 公開(kāi)(公告)日: | 2020-10-27 |
| 發(fā)明(設(shè)計(jì))人: | 朱曉榮;董天才;邵喆丹 | 申請(qǐng)(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號(hào): | H04N21/2662 | 分類號(hào): | H04N21/2662;H04N21/238;H04W28/22;H04W28/24;H04L12/825 |
| 代理公司: | 南京瑞弘專利商標(biāo)事務(wù)所(普通合伙) 32249 | 代理人: | 楊曉玲 |
| 地址: | 210003 江蘇*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 學(xué)習(xí) 無(wú)線網(wǎng)絡(luò) 視頻 傳輸 自適應(yīng) 控制 方法 | ||
1.一種基于Q學(xué)習(xí)的無(wú)線網(wǎng)絡(luò)視頻傳輸自適應(yīng)控制方法,其特征是,包括如下步驟:
步驟1)根據(jù)視頻傳輸?shù)木唧w場(chǎng)景建立基于馬爾科夫決策的視頻傳輸控制模型,將決策時(shí)刻、動(dòng)作空間、狀態(tài)空間和效用函數(shù)映射到系統(tǒng)的參數(shù)中,建立MDP模型;
步驟2)使用Q學(xué)習(xí)算法對(duì)模型進(jìn)行求解,依靠網(wǎng)絡(luò)控制器實(shí)時(shí)的搜集網(wǎng)絡(luò)參數(shù),通過(guò)matlab擬合確定各個(gè)網(wǎng)絡(luò)參數(shù)對(duì)于服務(wù)質(zhì)量QoS的影響因子得到服務(wù)質(zhì)量QoS的歸一化值表達(dá)式后構(gòu)造用戶體驗(yàn)質(zhì)量QoE的預(yù)測(cè)公式,構(gòu)建出系統(tǒng)狀態(tài)參數(shù);
構(gòu)建Q值表并依據(jù)Q值迭代公式和回報(bào)函數(shù)對(duì)Q值表進(jìn)行更新,直至得到最優(yōu)的發(fā)送策略;
所述步驟2)的具體內(nèi)容為:
21)初始化數(shù)據(jù),分別設(shè)定學(xué)習(xí)速率初始值α0,折扣因子γ,探索概率初始值ε0,初始的視頻發(fā)送速率;
22)獲取當(dāng)前的狀態(tài),當(dāng)視頻數(shù)據(jù)到達(dá)時(shí),通過(guò)適配器搜集網(wǎng)絡(luò)時(shí)延、丟包、時(shí)延抖動(dòng)以及緩存區(qū)長(zhǎng)度信息,并計(jì)算得到動(dòng)作前的用戶體驗(yàn)質(zhì)量QoE值,得到系統(tǒng)狀態(tài)(i,j),i=0,1,2,…,m-1;j=0,1,2,…,n;其中i表示用戶體驗(yàn)質(zhì)量QoE的狀態(tài),j表示緩沖區(qū)隊(duì)列長(zhǎng)度,m表示用戶體驗(yàn)質(zhì)量QoE的總狀態(tài)數(shù),n表示隊(duì)列總長(zhǎng)度;
23)獲得Q值:計(jì)算當(dāng)前狀態(tài)下所有可能發(fā)生的動(dòng)作a1,a2,...,an所對(duì)應(yīng)的Q值Q(s,a1),Q(s,a2),…,Q(s,an),其中動(dòng)作ai,1≤i≤n,表示對(duì)發(fā)送速率的調(diào)整,選擇一個(gè)與網(wǎng)絡(luò)狀態(tài)相匹配的發(fā)送速率,s表示系統(tǒng)當(dāng)前狀態(tài),得到當(dāng)前網(wǎng)絡(luò)狀態(tài)下對(duì)應(yīng)不同發(fā)送速率的Q值;
24)動(dòng)作選擇:以Boltzmann搜索算法中定義的概率來(lái)選擇發(fā)送速率模式的選取,本次決策得到的用戶體驗(yàn)質(zhì)量QoE值和上次決策的用戶體驗(yàn)質(zhì)量QoE值計(jì)算可得回報(bào)值。
2.根據(jù)權(quán)利要求1所述的一種基于Q學(xué)習(xí)的無(wú)線網(wǎng)絡(luò)視頻傳輸自適應(yīng)控制方法,其特征是,所述步驟1)中采用馬爾科夫決策過(guò)程模型應(yīng)用到視頻傳輸?shù)乃俾收{(diào)解時(shí)需要將決策時(shí)刻、動(dòng)作空間、狀態(tài)空間和效用函數(shù)映射到系統(tǒng)的參數(shù)中,整個(gè)映射過(guò)程如下:
a)決策時(shí)刻:在每一幀開(kāi)始時(shí)獲得當(dāng)前時(shí)刻系統(tǒng)的狀態(tài),每一幀的長(zhǎng)度為Tf;所述系統(tǒng)的狀態(tài)用兩個(gè)參數(shù)進(jìn)行描述,包括用服務(wù)質(zhì)量QoS所衡量的用戶體驗(yàn)質(zhì)量和接收端緩沖區(qū)的隊(duì)列長(zhǎng)度;
在獲得系統(tǒng)的狀態(tài)信息后,做出決策動(dòng)作,選擇發(fā)送速率模式,即選擇在一幀時(shí)間內(nèi)發(fā)送的數(shù)據(jù)包的個(gè)數(shù);
b)獲得狀態(tài)空間:用服務(wù)質(zhì)量QoS所衡量的用戶體驗(yàn)質(zhì)量可由下式得到:Qa是一個(gè)不同網(wǎng)絡(luò)類型反映不同QoE值的常量,A表示視頻的分辨率等級(jí),常量R反應(yīng)視頻幀結(jié)構(gòu)中GOP的長(zhǎng)度,用戶體驗(yàn)質(zhì)量QoE的取值在[0,5]范圍內(nèi),根據(jù)需求把用戶體驗(yàn)質(zhì)量QoE平均劃分為m個(gè)區(qū)間,則每個(gè)區(qū)間的長(zhǎng)度為用戶體驗(yàn)質(zhì)量QoE有m個(gè)狀態(tài);
假設(shè)隊(duì)列長(zhǎng)度為n,可知隊(duì)列長(zhǎng)度有n+1個(gè)狀態(tài),包含隊(duì)列長(zhǎng)度為零的情況;所述隊(duì)列長(zhǎng)度指當(dāng)時(shí)隊(duì)列中包含的數(shù)據(jù)包數(shù)目,與接收端緩沖區(qū)的數(shù)據(jù)包進(jìn)入速率和播放速率有關(guān);所述緩沖區(qū)的數(shù)據(jù)包進(jìn)入速率為發(fā)送端速率和丟包率的差值;
系統(tǒng)共有m(n+1)個(gè)狀態(tài),得到系統(tǒng)的狀態(tài)空間S={(i,j)|i=0,1,2,…,m-1;j=0,1,2,…,n};
c)動(dòng)作空間:某時(shí)刻動(dòng)作a定義為系統(tǒng)狀態(tài)為(i,j)時(shí)對(duì)于發(fā)送速率的調(diào)整,選擇一個(gè)與網(wǎng)絡(luò)狀態(tài)相匹配的發(fā)送速率;
假設(shè)有X種可供選擇的發(fā)送速率模式,每一個(gè)發(fā)送速率是指在一個(gè)時(shí)間間隔內(nèi)所發(fā)送的數(shù)據(jù)包的個(gè)數(shù),動(dòng)作空間可以表示為a={1,2,…,X},該集合是一個(gè)有限行動(dòng)集,存在一個(gè)最優(yōu)策略;
d)效用函數(shù):將回報(bào)函數(shù)r作為效用函數(shù),MDP模型的效用函數(shù)為ρ(st,st+1,at)=r(τ(t),b(t),p(t)),τ(t),b(t),p(t)是狀態(tài)空間的參數(shù),分別為時(shí)延長(zhǎng)度、接收端緩沖區(qū)的長(zhǎng)度和丟包率,根據(jù)實(shí)際情況以及經(jīng)驗(yàn)值進(jìn)行調(diào)整;
設(shè)計(jì)回報(bào)函數(shù)為每次動(dòng)作后的用戶體驗(yàn)質(zhì)量QoE增量r(k)=ΔQoE(k)=QoE(i′,j′)-QoE(i,j),其中表示在動(dòng)作a(i,j)作用下系統(tǒng)由狀態(tài)(i,j)轉(zhuǎn)移到了狀態(tài)(i′,j′),k表示此次動(dòng)作是第k次決策,QoE(i,j)為狀態(tài)(i,j)時(shí)的用戶滿意度,QoE(i′,j′)為狀態(tài)(i′,j′)時(shí)的用戶滿意度;
基于a)-d)形成報(bào)酬函數(shù):每個(gè)決策時(shí)刻感知探測(cè)得到系統(tǒng)狀態(tài)S后需選擇動(dòng)作a,即每次探測(cè)得到系統(tǒng)狀態(tài)后都要選擇一個(gè)對(duì)應(yīng)的速率模式;動(dòng)作前后的用戶體驗(yàn)的體驗(yàn)有兩種情況:選擇動(dòng)作a后,用戶體驗(yàn)質(zhì)量QoE得到改善,即ΔQoE>0;選擇動(dòng)作a后,用戶體驗(yàn)質(zhì)量QoE變差,即ΔQoE<0,定義報(bào)酬函數(shù)為:其中,K表示整個(gè)視頻傳輸過(guò)程所需探測(cè)的總次數(shù)。
3.根據(jù)權(quán)利要求2所述的一種基于Q學(xué)習(xí)的無(wú)線網(wǎng)絡(luò)視頻傳輸自適應(yīng)控制方法,其特征是,所述步驟2)中使用Q學(xué)習(xí)算法對(duì)模型進(jìn)行求解時(shí),Q學(xué)習(xí)算法的各個(gè)要素與視頻傳輸系統(tǒng)的各個(gè)參數(shù)的對(duì)應(yīng)關(guān)系為:狀態(tài)S對(duì)應(yīng)于MDP模型中狀態(tài)空間,動(dòng)作a對(duì)應(yīng)于MDP模型的動(dòng)作空間,強(qiáng)化信號(hào)對(duì)應(yīng)于MDP模型的效用函數(shù),環(huán)境對(duì)應(yīng)用于傳輸視頻的無(wú)線網(wǎng)絡(luò)環(huán)境;
Q學(xué)習(xí)通過(guò)以下迭代規(guī)則來(lái)獲得其中,α是Q學(xué)習(xí)的學(xué)習(xí)速率,γ∈[0,1)是折扣因子,Qt(s,a)是在s狀態(tài)時(shí)采取動(dòng)作a所對(duì)應(yīng)的Q值,A是動(dòng)作空間,表示所有發(fā)送端所有可選的發(fā)送速率集合,Qt(s′,a′)是下一步的狀態(tài)s′和下一步動(dòng)作a′對(duì)應(yīng)的Q值;
學(xué)習(xí)的最終目標(biāo)是最大化期望值的長(zhǎng)期累積回報(bào),即使得報(bào)酬函數(shù)的值最大,使得Q值與長(zhǎng)期回報(bào)函數(shù)相匹配,形成最優(yōu)策略π*(s);所述最優(yōu)策略π*(s)為使得報(bào)酬函數(shù)Reward值最大的一系列發(fā)送速率值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810372915.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點(diǎn)播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器,例如:VOD服務(wù)器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備,如STB[機(jī)頂盒];相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠(yuǎn)程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過(guò)內(nèi)容產(chǎn)生器獨(dú)立于分配過(guò)程實(shí)現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 無(wú)線網(wǎng)絡(luò)裝置的設(shè)定方法
- 無(wú)線網(wǎng)絡(luò)配置方法和終端、及無(wú)線網(wǎng)絡(luò)預(yù)測(cè)方法和設(shè)備
- 城市無(wú)線接入平臺(tái)
- 可穿戴設(shè)備、獲取無(wú)線網(wǎng)絡(luò)屬性信息的方法及系統(tǒng)
- 基于無(wú)線網(wǎng)絡(luò)的無(wú)線網(wǎng)卡設(shè)備自動(dòng)配置方法
- 一種無(wú)線網(wǎng)絡(luò)處理方法及移動(dòng)終端
- 實(shí)現(xiàn)生成優(yōu)質(zhì)無(wú)線網(wǎng)絡(luò)庫(kù)的方法及系統(tǒng)
- 一種無(wú)線網(wǎng)絡(luò)裝置的相關(guān)設(shè)定方法
- 一種信息數(shù)據(jù)終端
- 一種通信終端及無(wú)線網(wǎng)絡(luò)切換的方法





