[發(fā)明專利]碼率決策模型訓(xùn)練方法、裝置、電子設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010046898.1 | 申請日: | 2020-01-16 |
| 公開(公告)號: | CN113132765A | 公開(公告)日: | 2021-07-16 |
| 發(fā)明(設(shè)計)人: | 周超 | 申請(專利權(quán))人: | 北京達(dá)佳互聯(lián)信息技術(shù)有限公司 |
| 主分類號: | H04N21/2662 | 分類號: | H04N21/2662;H04N21/4402;H04N21/262;G06N3/08 |
| 代理公司: | 北京三高永信知識產(chǎn)權(quán)代理有限責(zé)任公司 11138 | 代理人: | 寧立存 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 決策 模型 訓(xùn)練 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
1.一種碼率決策模型訓(xùn)練方法,其特征在于,包括:
將第一時刻的網(wǎng)絡(luò)吞吐量、所述第一時刻的仿真交互環(huán)境中的緩沖區(qū)仿真模塊的時間長度變化信息以及第二時刻的目標(biāo)決策碼率同時輸入到待訓(xùn)練碼率決策模型中,由所述待訓(xùn)練碼率決策模型輸出多個第一決策碼率對應(yīng)的多個第一概率,其中,所述第二時刻為所述第一時刻的上一個碼率決策時刻;
將第一概率符合第一目標(biāo)條件的第一決策碼率確定為所述第一時刻的目標(biāo)決策碼率;
將所述第一時刻的目標(biāo)決策碼率輸入所述仿真交互環(huán)境,獲取第三時刻的仿真交互環(huán)境中的緩沖區(qū)仿真模塊的時間長度變化信息,其中,所述第三時刻為所述第一時刻的下一個視頻數(shù)據(jù)傳輸時刻;
基于所述第三時刻的網(wǎng)絡(luò)吞吐量、所述第三時刻的仿真交互環(huán)境中的緩沖區(qū)仿真模塊的時間長度變化信息以及所述第一時刻的目標(biāo)決策碼率,獲取所述第一時刻的目標(biāo)決策碼率的第一評價值;
基于所述第一評價值,更新所述待訓(xùn)練碼率決策模型的模型參數(shù),直至任一迭代過程滿足第一迭代結(jié)束條件,則將滿足所述第一迭代結(jié)束條件的迭代過程所得到的待訓(xùn)練碼率決策模型確定為碼率決策模型。
2.根據(jù)權(quán)利要求1所述的碼率決策模型訓(xùn)練方法,其特征在于,所述仿真交互環(huán)境還包括編碼器仿真模塊以及發(fā)送仿真模塊,所述將所述第一時刻的目標(biāo)決策碼率輸入所述仿真交互環(huán)境,獲取第三時刻的仿真交互環(huán)境中的緩沖區(qū)仿真模塊的時間長度變化信息包括:
將所述第一時刻的目標(biāo)決策碼率輸入所述編碼器仿真模塊,由所述編碼器仿真模塊向所述緩沖區(qū)仿真模塊發(fā)送所述第一時刻的目標(biāo)決策碼率的視頻數(shù)據(jù);
基于所述發(fā)送仿真模塊所指示的速率從所述緩沖區(qū)仿真模塊中提取所述視頻數(shù)據(jù);
基于所述緩沖區(qū)仿真模塊在所述第一時刻和所述第三時刻存儲所述視頻數(shù)據(jù)的容量差,獲取所述第三時刻的緩沖區(qū)仿真模塊的時間長度變化信息。
3.根據(jù)權(quán)利要求1所述的碼率決策模型訓(xùn)練方法,其特征在于,所述網(wǎng)絡(luò)吞吐量包括兩個視頻幀間隔的時間范圍內(nèi)采集到的第一網(wǎng)絡(luò)吞吐量以及碼率決策間隔的第二網(wǎng)絡(luò)吞吐量;
所述緩沖區(qū)仿真模塊的時間長度變化信息包括所述兩個視頻幀間隔的時間范圍內(nèi)采集到的第一緩沖區(qū)時間長度變化信息以及所述碼率決策間隔的第二緩沖區(qū)時間長度變化信息。
4.根據(jù)權(quán)利要求1所述的碼率決策模型訓(xùn)練方法,其特征在于,所述基于所述第三時刻的網(wǎng)絡(luò)吞吐量、所述第三時刻的仿真交互環(huán)境中的緩沖區(qū)仿真模塊的時間長度變化信息以及所述第一時刻的目標(biāo)決策碼率,獲取所述第一時刻的目標(biāo)決策碼率的第一評價值包括:
將所述第三時刻的網(wǎng)絡(luò)吞吐量、所述第三時刻的仿真交互環(huán)境中的緩沖區(qū)仿真模塊的時間長度變化信息以及所述第一時刻的目標(biāo)決策碼率同時輸入到待訓(xùn)練決策評價模型中,由所述待訓(xùn)練決策評價模型輸出所述第一評價值。
5.根據(jù)權(quán)利要求4所述的碼率決策模型訓(xùn)練方法,其特征在于,所述基于所述第一評價值,更新所述待訓(xùn)練碼率決策模型的模型參數(shù)之后,所述方法還包括:
將所述第三時刻的網(wǎng)絡(luò)吞吐量、所述第三時刻的仿真交互環(huán)境中的緩沖區(qū)仿真模塊的時間長度變化信息以及所述第一時刻的目標(biāo)決策碼率同時輸入到所述待訓(xùn)練碼率決策模型中,得到所述第三時刻的目標(biāo)決策碼率;
將第四時刻的網(wǎng)絡(luò)吞吐量、所述第四時刻的仿真交互環(huán)境中的緩沖區(qū)仿真模塊的時間長度變化信息和所述第三時刻的目標(biāo)決策碼率同時輸入到待訓(xùn)練決策評價模型中,所述待訓(xùn)練決策評價模型基于所述第四時刻的網(wǎng)絡(luò)吞吐量、所述第四時刻的仿真交互環(huán)境中的緩沖區(qū)仿真模塊的時間長度變化信息和所述第三時刻的目標(biāo)決策碼率調(diào)整自身模型參數(shù),直至任一迭代過程滿足第二迭代結(jié)束條件,則將滿足所述第二迭代結(jié)束條件的迭代過程所得到的待訓(xùn)練決策評價模型作為決策評價模型,其中,所述第四時刻為所述第三時刻的下一個視頻數(shù)據(jù)傳輸時刻。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京達(dá)佳互聯(lián)信息技術(shù)有限公司,未經(jīng)北京達(dá)佳互聯(lián)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010046898.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04N 圖像通信,如電視
H04N21-00 可選的內(nèi)容分發(fā),例如交互式電視,VOD〔視頻點(diǎn)播〕
H04N21-20 .專門適用于內(nèi)容分發(fā)的專用服務(wù)器,例如:VOD服務(wù)器;其操作
H04N21-40 .專門適用于接收內(nèi)容或者與內(nèi)容交互的客戶端設(shè)備,如STB[機(jī)頂盒];相關(guān)操作
H04N21-60 .用于在服務(wù)器和客戶端之間或者在遠(yuǎn)程客戶端之間的視頻分配的網(wǎng)絡(luò)結(jié)構(gòu)或者處理
H04N21-80 .通過內(nèi)容產(chǎn)生器獨(dú)立于分配過程實現(xiàn)的內(nèi)容或附加數(shù)據(jù)的生成或處理;內(nèi)容本身
H04N21-81 ..其單媒體部件
- 決策協(xié)調(diào)方法、執(zhí)行裝置和決策協(xié)調(diào)器
- 一種基于循環(huán)更新模式的決策樹構(gòu)建方法
- 一種基于群決策的建筑項目決策系統(tǒng)及決策方法
- 一種基于反射弧的智慧大腦決策系統(tǒng)及決策方法
- 一種三維消防指揮決策輔助系統(tǒng)
- 一種決策方法、系統(tǒng)以及電子設(shè)備
- 基于決策引擎和模型平臺的業(yè)務(wù)決策邏輯更新方法
- 一種雙層優(yōu)先級決策系統(tǒng)
- 一種應(yīng)用程序的業(yè)務(wù)執(zhí)行方法、裝置及電子設(shè)備
- 基于區(qū)塊鏈的決策方法及裝置和電子設(shè)備





