[發明專利]基于在線強化學習的流媒體處理方法、裝置及電子設備在審
| 申請號: | 202010880129.1 | 申請日: | 2020-08-27 |
| 公開(公告)號: | CN113422751A | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 周安福;吳蕾蕾;馬華東;張歡歡;湯興 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;G06N20/00 |
| 代理公司: | 北京市惠誠律師事務所 11353 | 代理人: | 劉子敬 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 在線 強化 學習 流媒體 處理 方法 裝置 電子設備 | ||
本發明實施例提供了一種基于在線強化學習的流媒體處理方法、裝置及電子設備,其中,方法包括獲取當前時間段的流媒體狀態數據;通過在線機器學習模型,根據流媒體狀態數據,確定流媒體客戶端的當前時間段的流媒體控制信息并發送;獲取下一時間段的流媒體狀態數據,對所述在線機器學習模型進行訓練并對所述在線機器學習模型進行模型參數更新。本發明實施例采用了在線機器學習模型,根據當前的流媒體狀態數據,決策出流媒體控制信息,并傳送給客戶端以控制進一步的流媒體的處理操作,如此進行迭代操作,從而適應動態變化的網絡環境。與此同時,通過對在線機器學習模型進行訓練,不斷更新模型參數,以不斷適應新的網絡環境。
技術領域
本申請涉及一種基于在線強化學習的流媒體處理方法、裝置及電子設備,屬于計算機技術領域。
背景技術
為了保持高質量的用戶體驗(QoE,Quality of Experience),傳統的交互式流媒體應用程序采用基于規則(rule-based)的協議,如傳輸層的擁塞控制和應用層的視頻比特率自適應算法。然而,rule-based協議無法適應高度異構的現代互聯網網絡,包括蜂窩/WiFi無線鏈接、長距離的光纖鏈接、基于云的數據中心鏈接等,所有這些網絡都具有不同的帶寬、延遲和緩沖能力。
近年來,數據驅動的機器學習算法被提出用來改進流媒體的QoE。但是,現有的解決方案通常采用“離線學習,在線運行”的策略,即機器學習模型在模擬器或仿真器中進行訓練,然后在實際應用中進行部署和測試。但是,由于模擬器或仿真器很難忠實地模擬復雜的真實網絡世界中流媒體交互的動態,導致這樣的離線學習模型在應用到現實世界中時性能較差。甚至在真實系統中可能表現出與在模擬環境中相反的性能特征。
發明內容
本發明實施例提供一種基于在線強化學習的流媒體處理方法、裝置及電子設備,以提高流媒體的QoE性能。
為了實現上述目的,本發明實施例提供了一種流媒體數據處理方法,包括:
獲取流媒體客戶端的當前時間段的流媒體狀態數據;
通過在線機器學習模型,根據所述流媒體狀態數據,確定所述流媒體客戶端的當前時間段的流媒體控制信息,并發送給所述流媒體客戶端;
獲取流媒體客戶端的下一時間段的流媒體狀態數據,根據所述下一時間段的流媒體狀態數據和所述當前時間段的流媒體控制信息,對所述在線機器學習模型進行訓練并對所述在線機器學習模型進行模型參數更新。
本發明實施例還提供了一種流媒體數據處理裝置,包括:
狀態數據獲取模塊,用于獲取流媒體客戶端的當前時間段的流媒體狀態數據;
控制信息生成模塊,用于通過在線機器學習模型,根據所述流媒體狀態數據,確定所述流媒體客戶端的當前時間段的流媒體控制信息,并發送給所述流媒體客戶端;
模型更新模塊,用于獲取流媒體客戶端的下一時間段的流媒體狀態數據,根據所述下一時間段的流媒體狀態數據和所述當前時間段的流媒體控制信息,對所述在線機器學習模型進行訓練并對所述在線機器學習模型進行模型參數更新。
本發明實施例還提供了一種流媒體數據處理方法,包括:
檢測當前時間段的流媒體狀態數據,并發送部署在云服務器的與客戶端對應的在線機器學習模型;
接收所述在線機器學習模型返回的當前時間段的流媒體控制信息,并根據該流媒體控制信息執行流媒體控制處理;
檢測下一時間段的流媒體狀態數據,并向所述在線機器學習模型進行發送。
本發明實施例還提供了一種流媒體數據處理方法,包括:
檢測當前時間段的流媒體狀態數據,發送給部署在本地在線機器學習模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010880129.1/2.html,轉載請聲明來源鉆瓜專利網。





