[發明專利]基于在線強化學習的流媒體處理方法、裝置及電子設備在審
| 申請號: | 202010880129.1 | 申請日: | 2020-08-27 |
| 公開(公告)號: | CN113422751A | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 周安福;吳蕾蕾;馬華東;張歡歡;湯興 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | H04L29/06 | 分類號: | H04L29/06;G06N20/00 |
| 代理公司: | 北京市惠誠律師事務所 11353 | 代理人: | 劉子敬 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 在線 強化 學習 流媒體 處理 方法 裝置 電子設備 | ||
1.一種流媒體數據處理方法,包括:
獲取流媒體客戶端的當前時間段的流媒體狀態數據;
通過在線機器學習模型,根據所述流媒體狀態數據,確定所述流媒體客戶端的當前時間段的流媒體控制信息,并發送給所述流媒體客戶端;
獲取流媒體客戶端的下一時間段的流媒體狀態數據,根據所述下一時間段的流媒體狀態數據和所述當前時間段的流媒體控制信息,對所述在線機器學習模型進行訓練并對所述在線機器學習模型進行模型參數更新。
2.根據權利要求1所述的方法,其中,所述流媒體客戶端為多個,所述在線機器學習模型也為多個,與所述流媒體客戶端對應,多個所述在線機器學習模型使用與所述流媒體客戶端對應的流媒體狀態數據進行訓練。
3.根據權利要求2所述的方法,其中,對所述在線機器學習模型進行模型參數更新包括:
將所述多個在線機器學習模型的訓練后的模型參數進行加權平均處理,生成聚合后的模型參數;
使用該聚合后的模型參數,對多個所述在線機器學習模型進行模型參數更新。
4.根據權利要求2所述的方法,其中,對所述在線機器學習模型進行模型參數更新包括:
針對所述多個在線機器學習模型中的指定在線機器學習模型執行如下處理:將所述多個在線機器學習模型的訓練后的模型參數進行加權平均處理,生成聚合后的模型參數,其中,所述指定在線機器學習模型對應的權重值大于其他在線機器學習模型的權重值;
使用該聚合后的模型參數,對指定在線機器學習模型進行模型參數更新。
5.根據權利要求1所述的方法,其中,對所述在線機器學習模型進行訓練并對所述在線機器學習模型進行模型參數更新包括:
獲取所述下一時間段的流媒體狀態數據,根據所述下一時間段的流媒體狀態數據計算所述當前時間段的流媒體控制信息的獎勵數據;
根據多個時間段的獎勵數據,計算累積獎勵;
使用累積獎勵最大化的梯度策略,對所述在線機器學習模型進行訓練并對所述在線機器學習模型進行模型參數更新。
6.根據權利要求5所述的方法,其中,多個時間段的所述流媒體狀態數據、流媒體控制信息、獎勵數據以及累積獎勵被記錄在數據緩沖區中,
使用累積獎勵最大化的梯度策略,對所述在線機器學習模型進行訓練并對所述在線機器學習模型進行模型參數更新包括:
當所述數據緩沖區中數據量超過預設閾值時,執行使用累積獎勵最大化的梯度策略,對所述在線機器學習模型進行訓練并對所述在線機器學習模型進行模型參數更新的處理。
7.根據權利要求5所述的方法,其中,使用累積獎勵最大化的梯度策略,對所述在線機器學習模型進行訓練并對所述在線機器學習模型進行模型參數更新包括:
在梯度更新的損失函數中,根據預設差異限制閾值,對損失函數中的新模型策略和舊模型策略之間的差異進行判定;
如果所述新模型策略和舊模型策略之間的差異大于所述限制閾值,則移除超出閾值部分對應的梯度損失激勵;
使用移除了所述梯度損失激勵后的損失函數值,對所述在線機器學習模型進行訓練并對所述在線機器學習模型進行模型參數更新。
8.根據權利要求1所述的方法,其中,所述流媒體狀態數據包括:流媒體客戶端的上報的丟包率、網絡延遲、延遲間隔和流媒體吞吐量中的一項或者任意多項。
9.根據權利要求1所述的方法,其中,所述流媒體控制信息包括流媒體處理速率,用于控制流媒體客戶端執行流媒體的編碼和/或發送的處理。
10.根據權利要求1所述的方法,其中,所述在線機器學習模型為在線強化學習模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010880129.1/1.html,轉載請聲明來源鉆瓜專利網。





