[發明專利]一種云視頻會議中優化音視頻效果的方法有效
| 申請號: | 202011495518.9 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112672090B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 胡鵬;劉清;馮文瀾 | 申請(專利權)人: | 深圳隨銳視聽科技有限公司;隨銳科技集團股份有限公司 |
| 主分類號: | H04N7/15 | 分類號: | H04N7/15;H04N21/44;H04N21/4402;H04N21/61;H04N21/845;H04N19/149;H04N19/172;H04N19/587;H04L67/10;G06V40/16 |
| 代理公司: | 成都睿道專利代理事務所(普通合伙) 51217 | 代理人: | 胡可 |
| 地址: | 518051 廣東省深圳市南山區粵海街道高新區社區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 視頻會議 優化 視頻 效果 方法 | ||
1.一種云視頻會議中優化音視頻效果的方法,其特征在于,包括如下步驟:
步驟一,對存儲在云端的視頻數據進行解碼并從中截取待處理的視頻幀,所述視頻數據為采集本地端對參會人員進行拍攝上傳至云端獲得;
步驟二,在采集本地端網絡波動狀況下,通過獲取參會人員各自所屬的行為軌跡預測以及根據所述行為軌跡預測提前準備的靜態圖像和虛擬場景,以靜態圖像和虛擬場景的結合替換所述視頻幀,進行視頻會議中網絡波動的視頻自動補幀,其中,所述靜態圖像包括參會人員行為軌跡過程的圖像;
步驟三,在采集本地端網絡波動狀況下,將由采集本地端采集的音頻數據翻譯成字幕以及生成智能音頻上傳至云端,通過字幕和智能音頻替換所述音頻數據,進行視頻會議中網絡波動的音頻效果的修復;
獲取參會人員各自所屬的行為軌跡預測包括如下步驟:
將所述待處理的視頻幀輸入人臉朝向識別模型,所述人臉朝向識別模型用于對所述待處理的視頻幀進行人臉特征提取,得到參會人員中關鍵人員的面部朝向信息,
將面部朝向信息輸入行為軌跡預判模型,所述行為軌跡預判模型基于云計算和所述面部朝向信息做出行為軌跡的預判,獲取關鍵人員的行為軌跡預判結果,所述行為軌跡預判模型是以攜帶動作編號的動態軌跡圖像為訓練樣本對第一基礎模型進行訓練得到的。
2.如權利要求1所述的云視頻會議中優化音視頻效果的方法,其特征在于,
音頻數據翻譯成字幕以及生成智能音頻包括如下步驟:
將所述音頻數據輸入數字音頻模型,所述數字音頻模型用于對所述音頻數據進行聲紋和音量大小提取,得到音頻數據中的聲紋編號和音量大小數據編號;
所述數字音頻模型是以攜帶聲紋編號和音量大小數據編號的音頻樣本為訓練樣本,對第三基礎模型進行訓練得到的;
所述字幕是通過聲紋編號獲得,所述智能音頻是通過機械發聲模塊根據所述字幕、所述聲紋和音量大小生成。
3.如權利要求2所述的云視頻會議中優化音視頻效果的方法,其特征在于,
所述步驟二包括:
在采集本地端網絡波動狀況下,將行為軌跡預判結果輸入場景模擬模型,所述場景模擬模型用于根據所述行為軌跡預判結果,提前準備靜態畫面和提前處理環境模擬;
通過所述場景模擬模型對視頻幀進行靜態畫面替換以及虛擬場景的導入,進行視頻會議中網絡波動的視頻自動補幀;所述場景模擬模型是以攜帶場景編號的多個場景圖像樣本為訓練樣本,對第二基礎模型進行訓練得到的。
4.如權利要求3所述的云視頻會議中優化音視頻效果的方法,其特征在于,
所述步驟二進一步包括:
在采集本地端網絡狀況較佳情況下,采集本地端上傳高于當前清晰度的視頻數據至云端。
5.如權利要求2所述的云視頻會議中優化音視頻效果的方法,其特征在于,
所述步驟三包括:
在采集本地端網絡波動狀況下,數字音頻模型識別由拾音麥克風采集到的音頻數據,生成字幕,以及獲取音頻數據中的聲紋編號和音量大小數據編號,生成智能音頻;
采集本地端將字幕以及智能音頻上傳至云端,通過字幕和智能音頻替換所述音頻數據,進行視頻會議中網絡波動的音頻效果的修復。
6.如權利要求5所述的云視頻會議中優化音視頻效果的方法,其特征在于,
所述步驟三進一步包括:
在采集本地端網絡狀況較佳情況下,采集本地端上傳高于當前清晰度的音頻數據至云端。
7.如權利要求3所述的云視頻會議中優化音視頻效果的方法,其特征在于,
所述場景模擬模型通過以下步驟得到:
通過攝像頭捕捉面對會議終端的多個關鍵點,在網絡狀況良好時將由關鍵點組成的場景和圖像上傳至云端;
所述關鍵點包括會議桌左側位第一關鍵點、會議桌正對位第二關鍵點、會議桌右側位第三關鍵點、會議桌左后方第四關鍵點、會議桌右后方第五關鍵點以及會議桌正對位背景第六關鍵點;
通過云計算對多個所述關鍵點進行場景編號,獲取場景圖像樣本;以攜帶場景編號的多個場景圖像樣本為訓練樣本,對所述第二基礎模型進行訓練,得到場景模擬模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳隨銳視聽科技有限公司;隨銳科技集團股份有限公司,未經深圳隨銳視聽科技有限公司;隨銳科技集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011495518.9/1.html,轉載請聲明來源鉆瓜專利網。





