[發明專利]一種基于視頻源實現混音的方法和裝置有效
| 申請號: | 201210384236.0 | 申請日: | 2012-10-11 |
| 公開(公告)號: | CN103024339A | 公開(公告)日: | 2013-04-03 |
| 發明(設計)人: | 王東琦 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | H04N7/15 | 分類號: | H04N7/15 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 視頻 實現 方法 裝置 | ||
技術領域
本發明涉及音頻信號處理領域,尤其涉及一種基于視頻源實現混音的方法和裝置。?
背景技術
出于降低企業成本和增加溝通效率的目的,越來越多的企業選擇遠程呈現系統建立視頻會議系統。所謂的遠程呈現系統,通常具有真人大小、眼對眼、圖像拼接和聲像同位等特點,通過提供真人大小的圖像、高清晰度的視頻和立體感的音頻和特殊的設計環境,達到面對面溝通的效果。網真不僅能夠實現遠程通信,而且能夠再現真實,通過網絡提供身臨其境般的面對面溝通的會議體驗,使他們感到像在同一個房間之中。它不僅包括網絡設備、終端設備,甚至包括桌椅等,以從整體上構建起網真會議室。?
圖1(其中,圖1中10b與10c的結構與10a相同)給出了一個典型的有多個會場與會的視頻會議示意圖。在圖1中的所示網真系統100中共有三個位置不同的會場10,在每一個會場10中都包括用于顯示遠端會場中的影像的顯示設備102、采集本會場影像的攝像設備105、采集本會場的聲音的麥克風設備104、以及呈現遠端會場中的揚聲器103。處理設備106則負責處理本端會場10中的攝像設備105捕捉的視頻信號和麥克風設備104捕捉的音頻信號,并對采集到的視音頻信號經過處理后,例如進行語音增強、圖像增強和視音頻編碼等處理后,通過網絡發送給MCU(Multi?Control?Unit,多點控制單元)11;MCU同時也接收其它會場10b和10c發送過來的音視頻和數據信號。?
MCU根據用戶的控制,完成音頻,視頻,數據信號的混合或切換處理,?再將處理后的數據在傳送給各個會場10中的處理設備106;處理設備1?
06接收到MCU?11發送的視音頻和數據信號后,對接收到的信號做處理,例如對音視頻信號進行解碼后,把音頻信號通過揚聲器103、視頻信號通過顯示設備102呈獻給本會場中的與會者。在示意圖中,每一個顯示設備102僅對應一個揚聲器103,例如顯示設備102a對應揚聲器設備103a。但實際設置是可以采用多個揚聲器來重現遠端會場中的聲音信號。?
在遠程呈現系統中,為了達到真人效果,實現較好的溝通效果,顯示設備屏幕通常具有較大的尺寸,例如采用72英寸的顯示器。一種理想的溝通效果是期望本端會場與會人感知到遠端會場的與會人的聲音能夠與遠端會場的與會人在本端會場呈現的影像所在位置相互匹配,例如遠端會場中的與會人101b講話時,期望聲音能夠從顯示設備102a的右側位置發出;如果出現遠端會場與會人的聲音在本端會場的呈現位置與遠端會場與會人的影像在本端會場的呈現位置不匹配的情況,例如遠端會場中的與會人10?
1b講話時對應的生在本端會場101e所在的位置呈現時,就會給用戶溝通帶來障礙,因此MCU設備11在進行混音時必須進行聲像同位(聲音和圖象位置匹配)的處理。?
現有技術在處理上述問題時采用如下方案:?
在視頻會議系統中,各個終端設備會把本會場的獲取的音頻信號通過網絡發送給與之相連的MCU設備。而MCU設備則把接收到的其他會場中的音頻信號發送給終端設備。而實際上,對于一個終端設備而言,如果MCU把其它所有會場的音頻信號都發送過來,基于降低設備成本的考慮,終端設備和MCU設備的計算能力是有限的,終端設備不可能同時處理所有MCU發送過來的音頻信號;而基于降低使用成本的考慮,也沒有把其它會場中的音頻信號都發送給終端設備的足夠帶寬。綜合以上兩方面的考慮,MCU并不會把所有非A會場中的音頻信號都傳送給A會場,而是根據一定的策略從非A會場中選取有限個會場的音頻信號進行混音后再傳送給A會場。?
下面結合圖2來說明現有技術中MCU的混音策略。對于與MCU相連?的會場和與之相連的會場通過網絡發送過來的音頻碼流,定義如下:?
為與MCU相連的第i個會場Ti送給MCU的碼流,如圖2中的即為會場T1送給MCU的碼流;?
為MCU發送給與該MCU相連的第i個會場的碼流,如圖2中的即為會場T1送給MCU的碼流;?
混音通常的實現方法如下:?
第一步,從混音器輸入的會場中的碼流中找到包絡(或能量)最大的N路(對應圖中為4路)會場信號(對應圖中按從大到小的順序是是T1的T2的?T3的和T4的);?
第二步,根據混音策略,對不同的會場,選取不同的會場來進行混音。?
通常的做法,如果某會場Ti是最大N路會場中的一個,則選取其它(N-1)路最大會場進行混音,并發送給該會場Ti。如圖中的T1,它屬于最大四路會場中的一個,因此MCU要發送給T1的碼流中是由T2的T3的和T4的所組合的碼流。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210384236.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:氣密檢測機
- 下一篇:一種基于半監督聚類的遷移學習方法





