[發明專利]多聲道音頻數據的視頻分析輔助產生有效

申請號：	201480008260.1	申請日：	2014-02-12
公開（公告）號：	CN104995681B	公開（公告）日：	2017-10-31
發明（設計）人：	向佩	申請（專利權）人：	高通股份有限公司
主分類號：	G11B27/031	分類號：	G11B27/031;G11B27/28;G10L19/008;H04S3/00;H04S7/00
代理公司：	北京律盟知識產權代理有限責任公司11287	代理人：	宋獻濤
地址：	美國加利***	國省代碼：	暫無信息
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	多聲道音頻數據視頻分析輔助產生
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請案請求2013年2月15日申請的美國臨時申請案第61/765,556號的權利。

技術領域

本發明涉及俘獲音頻數據，并且更確切地說涉及俘獲多聲道音頻數據。

背景技術

通常，視頻俘獲裝置(例如視頻可攜式攝像機、平板或平板觸摸計算機、移動電話(包含所謂的“智能電話”)、個人游戲裝置、個人媒體裝置和類似者)以攝像機為特征而以給定幀速率俘獲一系列圖像來產生視頻數據。通常，這些視頻俘獲裝置以麥克風為特征，以俘獲視頻數據中所描繪的場景的單聲道音頻數據。更復雜的視頻俘獲裝置可能以兩個或兩個以上麥克風為特征，以增加能夠俘獲的音頻聲道(以單聲道音頻數據來自單個聲道)的數目。這些更復雜的視頻錄制裝置可包含至少兩個麥克風來俘獲立體聲音頻數據(其指代具有左右聲道的音頻數據)。

鑒于更多地采用所謂的智能電話，智能電話逐漸變成俘獲視頻數據的主導方式。通常，由于智能電話的本質及其作為音頻通信裝置的用途，智能電話可包含兩個、三個、四個或甚至五個麥克風。智能手機可在電話呼叫、視頻會議或包含音頻通信的其它形式通信期間出于噪音消除的目的而使用附加麥克風。盡管智能電話以大量麥克風為特征，但通常不使用這些麥克風來俘獲除立體聲音頻數據外的多聲道音頻數據，因為這些麥克風通常放置于智能電話上限制其充分俘獲除立體聲音頻數據外的任何數據的能力的位置中。

發明內容

一般來說，本發明描述視頻俘獲裝置可使用視頻分析來協助多聲道音頻數據的俘獲的技術。視頻俘獲裝置可促進使用視頻場景分析(或計算機視覺)技術產生環繞聲音頻數據(通常具有五個或五個以上聲道)。在一些實例中，視頻俘獲裝置可俘獲音頻數據和視頻數據，從而處理視頻數據來識別視頻對象，同時也處理音頻數據來識別音頻對象。視頻俘獲裝置可執行視頻場景分析技術來識別所述視頻對象并產生關于所述對象的各種元數據。視頻俘獲裝置也可執行聽覺場景分析，嘗試識別音頻對象及關于所述對象的各種元數據。通過比較所述對象，視頻俘獲裝置可識別很可能為音頻對象的來源的所述視頻對象。

鑒于視頻分析技術可更確切地識別視頻對象(相比僅音頻對象)相對于視頻俘獲裝置的位置，相比僅依賴于通常不準確的波束形成技術，視頻俘獲裝置可更好地本地化音頻對象。隨后可使用將音頻對象更好地本地化到一或多個前聲道的分貝差來將所述音頻對象再現到一或多個聲道，借此使得能夠更好地產生環繞聲音頻數據(相比由常規視頻俘獲裝置產生的環繞聲音頻數據)。

在一個方面中，一種方法包括分析用裝置俘獲的音頻數據以識別一或多個音頻對象及分析用裝置在俘獲音頻數據的同時所俘獲的視頻數據來識別一或多個視頻對象。所述方法進一步包括：使一或多個音頻對象中的至少一者與一或多個視頻對象中的至少一者相關聯，及基于一或多個音頻對象中的至少一者與一或多個視頻對象中的至少一者的關聯從音頻數據產生多聲道音頻數據。

在另一方面中，一種裝置包括一或多個處理器，所述處理器經配置以獲得音頻對象、獲得視頻對象、使音頻對象與視頻對象相關聯、比較所述音頻對象與相關聯的視頻對象及基于音頻對象與相關聯視頻對象之間的比較再現音頻對象。

在另一方面中，產生音頻輸出信號的裝置包括：用于基于第一音頻對象的數據分量與第一視頻對象的數據分量的第一比較識別與第一視頻對象對應物相關聯的第一音頻對象的裝置，及用于基于第二音頻對象的數據分量與第二視頻對象的數據分量的第二比較識別不與第二視頻對象對應物相關聯的第二音頻對象的裝置。所述裝置進一步包括：用于在第一區域中再現第一音頻對象的裝置，用于在第二區域中再現第二音頻對象的裝置，及用于基于組合第一區域中的再現第一音頻對象和第二區域中的再現第二音頻對象產生音頻輸出信號的裝置。

在另一方面中，一種非暫時性計算機可讀存儲媒體上存儲有在執行時致使裝置的一或多個處理器執行以下操作的指令：分析用裝置俘獲的音頻數據來識別一或多個音頻對象，分析用裝置在俘獲所述音頻數據的同時所俘獲的視頻數據來識別一或多個視頻對象，使一或多個音頻對象中的至少一者與一或多個視頻對象中的至少一者相關聯，及基于一或多個音頻對象中的至少一者與一或多個視頻對象中的至少一者的關聯從所述音頻數據產生多聲道音頻數據。

在附圖及以下描述中闡述所述技術的一或多個方面的細節。這些技術的其它特征、目標及優點將從所述描述及圖式以及權利要求書而顯而易見。

附圖說明

圖1A為說明執行本發明中所描述技術的實例視頻俘獲裝置10的各種視圖的圖。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于高通股份有限公司，未經高通股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201480008260.1/2.html，轉載請聲明來源鉆瓜專利網。