[發(fā)明專利]合并音頻信號與空間元數(shù)據(jù)在審

申請?zhí)枺?/td>	201780037760.1	申請日：	2017-04-19
公開（公告）號：	CN109313907A	公開（公告）日：	2019-02-05
發(fā)明（設(shè)計）人：	J·T·維爾卡莫	申請（專利權(quán)）人：	諾基亞技術(shù)有限公司
主分類號：	G10L19/008	分類號：	G10L19/008;H04N21/233;H04S3/00
代理公司：	北京市金杜律師事務(wù)所 11256	代理人：	酆迅;董典紅
地址：	芬蘭***	國省代碼：	芬蘭;FI
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	音頻信號關(guān)聯(lián) 組合音頻信號麥克風通道組合參數(shù) 混合器空間音頻聲音場景所述空間音頻捕獲音頻通道元數(shù)據(jù) 處理器配置捕獲合并輸出外部
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

用于混合至少兩個音頻信號和至少一個第二音頻信號的裝置，所述至少兩個音頻信號與至少一個參數(shù)相關(guān)聯(lián)，所述至少一個第二音頻信號還與至少一個第二參數(shù)相關(guān)聯(lián)，其中所述至少兩個音頻信號和所述至少一個第二音頻信號與聲音場景相關(guān)聯(lián)，并且其中所述至少兩個音頻信號表示空間音頻捕獲麥克風通道，所述至少一個第二音頻信號表示與所述空間音頻捕獲麥克風通道分開的外部音頻通道，該裝置包括：處理器，被配置為基于所述至少一個第二參數(shù)和所述至少一個參數(shù)來生成組合參數(shù)的輸出；以及混合器，被配置為基于所述至少兩個音頻信號和所述至少一個第二音頻信號來生成具有與所述至少一個音頻信號相同數(shù)量或更少數(shù)量的通道的組合音頻信號，其中所述組合音頻信號與組合參數(shù)相關(guān)聯(lián)。

技術(shù)領(lǐng)域

本申請涉及用于將音頻信號與空間元數(shù)據(jù)合并的裝置和方法。本發(fā)明還涉及但不限于用于音頻信號的空間處理的分布式音頻捕獲和混合以使得能夠生成適合于音頻信號的空間再現(xiàn)的數(shù)據(jù)有效表示的裝置和方法。

背景技術(shù)

立體聲和環(huán)繞音頻發(fā)射的典型方法是基于揚聲器通道。在這種情況下，立體聲內(nèi)容或者水平環(huán)繞或3D環(huán)繞內(nèi)容作為一組個體的通道而被產(chǎn)生、被編碼和被發(fā)射，以在接收器端處被解碼和再現(xiàn)。直接的方法是例如使用MPEG高級音頻編碼(AAC)來個體地編碼每個通道，這是商用系統(tǒng)中的常用方法。最近，出現(xiàn)了比特率有效的多通道音頻編碼系統(tǒng)，例如MPEG環(huán)繞和在MPEG-H第3部分：3D音頻中的MPEG環(huán)繞。它們采用的方法是將音頻通道組合成較少數(shù)量的音頻通道用于發(fā)射。除了較少數(shù)量的音頻通道之外，還發(fā)射動態(tài)空間元數(shù)據(jù)，其有效地具有如何重新合成與原始多通道信號具有緊密感知相似性的多通道音頻信號的信息。這種音頻編碼可以被稱為參數(shù)化多通道音頻編碼。

一些參數(shù)化空間音頻編碼系統(tǒng)，諸如MPEG-H第3部分：3D音頻，還提供用于發(fā)射音頻對象的選項，音頻對象是具有潛在動態(tài)變化位置的音頻通道。例如，可以使用在接收器端處的振幅平移技術(shù)來再現(xiàn)音頻對象。可以認為，對于專業(yè)的多通道音頻制作，前述技術(shù)是非常適合的。

虛擬現(xiàn)實(VR)音頻(這里包括陣列捕獲的空間音頻和增強現(xiàn)實音頻的定義)的用例通常是根本不同的。具體地，通常從集成到現(xiàn)場捕獲設(shè)備的麥克風陣列(諸如球形多鏡頭相機或相機附近的陣列)中完全或部分地獲取音頻內(nèi)容。在這種上下文中的音頻捕獲技術(shù)不同于傳統(tǒng)的記錄技術(shù)。例如，以類似于雷達或無線電通信的方式，使用針對音頻信號的陣列信號處理技術(shù)來檢測具有感知重要性的聲音場景的信息是可能的。這包括到達聲音的(一個或多個)方向(有時與場景中的源的方向一致)以及定向能量與其他種類的聲能之間的比率，該其它種類的聲能諸如背景氛圍、混響、噪音等。將這樣或類似的參數(shù)稱為動態(tài)空間音頻捕獲(SPAC)元數(shù)據(jù)。存在用于估計SPAC元數(shù)據(jù)的若干已知陣列信號處理方法。與傳統(tǒng)的基于揚聲器通道的系統(tǒng)相比，在這種情況下，方向可以是任何空間方向，并且相對于任何特定揚聲器設(shè)置，可能沒有相似之處。可以將數(shù)字信號處理(DSP)系統(tǒng)實現(xiàn)為使用該元數(shù)據(jù)和麥克風信號以將空間聲音在感知上精確地合成到任何環(huán)繞或3D環(huán)繞設(shè)置或者通過應(yīng)用雙耳處理技術(shù)合成到耳機。DSP系統(tǒng)存在若干高質(zhì)量的選項可以執(zhí)行這樣的渲染。將這樣的過程稱為SPAC渲染。應(yīng)當注意，SPAC元數(shù)據(jù)、SPAC渲染和有效的多通道音頻編碼總是在頻帶中被執(zhí)行，因為已知人類空間聽覺是基于頻帶中的空間信息來對空間圖像進行解碼。

用于SPAC音頻發(fā)射的傳統(tǒng)且直接的方法是執(zhí)行SPAC渲染以產(chǎn)生3D環(huán)繞混合并應(yīng)用多通道音頻編碼技術(shù)來發(fā)射音頻。但是，這種方法并不是最優(yōu)的。首先，對于耳機雙耳渲染，應(yīng)用中間揚聲器布局不可避免地意味著使用振幅平移技術(shù)，因為源不與揚聲器的方向一致。在作為VR音頻的主要用例的耳機雙耳使用的情況下，不需要以這種方式限制解碼。可以使用高分辨率的頭部相關(guān)傳遞函數(shù)集(HRTF)在任何方向上解碼聲音。當與直接HRTF渲染相比時，經(jīng)振幅平移的源被感知為更不是點狀的，并且通常也在頻譜上不平衡。其次，使用中間揚聲器表示在3D中進行充分再現(xiàn)，需要發(fā)射大量音頻通道。現(xiàn)代多通道音頻編碼技術(shù)通過組合音頻通道來減輕這種影響，然而，應(yīng)用這樣的方法最少增加了不必要的音頻處理步驟的層，這至少降低了計算效率，但可能還降低了音頻保真度。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于諾基亞技術(shù)有限公司，未經(jīng)諾基亞技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201780037760.1/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：音頻信號之間的聲道間相位差的編碼和解碼
下一篇：用于對音頻信號進行編碼的音頻編碼器以及方法

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用頻譜分析，例如變換聲碼器或子頻帶聲碼器
G10L19-04 .利用預(yù)測技術(shù)
G10L19-06 ..例如短期預(yù)測系數(shù)的頻譜特征的確定或編碼
G10L19-08 ..激勵函數(shù)的確定或編碼；長期預(yù)測參數(shù)的確定或編碼
G10L19-14 ..不包括在G10L 19/06至G10L 19/12組中的零部件，例如增益編碼、后置濾波設(shè)計或聲碼器結(jié)構(gòu)

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】