[發(fā)明專利]用于多聲道縮混/上混情況的通用空間音頻對象編碼參數(shù)化概念的解碼器和方法有效
| 申請?zhí)枺?/td> | 201380051915.9 | 申請日: | 2013-08-05 |
| 公開(公告)號: | CN104885150B | 公開(公告)日: | 2019-06-28 |
| 發(fā)明(設(shè)計)人: | 托爾斯滕·卡斯特納;于爾根·赫勒;萊昂·特倫提夫;奧利弗·赫爾穆特 | 申請(專利權(quán))人: | 弗勞恩霍夫應(yīng)用研究促進協(xié)會 |
| 主分類號: | G10L19/008 | 分類號: | G10L19/008 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 王萍;陳煒 |
| 地址: | 德國*** | 國省代碼: | 德國;DE |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 多聲道 情況 通用 空間 音頻 對象 編碼 參數(shù) 概念 解碼器 方法 | ||
提供了一種用于從包括一個或更多個縮混聲道的縮混信號產(chǎn)生包括一個或更多個音頻輸出聲道的音頻輸出信號的解碼器。縮混信號編碼兩個或更多個音頻對象信號。解碼器包括閾值確定器(110),用于根據(jù)兩個或更多個音頻對象信號中的至少一個的信號能量和/或噪聲能量和/或者根據(jù)一個或更多個縮混聲道中的至少一個的信號能量和/或噪聲能量確定閾值。此外,解碼器包括處理單元(120),用于根據(jù)閾值從一個或更多個縮混聲道產(chǎn)生一個或更多個音頻輸出聲道。
技術(shù)領(lǐng)域
本發(fā)明涉及一種用于多聲道縮混/上混情況的通用空間音頻對象編碼參數(shù)化概念的設(shè)備和方法。
背景技術(shù)
在現(xiàn)代數(shù)字音頻系統(tǒng)中,允許在接收方側(cè)對所傳輸?shù)膬?nèi)容進行與音頻對象相關(guān)的修改是主要趨勢。這些修改包括在經(jīng)由空間分布的揚聲器進行多聲道播放的情況下對專用音頻對象的空間重定位和/或音頻信號的所選擇部分的增益修改。這可以通過將音頻內(nèi)容的不同部分分別傳送到不同的揚聲器來實現(xiàn)。
換言之,在音頻處理、音頻傳輸以及音頻存儲領(lǐng)域中,越來越期望允許對面向?qū)ο蟮囊纛l內(nèi)容播放進行用戶交互,并且還需要利用多聲道播放的擴展可能性以單獨地渲染(render)音頻內(nèi)容或者部分音頻內(nèi)容,以便改進聽覺感受。由此,多聲道音頻內(nèi)容的使用為用戶帶來顯著的改進。例如,可以獲得三維聽覺感受,這在娛樂應(yīng)用中帶來了改進的用戶滿意度。然而,多聲道音頻內(nèi)容在專業(yè)環(huán)境中,例如在電話會議應(yīng)用中,同樣是有用的,因為可以通過使用多聲道音頻播放來改進講話者的清晰度。為音樂作品的聽眾提供了另一個可能的應(yīng)用,以單獨調(diào)整諸如人聲部分或者不同樂器的不同部分(也稱為“音頻對象”)或音軌的播放電平和/或空間位置。用戶可以出于個人品味的原因、出于從音樂作品中更容易地改編一個或更多個部分的原因、出于教學目的、卡拉OK、排練等的原因而進行這種調(diào)整。
對例如以脈沖編碼調(diào)制(PCM)數(shù)據(jù)或者甚至是壓縮音頻格式的形式的全數(shù)字多聲道或多對象音頻內(nèi)容的直接的離散傳輸要求非常高的比特率。然而,以高比特率效率的方式來傳輸和存儲音頻數(shù)據(jù)也是理想的。因此,為了避免由多聲道/多對象應(yīng)用引起的過度資源負荷,人們樂于在音頻質(zhì)量與比特率要求之間接受合理的折衷。
近來,在音頻編碼領(lǐng)域中,由例如運動圖像專家組(MPEG)等提出了用于對多聲道/多對象音頻信號的比特率高效的傳輸/存儲的參數(shù)化技術(shù)。一個示例是作為面向聲道的方法[MPS、BCC]的MPEG環(huán)繞聲(MPS),或者作為面向?qū)ο蟮姆椒╗JSC、SAOC、SAOC1、SAOC2]的MPEG空間音頻對象編碼(SAOC)。另一種面向?qū)ο蟮姆椒ǚQ為“知情源分離”[ISS1、ISS2、ISS3、ISS4、ISS5、ISS6]。這些技術(shù)旨在基于對聲道/對象以及附加的輔助信息(sideinformation)的縮混來重建期望的輸出音頻場景或者期望的音頻源對象,其中輔助信息描述所傳輸?shù)?存儲的音頻場景和/或音頻場景中的音頻源對象。
以時間-頻率選擇方式來完成對這樣的系統(tǒng)中的聲道/對象相關(guān)的輔助信息的估計和應(yīng)用。因此,這樣的系統(tǒng)采用時間-頻率變換,諸如離散傅里葉變換(DFT)、短時間傅里葉變換(STFT)或者如正交鏡像濾波器(QMF)組的濾波器組等。在圖2中,使用MPEG SAOC的示例來描繪這樣的系統(tǒng)的基本原理。
在STFT的情況下,時間維度由時間塊的數(shù)量來表示,而頻譜維度通過頻譜系數(shù)(“頻率點”(“bin”))的數(shù)量來捕獲。在QMF的情況下,時間維度由時隙的數(shù)量來表示,而頻譜維度通過子頻帶的數(shù)量來捕獲。如果通過隨后應(yīng)用的第二濾波器級來改進QMF的頻譜分辨率,則整個濾波器組稱為混合QMF,并且高分辨率子頻帶稱為混合子頻帶。
如上文提及,在SAOC中,一般的處理是以時間-頻率選擇性的方式來執(zhí)行的,并且可以在每個頻帶內(nèi)被描述如下,如圖2中所示:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于弗勞恩霍夫應(yīng)用研究促進協(xié)會,未經(jīng)弗勞恩霍夫應(yīng)用研究促進協(xié)會許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380051915.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





