[發(fā)明專利]用于編碼和解碼音頻樣本的音頻編碼器和解碼器有效
| 申請?zhí)枺?/td> | 200980127096.5 | 申請日: | 2009-06-26 |
| 公開(公告)號: | CN102089811A | 公開(公告)日: | 2011-06-08 |
| 發(fā)明(設(shè)計)人: | 杰雷米·勒孔特;菲利普·古爾奈;斯特凡·拜爾;馬庫斯·馬特拉斯;布魯諾·貝塞特;伯恩哈特·格里爾 | 申請(專利權(quán))人: | 弗朗霍夫應(yīng)用科學(xué)研究促進協(xié)會;沃伊斯亞吉公司 |
| 主分類號: | G10L19/02 | 分類號: | G10L19/02;G10L19/14 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 張大威 |
| 地址: | 德國*** | 國省代碼: | 德國;DE |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 編碼 解碼 音頻 樣本 編碼器 解碼器 | ||
本發(fā)明屬于在不同編碼域進行音頻編碼的領(lǐng)域,例如在時域和變換域中。
在低比特率音頻和語音編碼技術(shù)的背景中,傳統(tǒng)中已采用數(shù)個不同編碼技術(shù)以獲得在給定的比特率下具有可能最佳主觀質(zhì)量的如此低比特率編碼信號。一般的音樂/聲音信號的編碼器旨在根據(jù)使用一種感知模型(“感知音頻編碼”)估算輸入信號而獲得的掩蔽臨界曲線以通過塑造量化誤差的頻譜(及時間)形狀來優(yōu)化主觀質(zhì)量。另一方面,極低比特率下的語音編碼已經(jīng)顯示出在其基于人類語音的產(chǎn)生模式時高效運行,即采用線性預(yù)測編碼(LPC)以模型化與殘差激發(fā)信號的有效編碼一起的人類聲道的共振效應(yīng)。
作為這兩種不同方式的結(jié)果,常用音頻編碼器例如MPEG-1Layer?3(MPEG=運動圖像專家組),或MPEG-2/4先進音頻編碼(AAC)通常對于非常低數(shù)據(jù)率下的語音信號執(zhí)行的效果不如像專用LPC式語音編碼器一樣好,由于缺乏對聲源模型的利用。相反地,LPC式語音編碼器在被應(yīng)用于常見音樂信號時,由于其無法根據(jù)掩蔽臨界曲線靈活地形成編碼失真的頻譜包絡(luò)而通常不能實現(xiàn)令人信服的結(jié)果。下面,描述了將LPC式編碼和感知式音頻編碼二者優(yōu)點結(jié)合進單一架構(gòu)中的概念,并因此描述了對常見音頻和語音信號二者都有效的統(tǒng)一語音編碼。
傳統(tǒng)地,感知語音編碼器使用一種基于濾波器組的方法以根據(jù)掩蔽曲線的估算有效地編碼音頻信號以及形成量化失真。
圖16a示出了一種單聲道感知編碼系統(tǒng)的基本方框圖。分析濾波器組1600被用于將時域樣本映射成子采樣頻譜分量。基于頻譜分量的數(shù)量,該系統(tǒng)也被稱作子帶編碼器(數(shù)量小的子頻帶,例如32)或變換編碼器(數(shù)量大的頻率線,例如512)。感知(心理聲學(xué))模型1602被用來估算實際時間所依的掩蔽閾值。該頻譜(“子帶”或“頻域”)分量被量化和編碼1604,以將量化噪聲隱藏在實際傳輸信號下且在解碼后無法察覺的方式。這通過改變時間及頻率上頻譜值的量化粒度而實現(xiàn)。
量化和熵編碼后的頻譜系數(shù)或子頻帶值,與邊信息一起,輸入進提供了適于被傳輸和存儲的已編碼音頻信號的比特流格式器1606中。方框1606的輸出比特流可被Internet網(wǎng)傳輸,或可被存儲在任意可機讀數(shù)據(jù)載體上。
在解碼器端,解碼器輸入接口1610接收已編碼。方框1610將熵編碼后和量化后的頻譜/子頻帶值從邊信息處分離。該已編碼的頻譜值被輸入如霍夫曼解碼器的熵解碼器中,其位于1610和1620之間。該熵解碼器的輸出是量化后的頻譜值。這些量化頻譜值被輸入到再量化器中,其執(zhí)行一種如圖16a中1620處所示的“反”量化。該方框1620的輸出被輸入到合成濾波器組1622中,其執(zhí)行包括頻率/時間變換以及典型地如重疊和相加的時域混疊消除操作和/或合成端窗口操作的分析濾波,以最后獲得該輸出音頻信號。
傳統(tǒng)地,有效語音編碼已經(jīng)基于線性預(yù)測編碼(LPC)以模型化與殘差激發(fā)信號的有效編碼一起的人類聲道的共振效應(yīng)。LPC和激發(fā)參數(shù)二者被從編碼器傳輸?shù)浇獯a器。這一原理如圖17a和17b所示。
圖17a指示了基于線性預(yù)測編碼的編碼/解碼系統(tǒng)的編碼器端。語音輸入被輸入到LPC分析器1701中,其在其輸出端提供LPC濾波器系數(shù)。基于這些LPC濾波器系數(shù),調(diào)整LPC濾波器1703。該LPC濾波器輸出了一種頻譜白化音頻信號,其也被稱作“預(yù)測誤差信號”。該頻譜白化音頻信號被輸入到產(chǎn)生激發(fā)參數(shù)的殘差/激發(fā)編碼器1705中。因此,該語音輸入一方面被編碼成激發(fā)參數(shù),以及另一方面為LPC系數(shù)。
在圖17b中的解碼端上,激發(fā)參數(shù)被輸入進激發(fā)解碼器1707,其產(chǎn)生可被輸入到LPC合成濾波器中的激發(fā)信號。使用該被傳輸?shù)腖PC濾波器系數(shù)對該LPC合成濾波器進行調(diào)整。因此,該LPC合成濾波器1709產(chǎn)生了一種重建或合成后的語音輸出信號。
隨著時間的推移,已經(jīng)提出了許多對于如多脈沖激發(fā)(MPE)、規(guī)則脈沖激發(fā)(RPE),以及碼激式線性預(yù)測(CELP)的殘差(激發(fā))信號的有效和感知上令人信服再現(xiàn)的方法。
線性預(yù)測編碼試圖基于對特定數(shù)量的過去值的觀察作為對過去觀察的線性組合,以對序列的當(dāng)前采樣值產(chǎn)生估計值。為了減少該輸入信號中的冗余,編碼器LPC濾波器“白化”其頻譜包絡(luò)中的輸入信號,即,其是該信號的頻譜包絡(luò)的反相的模型。相反地,解碼器LPC合成濾波器是信號的頻譜包絡(luò)的模型。具體地,公知的自回歸(AR)線性預(yù)測分析已知是通過全極點接近來對信號的頻譜包絡(luò)模型化。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于弗朗霍夫應(yīng)用科學(xué)研究促進協(xié)會;沃伊斯亞吉公司,未經(jīng)弗朗霍夫應(yīng)用科學(xué)研究促進協(xié)會;沃伊斯亞吉公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200980127096.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





