[發(fā)明專利]用于編碼和解碼音頻樣本的音頻編碼器和解碼器有效

申請?zhí)枺?/td>	200980127096.5	申請日：	2009-06-26
公開（公告）號：	CN102089811A	公開（公告）日：	2011-06-08
發(fā)明（設(shè)計）人：	杰雷米·勒孔特;菲利普·古爾奈;斯特凡·拜爾;馬庫斯·馬特拉斯;布魯諾·貝塞特;伯恩哈特·格里爾	申請（專利權(quán)）人：	弗朗霍夫應(yīng)用科學(xué)研究促進協(xié)會;沃伊斯亞吉公司
主分類號：	G10L19/02	分類號：	G10L19/02;G10L19/14
代理公司：	北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201	代理人：	張大威
地址：	德國***	國省代碼：	德國;DE
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	用于編碼解碼音頻樣本編碼器解碼器
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明屬于在不同編碼域進行音頻編碼的領(lǐng)域，例如在時域和變換域中。

在低比特率音頻和語音編碼技術(shù)的背景中，傳統(tǒng)中已采用數(shù)個不同編碼技術(shù)以獲得在給定的比特率下具有可能最佳主觀質(zhì)量的如此低比特率編碼信號。一般的音樂/聲音信號的編碼器旨在根據(jù)使用一種感知模型(“感知音頻編碼”)估算輸入信號而獲得的掩蔽臨界曲線以通過塑造量化誤差的頻譜(及時間)形狀來優(yōu)化主觀質(zhì)量。另一方面，極低比特率下的語音編碼已經(jīng)顯示出在其基于人類語音的產(chǎn)生模式時高效運行，即采用線性預(yù)測編碼(LPC)以模型化與殘差激發(fā)信號的有效編碼一起的人類聲道的共振效應(yīng)。

作為這兩種不同方式的結(jié)果，常用音頻編碼器例如MPEG-1Layer?3(MPEG＝運動圖像專家組)，或MPEG-2/4先進音頻編碼(AAC)通常對于非常低數(shù)據(jù)率下的語音信號執(zhí)行的效果不如像專用LPC式語音編碼器一樣好，由于缺乏對聲源模型的利用。相反地，LPC式語音編碼器在被應(yīng)用于常見音樂信號時，由于其無法根據(jù)掩蔽臨界曲線靈活地形成編碼失真的頻譜包絡(luò)而通常不能實現(xiàn)令人信服的結(jié)果。下面，描述了將LPC式編碼和感知式音頻編碼二者優(yōu)點結(jié)合進單一架構(gòu)中的概念，并因此描述了對常見音頻和語音信號二者都有效的統(tǒng)一語音編碼。

傳統(tǒng)地，感知語音編碼器使用一種基于濾波器組的方法以根據(jù)掩蔽曲線的估算有效地編碼音頻信號以及形成量化失真。

圖16a示出了一種單聲道感知編碼系統(tǒng)的基本方框圖。分析濾波器組1600被用于將時域樣本映射成子采樣頻譜分量。基于頻譜分量的數(shù)量，該系統(tǒng)也被稱作子帶編碼器(數(shù)量小的子頻帶，例如32)或變換編碼器(數(shù)量大的頻率線，例如512)。感知(心理聲學(xué))模型1602被用來估算實際時間所依的掩蔽閾值。該頻譜(“子帶”或“頻域”)分量被量化和編碼1604，以將量化噪聲隱藏在實際傳輸信號下且在解碼后無法察覺的方式。這通過改變時間及頻率上頻譜值的量化粒度而實現(xiàn)。

量化和熵編碼后的頻譜系數(shù)或子頻帶值，與邊信息一起，輸入進提供了適于被傳輸和存儲的已編碼音頻信號的比特流格式器1606中。方框1606的輸出比特流可被Internet網(wǎng)傳輸，或可被存儲在任意可機讀數(shù)據(jù)載體上。

在解碼器端，解碼器輸入接口1610接收已編碼。方框1610將熵編碼后和量化后的頻譜/子頻帶值從邊信息處分離。該已編碼的頻譜值被輸入如霍夫曼解碼器的熵解碼器中，其位于1610和1620之間。該熵解碼器的輸出是量化后的頻譜值。這些量化頻譜值被輸入到再量化器中，其執(zhí)行一種如圖16a中1620處所示的“反”量化。該方框1620的輸出被輸入到合成濾波器組1622中，其執(zhí)行包括頻率/時間變換以及典型地如重疊和相加的時域混疊消除操作和/或合成端窗口操作的分析濾波，以最后獲得該輸出音頻信號。

傳統(tǒng)地，有效語音編碼已經(jīng)基于線性預(yù)測編碼(LPC)以模型化與殘差激發(fā)信號的有效編碼一起的人類聲道的共振效應(yīng)。LPC和激發(fā)參數(shù)二者被從編碼器傳輸?shù)浇獯a器。這一原理如圖17a和17b所示。

圖17a指示了基于線性預(yù)測編碼的編碼/解碼系統(tǒng)的編碼器端。語音輸入被輸入到LPC分析器1701中，其在其輸出端提供LPC濾波器系數(shù)。基于這些LPC濾波器系數(shù)，調(diào)整LPC濾波器1703。該LPC濾波器輸出了一種頻譜白化音頻信號，其也被稱作“預(yù)測誤差信號”。該頻譜白化音頻信號被輸入到產(chǎn)生激發(fā)參數(shù)的殘差/激發(fā)編碼器1705中。因此，該語音輸入一方面被編碼成激發(fā)參數(shù)，以及另一方面為LPC系數(shù)。

在圖17b中的解碼端上，激發(fā)參數(shù)被輸入進激發(fā)解碼器1707，其產(chǎn)生可被輸入到LPC合成濾波器中的激發(fā)信號。使用該被傳輸?shù)腖PC濾波器系數(shù)對該LPC合成濾波器進行調(diào)整。因此，該LPC合成濾波器1709產(chǎn)生了一種重建或合成后的語音輸出信號。

隨著時間的推移，已經(jīng)提出了許多對于如多脈沖激發(fā)(MPE)、規(guī)則脈沖激發(fā)(RPE)，以及碼激式線性預(yù)測(CELP)的殘差(激發(fā))信號的有效和感知上令人信服再現(xiàn)的方法。

線性預(yù)測編碼試圖基于對特定數(shù)量的過去值的觀察作為對過去觀察的線性組合，以對序列的當(dāng)前采樣值產(chǎn)生估計值。為了減少該輸入信號中的冗余，編碼器LPC濾波器“白化”其頻譜包絡(luò)中的輸入信號，即，其是該信號的頻譜包絡(luò)的反相的模型。相反地，解碼器LPC合成濾波器是信號的頻譜包絡(luò)的模型。具體地，公知的自回歸(AR)線性預(yù)測分析已知是通過全極點接近來對信號的頻譜包絡(luò)模型化。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于弗朗霍夫應(yīng)用科學(xué)研究促進協(xié)會;沃伊斯亞吉公司，未經(jīng)弗朗霍夫應(yīng)用科學(xué)研究促進協(xié)會;沃伊斯亞吉公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/200980127096.5/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：制備層壓的玻璃/聚烯烴膜結(jié)構(gòu)體的方法
下一篇：用以將信號的不同段分類的方法與鑒別器

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用頻譜分析，例如變換聲碼器或子頻帶聲碼器
G10L19-04 .利用預(yù)測技術(shù)
G10L19-06 ..例如短期預(yù)測系數(shù)的頻譜特征的確定或編碼
G10L19-08 ..激勵函數(shù)的確定或編碼；長期預(yù)測參數(shù)的確定或編碼
G10L19-14 ..不包括在G10L 19/06至G10L 19/12組中的零部件，例如增益編碼、后置濾波設(shè)計或聲碼器結(jié)構(gòu)

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】