[發(fā)明專利]音頻流錯誤隱藏的方法、裝置和系統(tǒng)無效
| 申請?zhí)枺?/td> | 200610159697.2 | 申請日: | 2006-10-01 |
| 公開(公告)號: | CN101155140A | 公開(公告)日: | 2008-04-02 |
| 發(fā)明(設計)人: | 萬華林;王喆;張軍 | 申請(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號: | H04L12/56 | 分類號: | H04L12/56;H04L1/00 |
| 代理公司: | 北京德琦知識產(chǎn)權(quán)代理有限公司 | 代理人: | 宋志強;麻海明 |
| 地址: | 518129廣東省*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻 錯誤 隱藏 方法 裝置 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及實時音頻通信技術(shù),特別涉及音頻流錯誤隱藏的方法、裝置和系統(tǒng)。
背景技術(shù)
人們很早就開始從事音頻分類研究,但對于不同的應用場景,音頻分類的方法及分類的結(jié)果不盡相同。例如,1、在高級音響設備的噪音抑制中,常用調(diào)頻分析或貝葉斯分類器將音頻信號分類。2、為了更好地索引和檢索因特網(wǎng)上音頻資源,人們進行了基于內(nèi)容的音頻分類和檢索研究。比較有代表性的基于內(nèi)容的音頻分類工作中詳細分析了音頻的區(qū)別性特征,包括響度(loudness)、基音(pitch)、諧度(harmonicity)等,并且設計了音頻的分類器。3、音頻分類另外一種應用是服務于音頻--特別是語音編碼器的語音激活檢測器(VAD),目的是用來檢測語音通信時是否有話音存在,對話音和非話音分別采用不同的編碼方式,以達到在不降低通話質(zhì)量的情況下節(jié)省話路資源的作用。
在實時音頻傳輸系統(tǒng)(如VoIP)中,網(wǎng)絡傳輸造成音質(zhì)下降的原因主要是時延、靜電干擾和包丟失,其中,包丟失是音質(zhì)下降的最主要原因。實際通訊網(wǎng)絡總是存在著一定干擾,因此存在一定的包丟失概率,盡管協(xié)議低層有糾錯編碼,但只能解決包內(nèi)誤碼,無法解決丟包問題。此外,由于實時音頻業(yè)務有嚴格的延時限制,分組延遲超過一個極限也將被視為丟失。為了能夠在一定丟包率情況下,仍然保證一定的通訊質(zhì)量,很多編解碼算法中都集成了錯誤隱藏技術(shù),用來消除丟包的影響。
圖1為音頻流錯誤隱藏的框圖。如圖1所示,壓縮音頻信號經(jīng)過IP網(wǎng)絡或其他不可靠網(wǎng)絡的傳輸后,通常將接收到的音頻數(shù)據(jù)包存放在抖動緩存器,該抖動緩沖器用于解決遲包、早包的重排序等功能,然后進行丟包、錯包檢測。如果有丟包或錯包發(fā)生,系統(tǒng)將啟動錯誤隱藏進行丟包補償,否則將正確接收音頻包解碼輸出。
音頻實時傳輸中的丟包恢復技術(shù)按照處理階段可以劃分為兩個大類:基于發(fā)送端的修復和基于接收端的修復。
●基于發(fā)送端的錯誤隱藏
基于發(fā)送端的丟包恢復由發(fā)送端發(fā)起,并需要發(fā)送端和接收端協(xié)同進行。常見的方法有,增加冗余度、前向糾錯、優(yōu)先級設置和分類處理等。
1、增加冗余度:增加數(shù)據(jù)的冗余度可以提高系統(tǒng)的容錯能力,但是同時增加了帶寬。
2、前向糾錯(FEC):該策略也依賴于在傳輸流附加可修復丟失數(shù)據(jù)包的信息,利用塊或代數(shù)碼字生成能輔助糾錯的額外傳輸包,同樣需要增加帶寬。
3、優(yōu)先級設置方法:這種技術(shù)需要網(wǎng)絡支持并按優(yōu)先級傳輸分組,否則無法實現(xiàn),并且只能改善網(wǎng)絡擁塞造成的丟包概率。
4、分類處理方法:在語音編碼中,為了在接收端更好地采用波形替換技術(shù),發(fā)送端可以根據(jù)語音信號的特性分類處理,比如3GPP2VMR-WB和ITU-T?G.729.1將語音幀進一步描述為voiced,unvoiced,voiced?transition,unvoiced?transition,onset等類型,而解碼端接收到之后,利用其前一幀和后一幀的語音幀類型,可以推測出丟幀的類型,解碼器得到丟幀類型后,可以較好的恢復丟失幀的信息。
●基于接收端的錯誤隱藏
不需要發(fā)送端參與的接收端錯誤隱藏技術(shù),本質(zhì)上是對接收到的數(shù)據(jù)通過一系列的方法來估計丟失的數(shù)據(jù),并根據(jù)人的生理特點進行優(yōu)化,基本上是一種被動的修補,通常比較容易實現(xiàn)且不增加帶寬需求。基于接收端的錯誤隱藏方法可分為三類:
1、基于插入的策略:這類技術(shù)包括拼接(Splicing)、靜音和噪聲替代等方法。拼接技術(shù)會擾亂媒體流的時序,效果也不好。靜音替代(用靜音幀填充丟幀位置)的適用范圍非常有限,當數(shù)據(jù)包的丟失頻率很低(小于2%)且缺口寬度小于4ms時,這種方法比較有效;當缺口寬度達40ms時,其效果會讓人無法接受。與靜音替代相比,噪聲替代(用噪音幀填充丟幀位置)可給人帶來更好的主觀聽覺感受,同時能改善語音信號的可分辨性。當采用背景噪聲而不是靜音的時候,人腦能下意識地用正確的聲音來修補語音信號中丟失的部分。插入方式與語音編碼無關(guān),也與分組的編碼無關(guān),只是對解碼后丟失的語音進行處理。
2、基于插值的策略:與插入技術(shù)相比,插值技術(shù)使得處理得到的聲音能給人帶來相對更好的主觀感受。
3、基于重新生成的策略:從丟失包周圍的信息提取解碼狀態(tài),并由此生成丟失包的替代包。這種方法的實現(xiàn)過程比較復雜,但會取得較好的結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200610159697.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





