[發明專利]用于音頻編碼中的DTX拖尾的方法和裝置有效
| 申請號: | 201380073608.0 | 申請日: | 2013-12-12 |
| 公開(公告)號: | CN105009208B | 公開(公告)日: | 2019-01-18 |
| 發明(設計)人: | 斯蒂芬·布魯恩;托馬斯·詹森托夫特戈德;馬丁·紹爾斯戴德 | 申請(專利權)人: | 瑞典愛立信有限公司 |
| 主分類號: | G10L19/012 | 分類號: | G10L19/012 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 蘇志蓮 |
| 地址: | 瑞典斯*** | 國省代碼: | 瑞典;SE |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 音頻 編碼 中的 dtx 方法 裝置 | ||
提供了用于音頻編碼的發送節點和接收節點及其中的方法。所述節點可操作以對話音進行編碼/解碼并且在話音非活動期間應用不連續傳輸(DTX)方案,該DTX方案包括發送/接收靜音插入描述符(SID)幀。發送節點中的方法包括:從多個(N個)拖尾幀中確定代表背景噪聲的幀集合Y,以及還向接收節點發送N個拖尾幀,所述N個拖尾幀至少包括所述幀集合Y。該方法還包括:與發送N個拖尾幀相關聯地向接收節點發送第一SID幀,其中,第一SID幀包括向接收節點指示所確定的拖尾幀集合Y的信息。該方法使接收節點能夠基于最適合于該目的的拖尾幀生成舒適噪聲。
技術領域
本文所述的解決方案大體上涉及音頻編碼,具體地,涉及與音頻編碼中的不連續傳輸(DTX)相關聯的拖尾幀。
背景技術
諸如3GPPAMR(3GPP TS 26.071)和AMR-WB(3GPP TS 26.171)等的當前音頻或話音編碼標準以及各種ITU-T話音編碼標準(例如,ITU-T推薦G.729、ITU-T推薦G.718)包括不連續傳輸方案(DTX),該不連續傳輸方案(DTX)在話音非活動期間暫停話音傳輸,并且取而代之地以與用于編碼的活動話音的比特率和幀傳輸率相比明顯降低的比特率和幀傳輸率來發送靜音插入描述符(SID)幀。DTX的目的是提高傳輸效率,這進而減少了話音通信的成本和/或增加了給定通信系統中同時可能的電話連接的數量。
當前最先進的利用DTX的通信系統在活動話音段期間發送常規話音編碼幀。在諸如話音暫停等的非活動段期間,這些系統更確切地發送SID幀,接收機根據SID幀生成所謂的舒適噪聲作為非活動信號的替代信號。為了實現最佳可能的DTX效率,可能期望僅在活動話音期間而非在非活動段期間(例如,在話音暫停期間)發送話音編碼幀。
為了對話音和非活動進行區分,在編碼側或發送側使用語音活動檢測器(VAD)。在與活動話音段相對應的幀期間,提升(raise)了VAD標記。該構思實際上并且特別是在話音存在于背景噪聲中的情形中,遭受VAD分類錯誤。也即是說,非活動時段被分類為活動話音時段,反之亦然。VAD的主要問題之一是話音結束點的檢測,即,信號從活動話音改變為非活動的精確時間點。該問題的主要原因在于,在話音實際停止之前,很多話音偏移緩慢地衰減,使得聊天進發(talk spurt)結束可能非常好地被背景噪聲覆蓋。該問題的結果可能是這種話音偏移被分類為非活動,這可能導致未將相應的信號幀作為活動話音而是作為靜音信號來編碼、發送和重構,其中,針對該靜音信號生成舒適噪聲。這意味著話音偏移(話音時段的結束)可能被感知為截斷的,這導致重構的話音的質量甚至可理解性顯著下降。換言之,這可能導致較差的用戶體驗。
諸如AMR和AMR-WB等的當前最先進的編解碼器通過將利用舒適噪聲合成的DTX操作的開始延遲到VAD檢測偏移之后多個幀來解決該問題。這是使用編碼器處的DTX控制邏輯來完成的,DTX控制邏輯延長或添加將輸入信號作為活動話音編碼(即使VAD標記指示非活動也是如此)的時間段。該時段被稱作拖尾時段,并且在AMR和AMR-WB的情況下,拖尾時段的長度為7個幀。
拖尾時段不僅用作用于避免話音后段(或偏移)截斷的方式,而且還用作用于SID幀參數分析的方式。在AMR和AMR-WB的情況下,未發送(充分長的)聊天進發之后的第一SID幀參數,而是由解碼器根據在拖尾時段期間接收和存儲的話音幀參數來計算該第一SID幀參數(3GPP TS 26.092;3GPP TS 26.192)。基于在拖尾時段期間接收的話音幀參數進行SID幀參數的計算的目的是節省傳輸資源(如果不這樣的話,傳輸資源將花費在SID幀傳輸上)并且最小化潛在的傳輸錯誤對第一SID幀參數的影響。
在所述的最先進解決方案中描述的拖尾時段的主要問題是它折衷了DTX方案的效率。將拖尾幀作為活動話音進行編碼,而不論它們是否可能是非活動幀。如果話音在非活動時段之間包括頻繁的單獨聊天進發,則以高比特率將相當大量的幀作為話音幀而不是舒適噪聲幀進行編碼。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于瑞典愛立信有限公司,未經瑞典愛立信有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380073608.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:光學信息記錄介質的制造方法
- 下一篇:分為兩部分的語音識別





