[發明專利]一種基于兩級濾波的多步音頻對象編解碼方法有效
| 申請號: | 202110494630.9 | 申請日: | 2021-05-07 |
| 公開(公告)號: | CN113314131B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 胡瑞敏;胡晨昊;王曉晨;吳玉林;張靈鯤;柯善發;劉文可 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G10L19/02 | 分類號: | G10L19/02;G10L19/032;G10L19/26 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 王琪 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 兩級 濾波 音頻 對象 解碼 方法 | ||
本發明公開了一種基于兩級濾波的多步音頻對象編解碼方法。在編碼階段,首先將輸入的多個音頻對象信號進行時頻變換;確定對象循環下混順序并提取每步邊信息,輸出最終下混信號;通過第一級濾波器,去除殘差信息中人耳無法感知的冗余成分;通過第二級濾波器,根據每個子帶中殘差信息的能量大小,保留前n個子帶中的殘差;經過二級濾波后的殘差信息進行奇異值分解,大尺寸的殘差矩陣被壓縮為較小的矩陣;將最終混合信號,參數及殘差分解矩陣合成碼流。在解碼階段,首先利用分解的殘差矩陣重構原始殘差,然后根據邊信息,將多個對象從下混信號中逐步剝離。本發明通過利用心理聲學和子帶能量信息,濾除殘差信息中的次要成分,降低音頻對象編碼碼率。
技術領域
本發明屬于數字音頻信號處理技術領域,具體涉及一種基于兩級濾波的多步音頻對象編解碼方法,適用于碼率有限條件下的多音頻對象信號傳輸,允許在不同的碼率要求下傳輸殘差信息。
背景技術
下一代音頻系統與以前的系統有兩個不同的特點:沉浸感和個性化。對于沉浸感,空間音頻技術如MPEG Surround[文獻1]和NHK 22.2[文獻2]可以提供三維音頻再現。對于性化,音頻系統應根據用戶需要兼容不同的播放環境和設備。此外,個性化音頻系統應支持交互式音頻服務。但傳統的空間音頻內容是傳遞給所有用戶,而不考慮環境、偏好和設備等因素。基于聲道的框架使得下一代音頻系統的個性化特性難以實現[文獻3]。
為了克服上述缺陷,實現個性化,音頻系統的框架由基于聲道向基于對象轉變。在基于對象的編碼框架中,聲音場景中的音頻對象可以由單獨的音頻流表示。這種方法可以兼容不同的揚聲器布局,并且可以根據用戶交互進行調整。其中最具代表性的是德國知名研究機構Fraunhofer提出的空間音頻對象聯合編碼技術(Spatial audio object coding,SAOC)[文獻4]。該方法將頻率劃分為28個子帶,提取每個子帶的空間參數。通過這種方式,多個對象可以壓縮成帶有少量邊信息的下混信號。然而,在同一個子帶中使用相同的參數將導致頻率混疊失真,一個音頻目標信號將與其他目標信號成分混合。
有研究嘗試利用殘差信號來減少這些混疊的頻率分量[文獻5]。如果頻率系數為1024,則每幀將有1024個殘差數據需要記錄。這使得未壓縮的邊信息數據量比傳統的SAOC高38倍。為了減小殘差的大小,有方法提出[文獻6]僅提取0~5.5kHz頻率區域的殘差。但以上方法僅能良好恢復單個對象信號,其他對象信號仍然音質較差。[文獻7]提出一種多步音頻對象編碼方法,將多個對象按照一定順序循環下混,提取每個對象的殘差信息,多個對象殘差帶來的數據激增采用奇異值分解(SVD)方法進行減低。然而,殘差信息中仍然含有大量冗余成分,導致比特率較高。
文獻1:Elfitri,I.,Muharam,M.,and Shobirin,M.:Distortion analysis ofhierarchical mixing technique on mpeg surround standard.In:InternationalConference on Advanced Computer Science and Information System.IEEE(2014).
文獻2:Ando,A.:Conversion of multichannel sound signal maintainingphysical properties of sound in reproduced sound field.IEEE Transactions onAudio Speech and Language Processing 19(6),1467-1475(2016).
文獻3:Walton,T.,Evans,M.,Kirk,D.,and Melchior,F.:Exploring object-based content adaptation for mobile audio.Personal and Ubiquitous Computing22(4),707-720(2018).
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110494630.9/2.html,轉載請聲明來源鉆瓜專利網。





