[發明專利]一種適應于個性化交互系統的音頻對象編碼方法有效
| 申請號: | 201910972165.8 | 申請日: | 2019-10-14 |
| 公開(公告)號: | CN110739000B | 公開(公告)日: | 2022-02-01 |
| 發明(設計)人: | 胡瑞敏;胡晨昊;王曉晨;武庭照;吳玉林 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G10L19/008 | 分類號: | G10L19/008;G10L19/02 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魏波 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 適應 個性化 交互 系統 音頻 對象 編碼 方法 | ||
本發明公開了一種適應于個性化交互系統的音頻對象編碼方法,在編碼階段,本發明首先將待編碼的多個音頻對象,從時域分幀加窗變換到頻域;根據每個對象的能量大小進行排序,確定對象編碼順序;循環提取每步編碼對象及對應下混信號,依此計算每步的參數及殘差;利用奇異值分解,對大尺寸的殘差矩陣進行分解壓縮;將最終混合信號,參數及殘差分解矩陣合成碼流。在解碼階段,利用分解矩陣重構殘差;然后根據每個對象的殘差與參數,逐步將對象從下混信號中解碼重建。本發明通過有順序的多步編解碼與殘差分解,可以同時保證低碼率和高質量的重建每個音頻對象。
技術領域
本發明屬于數字音頻信號處理技術領域,具體涉及一種多步逐級下混與重建的音頻對象編碼解碼方法,適用于空間音頻的個性化交互系統,允許在用戶根據自身需求調整音頻對象。
背景技術
基于聲道編碼的空間音頻技術可以實現三位音頻場景的編碼與重建,比單聲道或立體聲音頻技術更能提供身臨其境的聽覺體驗,如MPEG空間音頻編碼、NHK22.2揚聲器陣列等,因而越來越受到人們的歡迎。但傳統基于聲道的空間音頻系統仍然存在的局限性,其靈活性較低,難以滿足支持個性化交互功能的音頻服務系統。因此,新一代音頻編碼技術將音頻場景分解為一系列獨立對象,以對象為基本元素進行編碼傳輸。
國際上許多學者和研究機構已在音頻對象編碼方面的開展了研究工作,并提出多種音頻對象編碼方法。其中最具代表性的是德國知名研究機構Fraunhofer提出的空間音頻對象聯合編碼技術(Spatial audio object coding,SAOC)[文獻1],該方法編碼傳輸多個音頻對象的下混信號和邊信息,在解碼端根據邊信息將音頻對象從下混信號中分離重構。SAOC方法可以以低碼率傳輸大量音頻對象,大大提升了音頻對象編碼效率,并使得用戶可以根據自身的聽音需求進行個性化的調整與交互[文獻2]。
在SAOC框架中,為了獲得較低的編碼比特率,在同一子帶中使用相同的參數作為邊信息。這導致了頻域混疊失真,嚴重降低了聽力體驗,例如一個音頻對象信號播放時會包含其他對象信號成分混合[文獻3]。甚至,這一問題會影響到后續用戶端的空間音頻個性化交互服務。一些研究利用殘差信號來補償這一失真,提高解碼音質[文獻4][文獻5]。然而,這些方法只能提高某個目標對象的聽音體驗,其他對象仍然存在混疊失真問題,并不能保證每個音頻對象都有較好的解碼音質。
文獻1:Breebaart,J.,Engdeg°ard,J.,Falch,C.,et al.:Spatial audio objectcoding (saoc)-the upcoming mpeg standard on parametric object based audiocoding.In:Audio Engineering Society Convention 124.Audio Engineering Society(2008).
文獻2:Coleman,P.,Franck,A.,Francombe,J.,et al.:An audio-visual systemfor objectbased audio:From recording to listening.IEEE Transactions onMultimedia 20(8),1919-1931(2018).
文獻3:Wu,T.,Hu,R.,Wang,X.,Ke,S.:Audio object coding based on optimalparameter frequency resolution.Multimedia Tools and Applications pp.1-16(2019).文獻4:Kim,K.,Seo,J.,Beack,S.,Kang,K.,Hahn,M.:Spatial audio objectcoding with two-step coding structure for interactive audio service.IEEETransactions on Multimedia 13(6),1208-1216(2011).
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910972165.8/2.html,轉載請聲明來源鉆瓜專利網。





