[發明專利]一種適應于個性化交互系統的音頻對象編碼方法有效
| 申請號: | 201910972165.8 | 申請日: | 2019-10-14 |
| 公開(公告)號: | CN110739000B | 公開(公告)日: | 2022-02-01 |
| 發明(設計)人: | 胡瑞敏;胡晨昊;王曉晨;武庭照;吳玉林 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G10L19/008 | 分類號: | G10L19/008;G10L19/02 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魏波 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 適應 個性化 交互 系統 音頻 對象 編碼 方法 | ||
1.一種適應于個性化交互系統的音頻對象編碼方法,其特征在于,包括以下步驟:
步驟A1:對輸入的音頻對象序列進行分幀加窗,將時域信號轉換到頻域信號,得到每個音頻對象的時頻矩陣;
步驟A2:根據每個對象的時頻矩陣,計算對象頻域能量進行排序,確定多步逐級編碼中每步需要編碼的對象;
步驟A3:根據確定的編碼順序,逐步下混并計算對應的邊信息;所述逐步下混,指下混分多步進行,每一步將當前處理流程中輸入的對象對數據進行矩陣相加,得到一個和矩陣,和矩陣作為下一步下混的對象之一;對象對指兩個需要進行處理的輸入信號,在第一步下混時對象對包含兩個音頻對象,在第二步及以后的步驟中對象對包含一個音頻對象和上一步得到的中間下混信號,最后一步的輸出為最終下混信號;其中,中間下混信號并不作為傳輸碼流進行傳輸;所述邊信息包含對象殘差與對象增益參數矩陣;其中,對象增益參數通過對象對中兩個輸入信號的能量比計算得到;
步驟A4:利用奇異值分解將邊信息中的對象殘差分解為左、右奇異矩陣與奇異值;
步驟A5:量化奇異矩陣、奇異值及對象增益參數,獲得邊信息碼流;
步驟A6:將步驟A3中的最終下混信號進行編碼,獲得下混信號碼流;
步驟A7:步驟A5和步驟A6得到的碼流合成為輸出碼流,傳輸到解碼端。
2.根據權利要求1所述的適應于個性化交互系統的音頻對象編碼方法,其特征在于:步驟A1中,通過分幀、加窗與改進離散余弦變換MDCT將原本時域的一維聲音信號,變為頻域的二維頻譜圖,輸出得到的是矩陣形式的對象數據。
3.根據權利要求1所述的適應于個性化交互系統的音頻對象編碼方法,其特征在于:步驟A2中,根據矩陣形式的對象數據,計算對象頻域能量,選擇從大到小的能量排序方式,確定每步需要編碼的對象順序;編碼順序,指優先編碼能量較大的音頻對象;
所述對象頻域能量的計算如下式所示:
其中,||Si||表示第i個音頻對象的總能量,N為編碼的對象個數;Oi表示第i個對象在所有對象總能量中的占比,根據每個對象Oi值從大到小排序,優先編碼Oi值大的對象。
4.根據權利要求1所述的適應于個性化交互系統的音頻對象編碼方法,其特征在于:步驟A3中,逐步下混并計算每步編碼對象的邊信息,每步僅計算編碼一個對象邊信息;
對象殘差與對象增益參數的計算公式如下所示:
其中,R(i)為第i+1個對象的殘差信號,Go(i)為第i+1個對象的增益參數,Gd(i)為第i個下混信號的增益參數;Xi表示第i步得到的下混信號,Po(i)為對象i的能量,Pd(i)為第i步下混信號的能量;N表示需要編碼的對象個數。
5.根據權利要求1所述的適應于個性化交互系統的音頻對象編碼方法,其特征在于:步驟A4中,通過奇異值分解方法對多個對象的殘差矩陣進行降維壓縮,減少殘差信息帶來的數據量上升;殘差矩陣被分解為三個小矩陣,分別為左奇異矩陣、奇異值矩陣、右奇異矩陣;其中,奇異值矩陣僅傳輸矩陣對角線上的數值。
6.根據權利要求1所述的適應于個性化交互系統的音頻對象編碼方法,其特征在于:步驟A5中,通過查表法量化邊信息,量化前會對殘差分解矩陣與增益參數矩陣的元素值進行歸一化處理;然后根據每個元素值的大小在量化表中查找最接近的量化值,并將對應的量化索引作為邊信息量化碼流輸出。
7.根據權利要求1所述的適應于個性化交互系統的音頻對象編碼方法,其特征在于:步驟A6中,最終下混信號采用AAC編碼器進行編碼后輸出碼流。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910972165.8/1.html,轉載請聲明來源鉆瓜專利網。





