[發明專利]一種基于張量分解的多聲道音頻信號壓縮方法有效
| 申請號: | 201210579570.1 | 申請日: | 2012-12-27 | 
| 公開(公告)號: | CN102982805A | 公開(公告)日: | 2013-03-20 | 
| 發明(設計)人: | 王晶;謝湘;匡鏡明 | 申請(專利權)人: | 北京理工大學 | 
| 主分類號: | G10L19/008 | 分類號: | G10L19/008 | 
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 | 
| 地址: | 100081 *** | 國省代碼: | 北京;11 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 張量 分解 多聲道 音頻 信號 壓縮 方法 | ||
1.一種基于張量分解的多聲道音頻信號壓縮方法,其特征在于,包括以下步驟:
步驟一:在編碼端,對待處理的聲道數目為R的多聲道音頻信號,首先將每個聲道的音頻信號采用漢明窗進行分幀,幀長為L,幀移為M,從而把每個聲道的音頻信號分成N幀,順序排列后得到每個聲道的幀序列;
步驟二:對每個聲道,對分幀后的每幀音頻信號分別進行時頻變換,每幀音頻信號經過該時頻變換后得到長度為S的頻域系數;
步驟三:對每個聲道,將每一幀所對應的長度為S的頻域系數作為矩陣的每一行,即將N幀音頻信號的頻域系數構成一個大小為N×S的系數矩陣;
將所有R個聲道的系數矩陣進行依次排列,構成大小為R×N×S的三階張量信號X,所述的三階分別稱為:聲道序列階、幀序列階、頻域系數階;
步驟四:對步驟三構造的三階張量信號X進行張量分解,即分解為:
G×1U(1)×2U(2)×3U(3)????(1)
其中U(1)、U(2)、U(3)彼此之間正交,分別代表張量信號在聲道序列階、幀序列階、頻域系數階上進行投影的主分量,即,
U(1)為該張量信號分解時在聲道序列階進行秩為O的低秩投影矩陣,矩陣大小為R×O,其中參數O應滿足1≤O≤R;
U(2)為該張量信號分解時在幀序列階進行秩為P的低秩投影矩陣,大小為N×P,其中參數P應滿足1≤P≤N;
U(3)為張量信號分解時在頻域系數階進行的秩為Q的低秩投影矩陣,大小為S×Q,其中參數Q應滿足1≤Q≤S;
G為三階低秩核張量,在聲道序列階、幀序列階、頻域系數階上的維度分別是上述的O、P、Q,核張量G通過下式計算得到:
G=X×1U(1)T×2U(2)T×3U(3)T????(2)
符號T表示偽逆,×1、×2、×3分別表示張量第一階、第二階、第三階的張量矩陣乘,張量矩陣乘定義如下:
設有一個大小為I1×I2×…×IN的N階張量H,一個大小為J×In的矩陣A,則張量的n階矩陣乘H×nA的結果是一個大小為I1×I2×…×In-1×J×In+1×…×IN的N階張量,其中1≤n≤N;
步驟五:對步驟四得到的三階低秩核張量G進行降維獲得一維序列,然后對該一維序列進行量化編碼,獲得壓縮后的比特流數據,用于傳輸或存儲,而低秩投影矩陣U(1)、U(2)、U(3)不進行量化編碼處理;
步驟六:在解碼端,對壓縮后的比特流數據進行與步驟五中量化編碼方法相應的解碼和解量化,再進行與步驟五相應的升維處理,得到恢復后的低秩核張量G';
結合預先訓練得到的三個低秩投影矩陣U'(1)、U′(2)、U′(3),進行張量信號重構得到恢復后的三階張量信號Y,重構表示為:
Y=G′×1U'(1)×2U'(2)×3U'(3)????(4)
其中張量信號Y在聲道序列階、幀序列階、頻域系數階上的維度分別是R、N、S;
步驟七:步驟六得到的R×N×S的三階張量信號Y中包含R個聲道的N個幀,其中每幀長度為S,從Y中抽取每個聲道的N×S系數矩陣,對矩陣的每行的S個數據,分別進行與步驟二相應的時頻反變換,得到恢復的每幀音頻信號;
步驟八:將步驟七得到的每個聲道的每幀音頻信號通過交疊相加恢復每個聲道的音頻信號,幀長為L,幀間交疊長度為M。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210579570.1/1.html,轉載請聲明來源鉆瓜專利網。





