[發明專利]一種基于張量分解的多聲道音頻信號壓縮方法有效
| 申請號: | 201210579570.1 | 申請日: | 2012-12-27 |
| 公開(公告)號: | CN102982805A | 公開(公告)日: | 2013-03-20 |
| 發明(設計)人: | 王晶;謝湘;匡鏡明 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G10L19/008 | 分類號: | G10L19/008 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 張量 分解 多聲道 音頻 信號 壓縮 方法 | ||
技術領域
本發明涉及一種多聲道音頻信號壓縮方法,尤其是一種基于張量分解的多聲道信號壓縮方法,屬于音頻信號處理技術領域,尤其是空間音頻編解碼技術領域。
背景技術
在數字音頻應用領域,多聲道音頻能夠提供臨場感的環繞聲音感受,這是傳統立體聲信號所不能提供的。隨著人們對數字音頻信號的高享受的需求,高效的音頻信號壓縮方法越來越被研究者重視。為了產生空間環繞的效果,多聲道信號編解碼技術例如Dolby?AC-3,DTS以及MPEG?Surround等相繼被提出,這些方法在編碼端大多需要傳輸由多聲道下混后的單聲道或立體聲信號,并提取空間音頻參數一并傳輸,以便在解碼端再上混為多聲道信號。
隨著虛擬現實、3D游戲、高質量視頻會議等交互式音頻應用的發展,多聲道音頻信號需要以盡可能低的速率壓縮傳輸,而聲道數目的增多(甚至于幾百聲道)難以有較大程度的壓縮效果,如何利用聲道間和聲道內的相關性進行高效壓縮是多聲道音頻編碼領域的關鍵問題。多聲道信號相比傳統的單聲道和立體聲信號研究的影響因素增多,至少涉及聲道、時域、頻域三種因素,構成一種高階信號空間,適合用張量結構表示和分析,進而通過構建張量信號利用張量分解方法進行低秩近似達到壓縮的目的。
張量分析方法近十年來在三維圖像處理、說話人識別、數據挖掘等信號處理領域已有廣泛應用,例如在語音信號的特征提取方面,Jeong等人提出了利用張量分析對語音信號的訓練模型狀態、特征維度、說話人、噪聲空間進行多線性奇異值分析的方法;Mesgarani等人提出了聲音信號從耳蝸到大腦皮層階段產生的多尺度暫態語譜圖特征,利用多線性降維技術進行處理,可以在低信噪比或者高回響的環境下或得較高的分辨率;我國公開號為CN102592593A(公開日為2012年7月18日)的專利“一種考慮語音中多線性群組稀疏性的情緒特征提取方法”,考慮了語音信號中包括的時間、頻率、尺度、方向信息的多重因素,利用多線性群組稀疏分解的方法進行特征提取。而在多聲道音頻信號處理領域,尚未見有運用張量分解進行空間音頻表示和壓縮的應用。
發明內容
本發明的目的是為了充分表征和高效壓縮多聲道音頻信號,提出了一種基于張量分解的多聲道音頻信號壓縮方法,解決了傳統多聲道音頻編解碼只能用矢量或矩陣代數進行運算,不能同時考慮聲道和時頻的多因素影響的問題。
為了實現上述目的,本發明方法的基本思路是:對多聲道音頻信號,首先在編碼端,將每個聲道的音頻信號通過交疊分幀和時頻變換,對變換后的多聲道信號建立包含聲道、時域和頻域的三階張量信號,并利用張量分解進行低秩近似,得到低秩核張量和三個低秩投影矩陣,其中低秩核張量用于量化編碼壓縮,三個低秩投影矩陣用于訓練過程,在解碼端,將解量化和解碼后的低秩核張量結合事先訓練好的三個低秩投影矩陣,通過張量信號重構過程得到變換域的多聲道信號,最后對每個聲道信號進行反變換,并通過交疊相加恢復原來的每個聲道的音頻信號。
本發明所述一種基于張量分解的多聲道音頻信號壓縮方法,包括以下步驟:
步驟一:在編碼端,對待處理的聲道數目為R的多聲道音頻信號,首先將每個聲道的音頻信號采用漢明窗進行分幀,幀長為L,幀移為M,從而把每個聲道的音頻信號分成N幀,順序排列后得到每個聲道的幀序列;
步驟二:對每個聲道,對分幀后的每幀音頻信號分別進行時頻變換,每幀音頻信號經過該時頻變換后得到長度為S的頻域系數;
若每幀音頻信號補零后進行時頻變換,則S大于L;
若每幀音頻信號直接進行時頻變換,則S等于L;
若每幀音頻信號直接進行時頻變換后只保留能量較大的頻域系數,則S小于L;
若每幀音頻信號補零后進行時頻變換后只保留能量較大的頻域系數,則S的大小視具體補零的長度以及保留頻域系數的個數而定;
所述的時頻變換為正交變換;
所述的時頻變換優選采用DCT離散余弦變換;
步驟三:對每個聲道,將每一幀所對應的長度為S的頻域系數作為矩陣的每一行,即將N幀音頻信號的頻域系數構成一個大小為N×S的系數矩陣;
將所有R個聲道的系數矩陣進行依次排列,構成大小為R×N×S的三階張量信號X,所述的三階分別稱為:聲道序列階、幀序列階、頻域系數階;
步驟四:對步驟三構造的三階張量信號X進行張量分解,即分解為:
G×1U(1)×2U(2)×3U(3)????(1)
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210579570.1/2.html,轉載請聲明來源鉆瓜專利網。





