[發明專利]一種基于獨立成分分析的HOA信號壓縮方法有效

申請號：	202110518042.4	申請日：	2021-05-12
公開（公告）號：	CN113345448B	公開（公告）日：	2022-08-05
發明（設計）人：	曲天書;吳璽宏;徐佳浩	申請（專利權）人：	北京大學
主分類號：	G10L19/008	分類號：	G10L19/008;H04S3/02
代理公司：	北京君尚知識產權代理有限公司 11200	代理人：	司立彬
地址：	100871 北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于獨立成分分析 hoa 信號壓縮方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種基于獨立成分分析的HOA信號壓縮方法，其步驟包括：1)對待處理的目標HOA信號進行分幀，然后使用獨立成分分析算法ICA對分幀之后的每一幀信號進行分解；2)根據所有幀的主成分構成傳輸通道中的前景信號，根據ICA得到的每一幀的mixing矩陣W^?1構成該幀的邊信息，根據第i幀的mixing矩陣W^?1得到的un?mixing矩陣W對ICA算法初始化后處理第i+1幀信號；3)編碼器利用前景信號和邊信息恢復得到前景信號的HOA形式表示，并通過與該目標HOA信號比較得到HOA形式的背景通道；背景通道經過簡化后通過設定數量的傳輸通道傳輸給熵編碼器進行壓縮編碼，傳輸通道通過熵編碼器壓縮編碼。

技術領域

本發明屬于音頻信號壓縮技術領域，具體涉及一種基于獨立成分分析的的高階Ambisonics信號壓縮方法。

背景技術

人們對于高品質的視聽體驗的追求由來已久，從數百年前的劇場到專門的音樂演出大廳，從3D電影到虛擬現實技術，人們對視覺與聽覺體驗的關注和品質要求與日俱增。這一趨勢不僅僅體現在大型公共場所，同時也不斷地向家庭與個人空間延伸。在視聽技術的發展中，視頻技術總是領先于音頻技術的發展與普及，視頻技術也吸引了人們更多的注意。同時，視頻技術的發展與普及也提升了人們在音頻方面的需求，從而帶動了音頻技術的發展。近年來，隨著三維音頻技術的出現，人們對于音頻技術的發展也越來越關注。一方面，隨著數字化技術的發展、計算機的普及、多媒體類型與資源的豐富和虛擬現實等技術的出現，消費者不斷追求著更高品質的音頻體驗。另一方面，隨著網絡帶寬以及計算機硬件能力的提升，三維音頻技術的發展日趨成熟，高品質的音頻體驗的內涵不斷拓寬。

三維音頻技術是通過計算機、信號處理等方式對真實世界中聲音事件和三維聲場信息進行獲取、處理、傳輸和渲染回放的音頻技術。三維音頻使聲音具有強烈的空間感、包圍感及沉浸感，給人以“聲臨其境”的非凡聽覺體驗。目前主流的三維音頻技術主要分為波場合成(Wave Field synthesis,WFS)技術和HOA(Higher Order Ambisonics)技術兩類。為了實現更好的音頻聽覺效果，兩類方法都需要大量的通道用于記錄更詳細的聲音場景的信息。雖然這種基于場景的三維音頻信號采樣和存儲更加利于音頻信號空間信息的保存和傳輸，但隨著通道數量的增加將會激增海量數據。對現有傳輸和存儲技術來說，這些海量的數據帶來了技術瓶頸，也限制了三維音頻技術的推廣。因此一種高效的三維音頻壓縮編碼的算法的提出迫在眉睫?；趫鼍暗娜S音頻的高效編解碼技術應當根據三維聲場空間感知的特性，對通道間空間信息的冗余進行分析并壓縮，在保持三維音頻空間感的同時極大地壓縮三維音頻數據的體積。一種高效的三維音頻壓縮編碼算法對三維音頻的發展和實際推廣將會產生重要的作用并具有巨大的價值。不僅如此，高效的三維音頻數據壓縮算法將為三維音頻服務布局的實施與推廣打下堅實基礎。

在3D音頻的主要技術中，HOA技術因為其在錄制、編碼中與回放階段的揚聲器布局無關的性質和HOA格式數據的可旋轉特性，從而在進行三維音頻回放時具有更高的靈活性，因而也得到了更為廣泛的關注和研究。在對HOA數據進行壓縮編碼的研究中，早期的一些工作是直接將一般的音頻編碼技術(如AAC)直接應用于HOA數據的各個通道，這種不考慮通道間相關性的壓縮方法無法消除通道間的冗余信息，因此隨著通道數量的急劇增長，其編碼音頻的碼率也會極大地增加。近期的研究工作則更多地考慮通道間的信息冗余。DirAC算法其通過對HOA系數的分析，以聲場的方向、彌散程度和一路單通道信號對聲場進行描述。該方法原本只適用于一階Ambisonics信號，后續工作通過對空間進行分片，將其擴展到高階Ambisonic信號中。但是，該方法原本是一種聲場的重放技術，應用于HOA信號的壓縮時不十分恰當。MPEG組織也提出了適用于3D音頻的MPEG-H 3D Audio標準，其中包含HOA信號壓縮工作。但MPEG-H標準僅給出傳輸格式標準，而并未給出具體的實現算法。現有的公開工作中，加利福尼亞大學圣巴巴拉分校的Sina Zamani等研究者使用SVD實現了MPEG-H標準，但信號幀之間存在平滑性不佳的問題，影響主觀聽感。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京大學，未經北京大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110518042.4/2.html，轉載請聲明來源鉆瓜專利網。