[發明專利]一種基于人耳聽覺頻率尺度信號分解的音頻編解碼方法有效
| 申請號: | 201911034162.6 | 申請日: | 2019-10-29 |
| 公開(公告)號: | CN110534119B | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 林志斌;劉曉峻;狄敏;吳寶佳 | 申請(專利權)人: | 南京南大電子智慧型服務機器人研究院有限公司;江蘇南大電子信息技術股份有限公司 |
| 主分類號: | G10L19/00 | 分類號: | G10L19/00;G10L19/02;G10L19/032;G10L25/27 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 彭雄 |
| 地址: | 210019 江蘇省南京市建*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 聽覺 頻率 尺度 信號 分解 音頻 解碼 方法 | ||
1.一種基于人耳聽覺頻率尺度信號分解的音頻編解碼方法,其特征在于,包括以下步驟:
步驟1,獲取輸入音頻信號;將線性頻率的音頻信號折算到對應的人耳聽覺頻率尺度上,線性頻率和人耳聽覺頻率尺度變換關系如下:
其中,b為人耳聽覺頻率尺度,z為變換函數,f為線性頻率;
直接在人耳聽覺頻率尺度上進行音頻信號分解,實現時域信號在人耳聽覺頻率尺度的投影計算:
其中,X(b)為投影后系數,x(n)為采樣點n處的采樣值,z-1(b)為人耳聽覺頻率尺度域逆變換函數,j為復數符號;根據投影后系數得到心理聲學感知模型參數,進而確定心理聲學感知模型;
步驟2,在人耳聽覺頻率尺度上進行音頻信號短時正交變換分解;
正交變換分解所使用的正交基是切比雪夫展式,定義域為[-1,1],表達式如下:
Tk(x)=cos(k arccos(x))
其中,Tk(x)為切比雪夫多項式的第k階正交基,x為定義域的自變量,k表示正交基階數;
離散化的切比雪夫展式的正變換和逆變換公式如下:
其中,C(k)為第k階短時正交變換系數,N為定義域上音頻信號幀的幀長樣點數,xj為所選取離散化的音頻信號幀第j采樣點數據值,樣點位置按照N階切比雪夫多項式的零點分布位置選取,C(0)表示第0階短時正交變換系數;
步驟3,人耳聽覺頻率尺度心理聲學感知模型參數計算:在人耳聽覺頻率尺度上計算心理聲學感知模型中,使頻譜在不同頻段內具有不同的頻率分辨率,使頻譜分布直接和臨界頻帶相匹配,將計算獲取的心理聲學感知模型變換回時域,在時域進行分割并利用切比雪夫正交變換得到短時感知域系數,根據短時感知域系數獲取用于控制量化、碼率和失真的心理聲學感知模型參數;
步驟4,根據量化、碼率和失真的心理聲學感知模型參數對投影后系數進行量化,將量化的結果進行熵編碼,得到熵編碼后的編碼量化參數;
步驟5,將心理聲學感知模型參數和熵編碼后的編碼量化參數進行碼流打包,形成編碼數據流;
步驟6,解碼過程為編碼過程的逆過程,首先獲取數據碼流,進行數據反量化,反量化后數據進行聽覺頻率尺度逆變化合成音頻信號,多幀音頻信號組合還原形成解碼音頻數據流。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京南大電子智慧型服務機器人研究院有限公司;江蘇南大電子信息技術股份有限公司,未經南京南大電子智慧型服務機器人研究院有限公司;江蘇南大電子信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911034162.6/1.html,轉載請聲明來源鉆瓜專利網。





