[發(fā)明專利]生成心理聲學模型的方法及裝置有效
| 申請?zhí)枺?/td> | 201010123999.0 | 申請日: | 2010-02-26 |
| 公開(公告)號: | CN102169694A | 公開(公告)日: | 2011-08-31 |
| 發(fā)明(設計)人: | 馬鴻飛;郭澤華;夏雨;許麗凈 | 申請(專利權(quán))人: | 華為技術(shù)有限公司;西安電子科技大學 |
| 主分類號: | G10L19/02 | 分類號: | G10L19/02;G10L19/00 |
| 代理公司: | 北京三高永信知識產(chǎn)權(quán)代理有限責任公司 11138 | 代理人: | 何文彬 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 生成 心理聲學 模型 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及音頻處理技術(shù)領(lǐng)域,特別涉及一種生成心理聲學模型的方法及裝置。
背景技術(shù)
為了用盡可能低的編碼速率傳輸或盡可能少的數(shù)據(jù)存儲寬帶高保真音頻信號,高質(zhì)量高效音頻編碼算法扮演了重要的角色。為了達到較高的壓縮編碼增益或壓縮比,音頻編碼算法須采用感知編碼算法,而音頻信號的感知編碼算法的基礎是心理聲學模型。心理聲學模型是在研究人類聽覺系統(tǒng)基礎上抽象出來的反映人類聽覺感知特性的數(shù)學模型,它反映了人類聽覺系統(tǒng)對音頻及噪聲的感知和掩蔽能力。
現(xiàn)有技術(shù)一提供的MPEG(Moving?Pictures?Experts?Group,動態(tài)圖像專家組)音頻心理聲學模型II是應用于MPEG-1和2的第三層(即MP3)的心理聲學模型,采用FFT(Fast?Fourier?Transform,快速傅立葉變換)進行時頻分析,并利用了感知熵的概念,使心理聲學分析更加的準確合理。
現(xiàn)有技術(shù)二提供的3Gpp?HE-AAC心理聲學模型配合3Gpp?HE-AAC編碼器的特點,將時頻分析由FFT(Fast?Fourier?Transform,快速傅立葉變換)改為MDCT(Modified?Discrete?Cosine?Transform,修正離散余弦變換),使得心理聲學模型與編碼器可以重用MDCT變換。
在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下缺點:
現(xiàn)有技術(shù)一的硬件實現(xiàn)成本高、功耗大,且由于該模型采用FFT進行時頻分析,因此無法重用編碼器的MDCT變換結(jié)果,導致算法復雜度較高,不易實現(xiàn);現(xiàn)有技術(shù)二由于沒有分析信號的音調(diào)特性及非音調(diào)特性,導致量化效率降低。
發(fā)明內(nèi)容
為了解決現(xiàn)有心理聲學模型的算法復雜度高、不易實現(xiàn)、硬件實現(xiàn)成本高、功耗大等問題,以及提高量化效率,本發(fā)明實施例提供了一種生成心理聲學模型的方法及裝置。
本發(fā)明實施例提供一種生成心理聲學模型的方法,包括:
以修正離散余弦變換MDCT對輸入的時域音頻信號幀進行時頻分析,得到MDCT頻域參數(shù);
根據(jù)所述MDCT頻域參數(shù)計算譜平坦測度函數(shù)、頻譜局部最大主導分量擴展包絡和頻譜局部最小主導分量平均包絡,并根據(jù)所述譜平坦測度函數(shù)、頻譜局部最大主導分量擴展包絡和頻譜局部最小主導分量平均包絡計算局部掩蔽門限;
根據(jù)所述局部掩蔽門限,生成并輸出全局掩蔽門限。
本發(fā)明實施例還提供一種生成心理聲學模型的裝置,包括:
時域分析模塊,用于以修正離散余弦變換MDCT對輸入的時域音頻信號幀進行時頻分析,得到MDCT頻域參數(shù);
第一計算模塊,用于根據(jù)所述時域分析模塊得到的MDCT頻域參數(shù)計算譜平坦測度函數(shù);
第二計算模塊,用于根據(jù)所述時域分析模塊得到的MDCT頻域參數(shù)計算頻譜局部最大主導分量擴展包絡;
第三計算模塊,用于根據(jù)所述時域分析模塊得到的MDCT頻域參數(shù)計算頻譜局部最小主導分量平均包絡;
局部掩蔽門限計算模塊,用于根據(jù)所述第一計算模塊計算得到的所述譜平坦測度函數(shù)、所述第二計算模塊計算得到的頻譜局部最大主導分量擴展包絡和所述第三計算模塊計算得到的頻譜局部最小主導分量平均包絡計算局部掩蔽門限;
全局掩蔽門限計算模塊,用于根據(jù)所述局部掩蔽門限計算模塊計算得到的所述局部掩蔽門限,生成并輸出全局掩蔽門限。
本發(fā)明實施例提供的技術(shù)方案的有益效果是:
本實施例提供的技術(shù)方案通過采用譜平坦測度函數(shù)計算局部掩蔽門限,實現(xiàn)對音頻信號的音調(diào)掩蔽特性及非音調(diào)掩蔽特性進行區(qū)分處理,從而可以更合理地分配量化比特數(shù),有效地提高量化效率;且由于采用修正離散余弦變換對輸入的時域音頻信號幀進行時頻分析,可以降低生成心理聲學模型的復雜度,易于硬件實現(xiàn)。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實施例一提供的生成心理聲學模型的方法流程圖;
圖2是本發(fā)明實施例二提供的心理聲學模型輸入輸出關(guān)系示意圖;
圖3是本發(fā)明實施例二提供的生成心理聲學模型的方法流程圖;
圖4是本發(fā)明實施例二提供的時域音頻信號示意圖;
圖5是本發(fā)明實施例二提供的MDCT變換功率譜示意圖;
圖6是本發(fā)明實施例二提供的臨界頻帶與頻率的關(guān)系示意圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司;西安電子科技大學,未經(jīng)華為技術(shù)有限公司;西安電子科技大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010123999.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





