[發(fā)明專利]一種選擇編碼模式的方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201310135975.0 | 申請(qǐng)日: | 2013-04-18 |
| 公開(公告)號(hào): | CN104112451B | 公開(公告)日: | 2017-07-28 |
| 發(fā)明(設(shè)計(jì))人: | 肖瑋;王月明;陸楨騏;蔣三新;劉佩林;應(yīng)忍冬 | 申請(qǐng)(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號(hào): | G10L19/02 | 分類號(hào): | G10L19/02;G10L25/27 |
| 代理公司: | 深圳中一專利商標(biāo)事務(wù)所44237 | 代理人: | 張全文 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 選擇 編碼 模式 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域,尤其涉及一種選擇編碼模式的方法及裝置。
背景技術(shù)
語音信號(hào)和樂音信號(hào)在編碼壓縮中通常采用不同的建模方式,語音信號(hào)通常基于人的發(fā)聲模型,采用線性預(yù)測(cè)的方式進(jìn)行編碼;與此相對(duì),樂音信號(hào)則通常利用人耳的聽覺遮掩效應(yīng),采用變換域編碼的方式。實(shí)際使用過程中通常存在語音信號(hào)和樂音信號(hào)交替出現(xiàn)或同時(shí)出現(xiàn)的場合,這樣單一的編碼方式必將對(duì)編碼后的音質(zhì)產(chǎn)生巨大影響。針對(duì)這種不足,動(dòng)態(tài)圖像專家組(Moving Pictures Experts Group,MPEG)提出了聯(lián)合語音樂音編碼(Unified Speech Audio Coding,USAC)標(biāo)準(zhǔn)。USAC編碼標(biāo)準(zhǔn)聯(lián)合了當(dāng)前最佳的語音編碼標(biāo)準(zhǔn)AMR-WB+及當(dāng)前最佳的樂音編碼標(biāo)準(zhǔn)AAC+作為其核心編碼器,同時(shí),對(duì)輸入信號(hào)的高頻部分采用頻段復(fù)制編碼技術(shù)(Coding Thechnology Spectral Band Replication,CT-SBR)或諧和頻段復(fù)制(Harmonic Spectral Band Replication,hSBR)的高頻重建方式。在USAC編碼標(biāo)準(zhǔn)中,其首先對(duì)輸入信號(hào)的類型進(jìn)行判斷,然后根據(jù)判斷的結(jié)果分別采用不同的壓縮編碼方式,當(dāng)輸入信號(hào)為語音信號(hào)時(shí),將采用AMR-WB+方式,當(dāng)輸入信號(hào)為音樂信號(hào)時(shí),則采用AAC+的方式。因此,準(zhǔn)確的語音/音樂分類算法將對(duì)USAC的編碼音質(zhì)產(chǎn)生至關(guān)重要的影響。
通常CT-SBR高頻重建方式適合于語音信號(hào),而hSBR更適合于樂音信號(hào)。樂音信號(hào)的諧波結(jié)構(gòu)明顯比語音信號(hào)的好,對(duì)于諧波結(jié)構(gòu)比較好的樂音信號(hào)來說,若用CT-SBR算法進(jìn)行高頻重建的話,會(huì)在分頻頻率處產(chǎn)生噪聲,從而影響音質(zhì)。為此,USAC編碼標(biāo)準(zhǔn)中針對(duì)諧波結(jié)構(gòu)比較好的樂音信號(hào)信號(hào)引入了另一種頻帶擴(kuò)展方法-h(huán)SBR。此方法很好的解決了上述存在的問題。然而,研究中我們發(fā)現(xiàn):并不是所有類型的樂音信號(hào)都具有良好的諧波結(jié)構(gòu),例如:以管或弦等發(fā)聲的樂音信號(hào)通常具有豐富的諧波結(jié)構(gòu),但以打擊或敲擊發(fā)聲的樂音信號(hào)其頻譜類似于噪聲,則通常沒有明顯的諧波結(jié)構(gòu)。而USAC編碼標(biāo)準(zhǔn)卻根據(jù)輸入信號(hào)的分類算法來選擇信號(hào)的高頻重建方式。若輸入信號(hào)被判斷為樂音信號(hào),則統(tǒng)一采用hSBR。這將導(dǎo)致樂音信號(hào)中諧波結(jié)構(gòu)不明顯的打擊樂信號(hào)也選擇hSBR方式來進(jìn)行高頻重建,從而影響到重建樂音信號(hào)的質(zhì)量。為此,需要對(duì)樂音信號(hào)進(jìn)行打擊樂和管弦樂的進(jìn)一步分類。
打擊樂/管弦樂的分類通常包括兩部分:樂音信號(hào)特征值提取部分和分類算法部分。總體上,樂音信號(hào)特征可分為兩大類:時(shí)域特征和頻域特征。同時(shí),為了更加符合人耳的聽覺特性,又提出了Bark域、Mel倒譜等第三類特征值。具體來說,當(dāng)前已知的特征提取方法有:上升沿檢測(cè)、MPEG-7特征、基于小波變換的特征值提取、基于Bark域的模糊表、Mel倒譜系數(shù)(MFCC)等。
分類算法部分現(xiàn)有技術(shù)有:決策樹,貝葉斯,神經(jīng)網(wǎng)絡(luò),支持向量機(jī),k-臨近法,遺傳算法,模糊邏輯技術(shù)等。雖然現(xiàn)今技術(shù)有多種,但是由于各有其特點(diǎn),某些技術(shù)并不適用于USAC平臺(tái)。支持向量機(jī)(Support Vector Machine,SVM)是一種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計(jì)分類以及回歸分析中。支持向量機(jī)屬于一般化線性分類器。他們也可以認(rèn)為是提克洛夫規(guī)范化(Tikhonov Regularization)方法的一個(gè)特例。這族分類器的特點(diǎn)是他們能夠同時(shí)最小化經(jīng)驗(yàn)誤差與最大化幾何邊緣區(qū)。因此支持向量機(jī)也被稱為最大邊緣區(qū)分類器。
現(xiàn)有的特征值提取方法主要存在如下缺點(diǎn):
1.MPEG-7的諧波特征值都是基于之前算出的基樂音信號(hào)率算出的,一旦基樂音信號(hào)率算錯(cuò)或者誤差太大,會(huì)造成特征值誤差過大;
2.MPEG-7特征值對(duì)于混合的樂音判決效果不好;
3.基于Bark域的模糊表經(jīng)過測(cè)試,正確率低于70%,效果不理想。
現(xiàn)有的分類算法主要存在如下缺點(diǎn):
1.k-臨近每次分類需要讀入訓(xùn)練集的所有特征值,不滿足系統(tǒng)的實(shí)時(shí)性要求;
2.SVM算法當(dāng)樣本數(shù)目很大時(shí),存儲(chǔ)和計(jì)算耗費(fèi)資源過多,可能造成較大的處理時(shí)間消耗;
3.SVM算法的核函數(shù)選擇需要經(jīng)過測(cè)試,核函數(shù)選擇不合適會(huì)造成維數(shù)過大,存儲(chǔ)和計(jì)算耗時(shí)過大。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例的目的在于提供一種選擇編碼模式的方法,旨在解決如何優(yōu)化特征值的選取、減少特征值的數(shù)量、優(yōu)化判決樹的生成、減少在分類結(jié)果中的頻繁切換。
第一方面,一種選擇編碼模式的方法,所述方法包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310135975.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G10L 語音分析或合成;語音識(shí)別;音頻分析或處理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用頻譜分析,例如變換聲碼器或子頻帶聲碼器
G10L19-04 .利用預(yù)測(cè)技術(shù)
G10L19-06 ..例如短期預(yù)測(cè)系數(shù)的頻譜特征的確定或編碼
G10L19-08 ..激勵(lì)函數(shù)的確定或編碼;長期預(yù)測(cè)參數(shù)的確定或編碼
G10L19-14 ..不包括在G10L 19/06至G10L 19/12組中的零部件,例如增益編碼、后置濾波設(shè)計(jì)或聲碼器結(jié)構(gòu)
- 體征碼及其編碼方法
- 編碼裝置和編碼方法以及解碼裝置和解碼方法
- 聲音信號(hào)編碼方法、聲音信號(hào)解碼方法、編碼裝置、解碼裝置、聲音信號(hào)處理系統(tǒng)、聲音信號(hào)編碼程序以及聲音信號(hào)解碼程序
- 用于下一代視頻的編碼/未編碼的數(shù)據(jù)的內(nèi)容自適應(yīng)熵編碼
- 編碼光符號(hào)編碼
- 一種可變幀率的編碼方法及裝置
- 一種物聯(lián)網(wǎng)編碼方法及系統(tǒng)
- 點(diǎn)陣編碼及解碼方法
- 一種視頻編碼方法、裝置和存儲(chǔ)介質(zhì)
- 視頻編碼方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





