[發(fā)明專利]基于可變時(shí)長(zhǎng)的音頻特征分類(lèi)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201110033410.2 | 申請(qǐng)日: | 2011-01-30 |
| 公開(kāi)(公告)號(hào): | CN102623007A | 公開(kāi)(公告)日: | 2012-08-01 |
| 發(fā)明(設(shè)計(jì))人: | 盧敏;竇維蓓 | 申請(qǐng)(專利權(quán))人: | 清華大學(xué) |
| 主分類(lèi)號(hào): | G10L15/02 | 分類(lèi)號(hào): | G10L15/02;G10L15/06;G10L15/08 |
| 代理公司: | 北京眾合誠(chéng)成知識(shí)產(chǎn)權(quán)代理有限公司 11246 | 代理人: | 童曉琳 |
| 地址: | 100084 北京*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 可變 音頻 特征 分類(lèi) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于多媒體信號(hào)處理和模式識(shí)別技術(shù)領(lǐng)域,尤其涉及一種基于可變時(shí)長(zhǎng)的音頻特征分類(lèi)方法。
背景技術(shù)
隨著通信技術(shù)的不斷發(fā)展,數(shù)字音頻處理在移動(dòng)通信、互聯(lián)網(wǎng)、廣播以及個(gè)人電子等多個(gè)領(lǐng)域得到了廣泛的應(yīng)用。以音頻編解碼技術(shù)來(lái)看,其已經(jīng)從傳統(tǒng)的以窄帶話音為主的語(yǔ)音編碼,逐漸擴(kuò)展到帶寬擴(kuò)展質(zhì)量更高的多媒體音頻編碼,3G、LTE的興起也進(jìn)一步對(duì)新一代音頻編解碼技術(shù)在對(duì)信道的適應(yīng)性、傳輸?shù)目煽啃砸约熬幗獯a質(zhì)量等方面有了更高的要求。而無(wú)論是音頻編解碼,或是音效編輯制作,音頻信號(hào)本身所具有的多樣性,使得對(duì)不同類(lèi)型的音頻信號(hào)可能需要選擇不同的處理技術(shù)。如ITU-T的G.718和G.729.1,就對(duì)音頻信號(hào)分成了語(yǔ)音和音樂(lè)兩種編碼模式,而在之后的G.718-SWB中又添加了對(duì)含正弦特性的音頻信號(hào)的編碼模式。由此可以看出,在某些應(yīng)用場(chǎng)景中,需要先對(duì)音頻信號(hào)進(jìn)行簡(jiǎn)單而高效的分類(lèi),獲知所屬類(lèi)型。
分類(lèi)時(shí),提取音頻信號(hào)的短時(shí)特征和長(zhǎng)時(shí)特征。由于音頻信號(hào)的短時(shí)平穩(wěn)性,通常相比短時(shí)特征,長(zhǎng)時(shí)特征的穩(wěn)定性和可區(qū)分性更好,但缺點(diǎn)是檢測(cè)延時(shí)大,對(duì)實(shí)時(shí)分類(lèi)系統(tǒng)上的應(yīng)用有一定局限性。此外,不同特征表現(xiàn)出來(lái)的平穩(wěn)周期可能不一致,若對(duì)這些特征都取定同一時(shí)長(zhǎng)下計(jì)算對(duì)應(yīng)的長(zhǎng)時(shí)特征可能并非最優(yōu)。
發(fā)明內(nèi)容
本發(fā)明的目的在于,針對(duì)常用的音頻特征分類(lèi)方法主要采用提取長(zhǎng)時(shí)特征的技術(shù)方案影響實(shí)時(shí)效果的問(wèn)題,提出一種基于可變時(shí)長(zhǎng)的音頻特征分類(lèi)方法,通過(guò)提取同一短時(shí)特征在不同時(shí)長(zhǎng)下的同一統(tǒng)計(jì)參量構(gòu)成的可變時(shí)長(zhǎng)長(zhǎng)時(shí)特征來(lái)訓(xùn)練分類(lèi)器,并利用訓(xùn)練好的分類(lèi)器進(jìn)行音頻特征分類(lèi)。
本發(fā)明的技術(shù)方案是,一種基于可變時(shí)長(zhǎng)的音頻特征分類(lèi)方法,其特征是所述方法包括下列步驟:
步驟1:將確定類(lèi)型并經(jīng)過(guò)標(biāo)注的音頻序列作為訓(xùn)練序列;
步驟2:提取訓(xùn)練序列中的音頻信號(hào)的短時(shí)特征F1,F(xiàn)2,...,F(xiàn)K,構(gòu)成短時(shí)特征向量,K是短時(shí)特征向量的分量個(gè)數(shù);
步驟3:計(jì)算各個(gè)短時(shí)特征Fk在設(shè)定時(shí)長(zhǎng)內(nèi),當(dāng)前幀和之前的(n-1)幀的短時(shí)特征的統(tǒng)計(jì)參量,n為設(shè)定時(shí)長(zhǎng)內(nèi)的總幀數(shù);每個(gè)短時(shí)特征Fk對(duì)應(yīng)一組由該短時(shí)特征的統(tǒng)計(jì)參量構(gòu)成的統(tǒng)計(jì)特征向量,進(jìn)而短時(shí)特征向量對(duì)應(yīng)一個(gè)統(tǒng)計(jì)特征向量,其中;1≤k≤K;
步驟4:選取P個(gè)值,N1,N2,...,NP滿足N1<N2<...<NP,令n分別等于N1,N2,...,NP,按照步驟3計(jì)算得到短時(shí)特征向量對(duì)應(yīng)的一組統(tǒng)計(jì)特征向量,由該組統(tǒng)計(jì)特征向量構(gòu)成訓(xùn)練序列的長(zhǎng)時(shí)特征向量:
步驟5:利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量訓(xùn)練分類(lèi)器;
步驟6:提取測(cè)試序列中的音頻信號(hào)的短時(shí)特征,并按照步驟2和步驟3的方法計(jì)算測(cè)試序列的第i幀的統(tǒng)計(jì)特征向量以及測(cè)試序列的;
步驟7:根據(jù)測(cè)試序列的第i幀的統(tǒng)計(jì)特征向量以及測(cè)試序列的,計(jì)算測(cè)試序列的第i幀的輸入長(zhǎng)時(shí)特征向量;
步驟8:將第i幀的輸入長(zhǎng)時(shí)特征向量送入步驟5訓(xùn)練后的分類(lèi)器中,其輸出即為第i幀的分類(lèi)類(lèi)型。
所述短時(shí)特征包括對(duì)數(shù)能量、過(guò)零率和均勻子帶能量分布。
所述當(dāng)前幀和之前的(n-1)幀的短時(shí)特征的統(tǒng)計(jì)參量包括當(dāng)前幀和之前的(n-1)幀的短時(shí)特征最大值MaxFk(n)、最小值MinFk(n)、算術(shù)平均AvgFk(n)或方差VarFk(n)中的一個(gè)或多個(gè)。
所述利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量訓(xùn)練分類(lèi)器具體是利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量訓(xùn)練單個(gè)分類(lèi)器。
所述利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量訓(xùn)練分類(lèi)器具體是使用前向特征選擇法,在訓(xùn)練序列的長(zhǎng)時(shí)特征向量中選擇有效特征構(gòu)成有效長(zhǎng)時(shí)特征向量,并利用有效長(zhǎng)時(shí)特征向量訓(xùn)練單個(gè)分類(lèi)器。
所述利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量訓(xùn)練分類(lèi)器具體是利用訓(xùn)練序列的長(zhǎng)時(shí)特征向量的分向量各自分別訓(xùn)練同類(lèi)型的單個(gè)分類(lèi)器后并聯(lián)構(gòu)成的分類(lèi)器組。
所述計(jì)算測(cè)試序列的第i幀的輸入長(zhǎng)時(shí)特征向量具體利用公式
其中,q=1,2,L,P-1,中的共有q個(gè),中的共有P-q個(gè)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110033410.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類(lèi)專利
- 專利分類(lèi)
- 自動(dòng)配置藍(lán)牙A2DP傳輸音頻編碼格式的方法和系統(tǒng)
- 一種多路音頻處理方法、音頻播放終端及音頻接收裝置
- 一種音頻處理方法、裝置及終端設(shè)備
- 一種音頻質(zhì)量的檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 音頻分離方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種音頻播放方法、裝置、以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種音頻錄制系統(tǒng)
- 一種音頻共享系統(tǒng)及方法
- 音頻樣本生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 音頻處理方法和裝置





