[發(fā)明專(zhuān)利]一種基于經(jīng)驗(yàn)?zāi)B(tài)分解的音頻識(shí)別方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201610103443.2 | 申請(qǐng)日: | 2016-02-25 |
| 公開(kāi)(公告)號(hào): | CN105788603B | 公開(kāi)(公告)日: | 2019-04-16 |
| 發(fā)明(設(shè)計(jì))人: | 岳廷明 | 申請(qǐng)(專(zhuān)利權(quán))人: | 深圳創(chuàng)維數(shù)字技術(shù)有限公司;深圳市創(chuàng)維軟件有限公司 |
| 主分類(lèi)號(hào): | G10L21/0208 | 分類(lèi)號(hào): | G10L21/0208;G10L25/18;G10L25/54;G10L15/02 |
| 代理公司: | 深圳市君勝知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44268 | 代理人: | 王永文;劉文求 |
| 地址: | 518057 廣東省深圳*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 經(jīng)驗(yàn) 分解 音頻 識(shí)別 方法 系統(tǒng) | ||
1.一種基于經(jīng)驗(yàn)?zāi)B(tài)分解的音頻識(shí)別方法,其特征在于,包括步驟:
A、輸入原始音頻信號(hào),對(duì)所述原始音頻信號(hào)進(jìn)行采樣,然后依次進(jìn)行去噪預(yù)處理、加漢明窗以及傅氏變換處理得到頻譜數(shù)據(jù),再依次連接每幀的頻譜數(shù)據(jù),獲得聲譜圖;
B、獲得所述聲譜圖各頻率段的能量最大值所在點(diǎn),并依次連接各頻率段的能量最大值所在點(diǎn)生成時(shí)間-頻率曲線;
C、將所述生成的時(shí)間-頻率曲線進(jìn)行經(jīng)驗(yàn)?zāi)B(tài)分解,獲得多個(gè)本征模函數(shù);
D、通過(guò)獲得的多個(gè)本征模函數(shù)結(jié)合相應(yīng)的頻率段以及時(shí)間幀,生成用于表征原始音頻信號(hào)的多個(gè)特征值,并輸出;
所述步驟D具體包括:
D1、對(duì)每一個(gè)本征模函數(shù)等間隔取樣,獲得一組相應(yīng)的取樣序列;
D2、在所述取樣序列后追加所處的頻率段序號(hào);
D3、對(duì)追加后的取樣序列進(jìn)行處理獲得一個(gè)哈希值;
D4、通過(guò)N組本征模函數(shù)獲得N個(gè)哈希值,共同組成一組特征值。
2.根據(jù)權(quán)利要求1所述的基于經(jīng)驗(yàn)?zāi)B(tài)分解的音頻識(shí)別方法,其特征在于,所述步驟D之后還包括:
E、根據(jù)所述特征值獲取時(shí)間偏移差的分布和數(shù)量,以表征原始音頻信號(hào)。
3.根據(jù)權(quán)利要求2所述的基于經(jīng)驗(yàn)?zāi)B(tài)分解的音頻識(shí)別方法,其特征在于,所述步驟E具體包括:
E1、通過(guò)所述特征值在一數(shù)據(jù)庫(kù)中進(jìn)行搜索,獲得與所述特征值相匹配的若干其他特征值所處的時(shí)間偏移構(gòu)成的時(shí)間偏移組;
E2、將所述時(shí)間偏移組中各時(shí)間偏移與所述特征值所處的時(shí)間偏移分別求得時(shí)間偏移差,再通過(guò)這些時(shí)間偏移差的分布和數(shù)量,確定需識(shí)別的目標(biāo)音頻。
4.根據(jù)權(quán)利要求1所述的基于經(jīng)驗(yàn)?zāi)B(tài)分解的音頻識(shí)別方法,其特征在于,所述步驟D3中,對(duì)追加后的取樣序列通過(guò)sha1哈希算法或Murmur哈希算法處理獲得一個(gè)哈希值。
5.一種基于經(jīng)驗(yàn)?zāi)B(tài)分解的音頻識(shí)別系統(tǒng),其特征在于,包括:
聲譜圖獲取模塊,用于輸入原始音頻信號(hào),對(duì)所述原始音頻信號(hào)進(jìn)行采樣,然后依次進(jìn)行去噪預(yù)處理、加漢明窗以及傅氏變換處理得到頻譜數(shù)據(jù),再依次連接每幀的頻譜數(shù)據(jù),獲得聲譜圖;
時(shí)間-頻率曲線生成模塊,用于獲得所述聲譜圖各頻率段的能量最大值所在點(diǎn),并依次連接各頻率段的能量最大值所在點(diǎn)生成時(shí)間-頻率曲線;
經(jīng)驗(yàn)?zāi)B(tài)分解模塊,用于將所述生成的時(shí)間-頻率曲線進(jìn)行經(jīng)驗(yàn)?zāi)B(tài)分解,獲得多個(gè)本征模函數(shù);
特征值輸出模塊,用于通過(guò)獲得的多個(gè)本征模函數(shù)結(jié)合相應(yīng)的頻率段以及時(shí)間幀,生成用于表征原始音頻信號(hào)的多個(gè)特征值,并輸出;
所述特征值輸出模塊具體包括:
取樣單元,用于對(duì)每一個(gè)本征模函數(shù)等間隔取樣,獲得一組相應(yīng)的取樣序列;
追加單元,用于在所述取樣序列后追加所處的頻率段序號(hào);
哈希處理單元,用于對(duì)追加后的取樣序列進(jìn)行處理獲得一個(gè)哈希值;
向量組成單元,用于通過(guò)N組本征模函數(shù)獲得N個(gè)哈希值,共同組成一組特征值。
6.根據(jù)權(quán)利要求5所述的基于經(jīng)驗(yàn)?zāi)B(tài)分解的音頻識(shí)別系統(tǒng),其特征在于,還包括:
分布數(shù)量獲取模塊,用于根據(jù)所述特征值獲取時(shí)間偏移差的分布和數(shù)量,以表征原始音頻信號(hào)。
7.根據(jù)權(quán)利要求6所述的基于經(jīng)驗(yàn)?zāi)B(tài)分解的音頻識(shí)別系統(tǒng),其特征在于,所述分布數(shù)量獲取模塊具體包括:
時(shí)間偏移組獲取單元,用于通過(guò)所述特征值在數(shù)據(jù)庫(kù)中進(jìn)行搜索,獲得與所述特征值相匹配的若干其他特征值所處的時(shí)間偏移構(gòu)成的時(shí)間偏移組;
時(shí)間偏移差計(jì)算單元,用于將所述時(shí)間偏移組中各時(shí)間偏移與所述特征值所處的時(shí)間偏移分別求得時(shí)間偏移差,再通過(guò)這些時(shí)間偏移差的分布和數(shù)量,確定需識(shí)別的目標(biāo)音頻。
8.根據(jù)權(quán)利要求5所述的基于經(jīng)驗(yàn)?zāi)B(tài)分解的音頻識(shí)別系統(tǒng),其特征在于,所述哈希處理單元中,對(duì)追加后的取樣序列通過(guò)sha1哈希算法或Murmur哈希算法處理獲得一個(gè)哈希值。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于深圳創(chuàng)維數(shù)字技術(shù)有限公司;深圳市創(chuàng)維軟件有限公司,未經(jīng)深圳創(chuàng)維數(shù)字技術(shù)有限公司;深圳市創(chuàng)維軟件有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610103443.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L21-00 為了改變語(yǔ)音信號(hào)的質(zhì)量或其可識(shí)度而處理語(yǔ)音信號(hào),以產(chǎn)生另一種可聽(tīng)的或非可聽(tīng)的信號(hào),例如視覺(jué)信號(hào)或觸覺(jué)信號(hào)
G10L21-02 .語(yǔ)音增強(qiáng),例如降低噪聲或消除回聲
G10L21-04 .時(shí)間壓縮或擴(kuò)展
G10L21-06 .將語(yǔ)音轉(zhuǎn)換成非可聽(tīng)表達(dá)形式,例如語(yǔ)音可視化、觸覺(jué)輔助的語(yǔ)音處理
- 一種在網(wǎng)絡(luò)上經(jīng)營(yíng)工作經(jīng)驗(yàn)的網(wǎng)站系統(tǒng)
- HSE經(jīng)驗(yàn)分享的方法
- 經(jīng)驗(yàn)證啟動(dòng)
- 一種基于經(jīng)驗(yàn)路線的車(chē)輛路徑規(guī)劃方法
- 針對(duì)基于深度神經(jīng)網(wǎng)絡(luò)的Q學(xué)習(xí)修剪經(jīng)驗(yàn)存儲(chǔ)器的方法和裝置
- 一種應(yīng)用區(qū)塊鏈技術(shù)的經(jīng)驗(yàn)值管理方法
- 一種通過(guò)區(qū)塊鏈進(jìn)行管理的方法
- 顯示設(shè)備及信息顯示方法
- 一種交互式學(xué)習(xí)輔助方法、裝置和系統(tǒng)
- 卡片(使用經(jīng)驗(yàn)介紹)
- 自動(dòng)配置藍(lán)牙A2DP傳輸音頻編碼格式的方法和系統(tǒng)
- 一種多路音頻處理方法、音頻播放終端及音頻接收裝置
- 一種音頻處理方法、裝置及終端設(shè)備
- 一種音頻質(zhì)量的檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 音頻分離方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種音頻播放方法、裝置、以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種音頻錄制系統(tǒng)
- 一種音頻共享系統(tǒng)及方法
- 音頻樣本生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 音頻處理方法和裝置





