[發明專利]高魯棒性音頻指紋識別方法及系統有效
| 申請號: | 201810146446.3 | 申請日: | 2018-02-12 |
| 公開(公告)號: | CN108399913B | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 曾國卿 | 申請(專利權)人: | 北京容聯易通信息技術有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L25/51;H04M3/51 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 朱健;陳國軍 |
| 地址: | 100000 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 高魯棒性 音頻 指紋識別 方法 系統 | ||
1.一種高魯棒性音頻指紋識別方法,其特征在于,包括:
獲取待識別音頻數據,并對所述待識別音頻數據進行預處理,所述預處理具體包括依次濾波、降噪、重采樣、去除特殊信號;所述特殊信號包括振鈴音、彩鈴音、忙音、靜音中的一項或多項;所述待識別音頻數據包括:主叫提示音或被叫提示音相關的音頻數據;
對預處理后的所述待識別音頻數據依次進行頻域變換和Bark域變換,將預設頻率區間劃分為多個子帶,并將所有的子帶能量作為所述待識別音頻數據的原始特征;
對所述原始特征進行修正處理,將修正后的原始特征作為所述待識別音頻數據的魯棒性特征;
根據所述待識別音頻數據的魯棒性特征進行語音指紋建模,生成與所述待識別音頻數據對應的待識別音頻指紋;
加載預設的音頻指紋庫,將所述待識別音頻指紋與所述音頻指紋庫中的標準音頻指紋進行匹配,識別所述待識別音頻指紋;
所述對預處理后的所述待識別音頻數據依次進行頻域變換和Bark域變換,將預設頻率區間劃分為多個子帶,并將所有的子帶能量作為所述待識別音頻數據的原始特征,包括:
對預處理后的所述待識別音頻數據依次進行分幀、加窗、快速傅里葉變換處理,之后通過Bark域變換變換到由預設頻率區間劃分出的33個子帶,并計算33個子帶的子帶能量,進而形成33維的原始特征向量;
其中,第m個子帶的子帶能量E(m)為:
其中,f(m)是預設頻率區間經Bark域變換后對應的第m個子帶頻率,m=1,2,…,33;X(k)表示在[f(m),f(m+1)]之間的FFT值,|X(k)|表示X(k)的模;
子帶頻率f(m)的劃分公式如下:
其中,Fmin是Bark域變換的下限頻率,Fmax是Bark域變換的上限頻率,M=32;
所述對所述原始特征進行修正處理包括:
基于預設的自編碼網絡對所述原始特征進行修正處理,獲得修正后的原始特征;
其中,所述自編碼網絡為以預先獲取的預設原始特征為輸入、以預設修正原始特征為輸出進行自編碼網絡訓練后生成的網絡;所述預設修正原始特征為將所述預設原始特征按照預設編碼方式進行編解碼處理后獲得的修正原始特征,所述預設編碼方式為G729或G711編碼方式。
2.根據權利要求1所述的方法,其特征在于,所述根據所述魯棒性特征進行語音指紋建模,生成與所述待識別音頻數據對應的待識別音頻指紋,包括:
根據所述魯棒性特征進行語音指紋建模,確定與所述待識別音頻數據對應的待識別音頻指紋的每個分量F(i,j):
其中,E'(i,j)表示第i個魯棒性特征E′對應的第j個分量,j=1,2,3…,32。
3.根據權利要求1所述的方法,其特征在于,所述將所述待識別音頻指紋與所述音頻指紋庫中的標準音頻指紋進行匹配,識別所述待識別音頻指紋,包括:
將所述待識別音頻指紋通過Hash映射方式映射到音頻指紋庫中相似標準音頻指紋的位置,并分別計算所述待識別音頻指紋與所有相似標準音頻指紋的誤碼率,當最小誤碼率不大于預設誤碼率時,將與所述最小誤碼率相對應的相似標準音頻指紋作為與所述待識別音頻指紋相匹配的標準音頻指紋。
4.根據權利要求1-3任一所述的方法,其特征在于,還包括:
獲取標準音頻數據,并對所述標準音頻數據進行預處理,去除特殊信號,所述特殊信號包括振鈴音、彩鈴音、忙音、靜音中的一項或多項;
對預處理后的所述標準音頻數據依次進行頻域變換和Bark域變換,將預設頻率區間劃分為多個子帶,并將所有的子帶能量作為所述標準音頻數據的原始特征;
對所述原始特征進行修正處理,將修正后的原始特征作為所述標準音頻數據的魯棒性特征;
根據所述標準音頻數據的魯棒性特征進行語音指紋建模,生成與所述標準音頻數據對應的標準音頻指紋;
將所述標準音頻指紋進行標記歸檔,并存入所述音頻指紋庫中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京容聯易通信息技術有限公司,未經北京容聯易通信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810146446.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種機器人的語音切換方法、服務器及系統
- 下一篇:一種語音識別的方法和裝置





