[發(fā)明專利]高魯棒性音頻指紋識別方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201810146446.3 | 申請日: | 2018-02-12 |
| 公開(公告)號: | CN108399913B | 公開(公告)日: | 2021-10-15 |
| 發(fā)明(設(shè)計)人: | 曾國卿 | 申請(專利權(quán))人: | 北京容聯(lián)易通信息技術(shù)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L25/51;H04M3/51 |
| 代理公司: | 北京冠和權(quán)律師事務(wù)所 11399 | 代理人: | 朱健;陳國軍 |
| 地址: | 100000 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 高魯棒性 音頻 指紋識別 方法 系統(tǒng) | ||
本發(fā)明提供了一種高魯棒性音頻指紋識別方法及系統(tǒng),其中,該方法包括:獲取待識別音頻數(shù)據(jù),并對待識別音頻數(shù)據(jù)進行預(yù)處理;對預(yù)處理后的待識別音頻數(shù)據(jù)依次進行頻域變換和Bark域變換,將所有的子帶能量作為待識別音頻數(shù)據(jù)的原始特征;對原始特征進行修正處理,將修正后的原始特征作為待識別音頻數(shù)據(jù)的魯棒性特征;根據(jù)待識別音頻數(shù)據(jù)的魯棒性特征進行語音指紋建模,生成與待識別音頻數(shù)據(jù)對應(yīng)的待識別音頻指紋;加載預(yù)設(shè)的音頻指紋庫,將待識別音頻指紋與音頻指紋庫中的標(biāo)準(zhǔn)音頻指紋進行匹配,識別待識別音頻指紋。該方法利用該魯棒性特征生成待識別音頻指紋并進行匹配,可以提高識別過程的魯棒性,識別結(jié)果更加準(zhǔn)確。
技術(shù)領(lǐng)域
本發(fā)明涉及音頻識別技術(shù)領(lǐng)域,特別涉及一種高魯棒性音頻指紋識別方法及系統(tǒng)。
背景技術(shù)
目前,音頻指紋技術(shù)通過將音頻信號中的不變特征提取出來,并作為描述信號的唯一標(biāo)識,這種特征稱為音頻指紋。音頻指紋作為內(nèi)容自動識別技術(shù)的核心算法,已廣泛的應(yīng)用于歌曲識別、內(nèi)容監(jiān)播、內(nèi)容去重、文件識別等領(lǐng)域。
音頻指紋技術(shù)具有基于內(nèi)容、指紋數(shù)據(jù)少、有一定的抗攻擊的魯棒性特點,所以能較好的解決音頻檢索與匹配的問題。指紋技術(shù)提出之后,獲得迅猛發(fā)展,提出了很多的技術(shù)方案,并取得了很好的商業(yè)應(yīng)用。近年來出現(xiàn)的微信搖一搖、哼唱識曲、第二屏互動等技術(shù)也均基于該技術(shù)實現(xiàn)。
隨著云計算及網(wǎng)絡(luò)電話的發(fā)展,基于互聯(lián)網(wǎng)的云通訊平臺獲得了廣泛應(yīng)用。基于互聯(lián)網(wǎng)的智能外呼正逐漸取代傳統(tǒng)的呼叫中心,這種新型的呼叫中心成本更低,坐席利用率更高。實際上,在電話發(fā)起呼叫到電話接通的期間,運營商會返回給主叫提示音,這些提示音包括振鈴音、彩鈴音、忙音和正常提示語音,如果能夠識別這些提示音,將會大幅度的提高呼叫頻率,從而很大程度上提高坐席的利用率。由于這種呼叫中心往往存在超高并發(fā)需求,如果采用語音識別技術(shù),將無法滿足系統(tǒng)的性能要求,嚴(yán)重限制智能外呼的應(yīng)用和落地。另外,電話語音通常是8K信號,且采用G729或G711等編碼方式,尤其是G729可以達到16:1的壓縮率,給語音識別技術(shù)帶來了更大的挑戰(zhàn)。如何設(shè)計一種極高效的識別技術(shù),可以快速準(zhǔn)確地識別提示音,是亟待解決的一個問題。
發(fā)明內(nèi)容
本發(fā)明提供一種高魯棒性音頻指紋識別方法及系統(tǒng),用以解決現(xiàn)有語音識別技術(shù)不能很好適應(yīng)智能外呼應(yīng)用的缺陷。
本發(fā)明實施例提供的一種高魯棒性音頻指紋識別方法,包括:
獲取待識別音頻數(shù)據(jù),并對所述待識別音頻數(shù)據(jù)進行預(yù)處理,去除特殊信號,所述特殊信號包括振鈴音、彩鈴音、忙音、靜音中的一項或多項;
對預(yù)處理后的所述待識別音頻數(shù)據(jù)依次進行頻域變換和Bark域變換,將預(yù)設(shè)頻率區(qū)間劃分為多個子帶,并將所有的子帶能量作為所述待識別音頻數(shù)據(jù)的原始特征;
對所述原始特征進行修正處理,將修正后的原始特征作為所述待識別音頻數(shù)據(jù)的魯棒性特征;
根據(jù)所述待識別音頻數(shù)據(jù)的魯棒性特征進行語音指紋建模,生成與所述待識別音頻數(shù)據(jù)對應(yīng)的待識別音頻指紋;
加載預(yù)設(shè)的音頻指紋庫,將所述待識別音頻指紋與所述音頻指紋庫中的標(biāo)準(zhǔn)音頻指紋進行匹配,識別所述待識別音頻指紋。
在一種可能的實現(xiàn)方式中,所述對預(yù)處理后的所述待識別音頻數(shù)據(jù)依次進行頻域變換和Bark域變換,將預(yù)設(shè)頻率區(qū)間劃分為多個子帶,并將所有的子帶能量作為所述待識別音頻數(shù)據(jù)的原始特征,包括:
對預(yù)處理后的所述待識別音頻數(shù)據(jù)依次進行分幀、加窗、快速傅里葉變換處理,之后通過Bark域變換變換到由預(yù)設(shè)頻率區(qū)間劃分出的33個子帶,并計算33個子帶的子帶能量,進而形成33維的原始特征向量;
其中,第m個子帶的子帶能量E(m)為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京容聯(lián)易通信息技術(shù)有限公司,未經(jīng)北京容聯(lián)易通信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810146446.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





