[發(fā)明專利]高魯棒性音頻指紋識別方法及系統(tǒng)有效

申請?zhí)枺?/td>	201810146446.3	申請日：	2018-02-12
公開（公告）號：	CN108399913B	公開（公告）日：	2021-10-15
發(fā)明（設(shè)計）人：	曾國卿	申請（專利權(quán)）人：	北京容聯(lián)易通信息技術(shù)有限公司
主分類號：	G10L15/02	分類號：	G10L15/02;G10L15/06;G10L25/51;H04M3/51
代理公司：	北京冠和權(quán)律師事務(wù)所 11399	代理人：	朱健;陳國軍
地址：	100000 北京市海***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	高魯棒性音頻指紋識別方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明提供了一種高魯棒性音頻指紋識別方法及系統(tǒng)，其中，該方法包括：獲取待識別音頻數(shù)據(jù)，并對待識別音頻數(shù)據(jù)進行預(yù)處理；對預(yù)處理后的待識別音頻數(shù)據(jù)依次進行頻域變換和Bark域變換，將所有的子帶能量作為待識別音頻數(shù)據(jù)的原始特征；對原始特征進行修正處理，將修正后的原始特征作為待識別音頻數(shù)據(jù)的魯棒性特征；根據(jù)待識別音頻數(shù)據(jù)的魯棒性特征進行語音指紋建模，生成與待識別音頻數(shù)據(jù)對應(yīng)的待識別音頻指紋；加載預(yù)設(shè)的音頻指紋庫，將待識別音頻指紋與音頻指紋庫中的標(biāo)準(zhǔn)音頻指紋進行匹配，識別待識別音頻指紋。該方法利用該魯棒性特征生成待識別音頻指紋并進行匹配，可以提高識別過程的魯棒性，識別結(jié)果更加準(zhǔn)確。

技術(shù)領(lǐng)域

本發(fā)明涉及音頻識別技術(shù)領(lǐng)域，特別涉及一種高魯棒性音頻指紋識別方法及系統(tǒng)。

背景技術(shù)

目前，音頻指紋技術(shù)通過將音頻信號中的不變特征提取出來，并作為描述信號的唯一標(biāo)識，這種特征稱為音頻指紋。音頻指紋作為內(nèi)容自動識別技術(shù)的核心算法，已廣泛的應(yīng)用于歌曲識別、內(nèi)容監(jiān)播、內(nèi)容去重、文件識別等領(lǐng)域。

音頻指紋技術(shù)具有基于內(nèi)容、指紋數(shù)據(jù)少、有一定的抗攻擊的魯棒性特點，所以能較好的解決音頻檢索與匹配的問題。指紋技術(shù)提出之后，獲得迅猛發(fā)展，提出了很多的技術(shù)方案，并取得了很好的商業(yè)應(yīng)用。近年來出現(xiàn)的微信搖一搖、哼唱識曲、第二屏互動等技術(shù)也均基于該技術(shù)實現(xiàn)。

隨著云計算及網(wǎng)絡(luò)電話的發(fā)展，基于互聯(lián)網(wǎng)的云通訊平臺獲得了廣泛應(yīng)用。基于互聯(lián)網(wǎng)的智能外呼正逐漸取代傳統(tǒng)的呼叫中心，這種新型的呼叫中心成本更低，坐席利用率更高。實際上，在電話發(fā)起呼叫到電話接通的期間，運營商會返回給主叫提示音，這些提示音包括振鈴音、彩鈴音、忙音和正常提示語音，如果能夠識別這些提示音，將會大幅度的提高呼叫頻率，從而很大程度上提高坐席的利用率。由于這種呼叫中心往往存在超高并發(fā)需求，如果采用語音識別技術(shù)，將無法滿足系統(tǒng)的性能要求，嚴(yán)重限制智能外呼的應(yīng)用和落地。另外，電話語音通常是8K信號，且采用G729或G711等編碼方式，尤其是G729可以達到16:1的壓縮率，給語音識別技術(shù)帶來了更大的挑戰(zhàn)。如何設(shè)計一種極高效的識別技術(shù)，可以快速準(zhǔn)確地識別提示音，是亟待解決的一個問題。

發(fā)明內(nèi)容

本發(fā)明提供一種高魯棒性音頻指紋識別方法及系統(tǒng)，用以解決現(xiàn)有語音識別技術(shù)不能很好適應(yīng)智能外呼應(yīng)用的缺陷。

本發(fā)明實施例提供的一種高魯棒性音頻指紋識別方法，包括：

獲取待識別音頻數(shù)據(jù)，并對所述待識別音頻數(shù)據(jù)進行預(yù)處理，去除特殊信號，所述特殊信號包括振鈴音、彩鈴音、忙音、靜音中的一項或多項；

對預(yù)處理后的所述待識別音頻數(shù)據(jù)依次進行頻域變換和Bark域變換，將預(yù)設(shè)頻率區(qū)間劃分為多個子帶，并將所有的子帶能量作為所述待識別音頻數(shù)據(jù)的原始特征；

對所述原始特征進行修正處理，將修正后的原始特征作為所述待識別音頻數(shù)據(jù)的魯棒性特征；

根據(jù)所述待識別音頻數(shù)據(jù)的魯棒性特征進行語音指紋建模，生成與所述待識別音頻數(shù)據(jù)對應(yīng)的待識別音頻指紋；

加載預(yù)設(shè)的音頻指紋庫，將所述待識別音頻指紋與所述音頻指紋庫中的標(biāo)準(zhǔn)音頻指紋進行匹配，識別所述待識別音頻指紋。

在一種可能的實現(xiàn)方式中，所述對預(yù)處理后的所述待識別音頻數(shù)據(jù)依次進行頻域變換和Bark域變換，將預(yù)設(shè)頻率區(qū)間劃分為多個子帶，并將所有的子帶能量作為所述待識別音頻數(shù)據(jù)的原始特征，包括：

對預(yù)處理后的所述待識別音頻數(shù)據(jù)依次進行分幀、加窗、快速傅里葉變換處理，之后通過Bark域變換變換到由預(yù)設(shè)頻率區(qū)間劃分出的33個子帶，并計算33個子帶的子帶能量，進而形成33維的原始特征向量；

其中，第m個子帶的子帶能量E(m)為：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京容聯(lián)易通信息技術(shù)有限公司，未經(jīng)北京容聯(lián)易通信息技術(shù)有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810146446.3/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種機器人的語音切換方法、服務(wù)器及系統(tǒng)
下一篇：一種語音識別的方法和裝置

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】