[發明專利]一種語音激活檢測方法及裝置在審
| 申請號: | 201711423558.0 | 申請日: | 2017-12-25 |
| 公開(公告)號: | CN107945793A | 公開(公告)日: | 2018-04-20 |
| 發明(設計)人: | 晏青 | 申請(專利權)人: | 廣州勢必可贏網絡科技有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/10;G10L25/24 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙)44285 | 代理人: | 王仲凱 |
| 地址: | 510000 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 激活 檢測 方法 裝置 | ||
技術領域
本發明涉及語音激活領域,尤其涉及一種語音激活檢測方法及裝置。
背景技術
語音激活檢測(Voice Activty Detection,VAD)目的是用來檢測語音會話中是否有語音存在,即正確區分語音和各種背景噪聲。
通過語音激活檢測技術可以提供語音識別的識別率,提高通訊系統的平均利用率,在無線通訊或者手持通訊設備中應用則可以降低設備功率,延長電池使用時間,在編碼率的語音編碼中應用則可以控制傳輸的碼率。
但是傳統的語音激活檢測技術為了在網絡傳輸中降低無意義的語音傳輸,節省占用的帶寬,所以都是針對實時傳輸提出,而算法的準確率要求相對較低。
但是在說話人識別系統中,語音激活檢測技術檢測的是一段非實時的音頻數據,對傳輸的實時性要求比通信系統低,但是對語音激活檢測的準確率的要求遠遠高于通信系統,語音激活檢測的輸出結果將極大影響了說話人識別的精度。因此,導致了當前的語音激活檢測技術的準確率較低的技術問題。
發明內容
本發明提供了一種語音激活檢測方法及裝置,解決了當前的語音激活檢測技術的準確率較低的技術問題。
本發明提供了一種語音激活檢測方法,包括:
S1:獲取預置時長的待檢測音頻數據,對待檢測音頻數據進行分幀處理;
S2:對每一幀待檢測音頻數據進行MFCC特征提取,獲取每一幀待檢測音頻數據的MFCC特征;
S3:將每一幀待檢測音頻數據的MFCC特征進行聚類分析,獲取聚類后的聚類標簽及每一個聚類標簽對應的待檢測音頻數據;
S4:對各個聚類標簽內的待檢測音頻數據進行辨識獲取語音幀對應的聚類標簽和非語音幀對應的聚類標簽。
優選地,步驟S3具體包括:將每一幀待檢測音頻數據的MFCC特征通過K-means算法進行聚類分析,獲取聚類后的聚類標簽及每一個聚類標簽對應的待檢測音頻數據。
優選地,步驟S1之后,步驟S2之前還包括:步驟S01;
S01:對分幀后的待檢測音頻數據進行預加重處理,通過高通濾波器過濾預加重后的待檢測音頻數據。
優選地,步驟S01之后,步驟S2之前還包括:步驟S02;
S02:對濾波后的待檢測音頻數據通過維納濾波算法進行降噪處理。
優選地,待檢測音頻數據為通過PCM編碼的音頻數據。
本發明提供了一種語音激活檢測裝置,包括:
分幀處理單元,用于獲取預置時長的待檢測音頻數據,對待檢測音頻數據進行分幀處理;
特征提取單元,用于對每一幀待檢測音頻數據進行MFCC特征提取,獲取每一幀待檢測音頻數據的MFCC特征;
聚類輸出單元,用于將每一幀待檢測音頻數據的MFCC特征進行聚類分析,獲取聚類后的聚類標簽及每一個聚類標簽對應的待檢測音頻數據;
聚類辨識單元,用于對各個聚類標簽內的待檢測音頻數據進行辨識獲取語音幀對應的聚類標簽和非語音幀對應的聚類標簽。
優選地,聚類輸出單元,具體用于將每一幀待檢測音頻數據的MFCC特征通過K-means算法進行聚類分析,獲取聚類后的聚類標簽及每一個聚類標簽對應的待檢測音頻數據。
優選地,還包括:加重濾波單元;
加重濾波單元,用于對分幀后的待檢測音頻數據進行預加重處理,通過高通濾波器過濾預加重后的待檢測音頻數據。
優選地,還包括:降噪處理單元;
降噪處理單元,用于對濾波后的待檢測音頻數據通過維納濾波算法進行降噪處理。
優選地,待檢測音頻數據為通過PCM編碼的音頻數據。
從以上技術方案可以看出,本發明具有以下優點:
本發明提供了一種語音激活檢測方法,包括:S1:獲取預置時長的待檢測音頻數據,對待檢測音頻數據進行分幀處理;S2:對每一幀待檢測音頻數據進行MFCC特征提取,獲取每一幀待檢測音頻數據的MFCC特征;S3:將每一幀待檢測音頻數據的MFCC特征進行聚類分析,獲取聚類后的聚類標簽及每一個聚類標簽對應的待檢測音頻數據;S4:對各個聚類標簽內的待檢測音頻數據進行辨識獲取語音幀對應的聚類標簽和非語音幀對應的聚類標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州勢必可贏網絡科技有限公司,未經廣州勢必可贏網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711423558.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語音處理方法和裝置
- 下一篇:一種聲紋識別與控制的裝置





