[發(fā)明專利]語音活性檢測模型生成方法、系統(tǒng)及語音活性檢測方法、系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710147407.0 | 申請日: | 2017-03-13 |
| 公開(公告)號: | CN108573712B | 公開(公告)日: | 2020-07-28 |
| 發(fā)明(設(shè)計(jì))人: | 張勇;何茜 | 申請(專利權(quán))人: | 北京貝塔科技股份有限公司 |
| 主分類號: | G10L25/24 | 分類號: | G10L25/24;G10L15/02;G10L15/14 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 100192 北京市海淀區(qū)西小口路66號*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 活性 檢測 模型 生成 方法 系統(tǒng) | ||
本發(fā)明實(shí)施例提供了一種語音活性檢測模型生成方法、系統(tǒng)及語音活性檢測方法、系統(tǒng),可以從訓(xùn)練數(shù)據(jù)集中提取音頻數(shù)據(jù)及音頻標(biāo)識(shí),對提取的音頻數(shù)據(jù)進(jìn)行采樣,獲得音頻數(shù)據(jù)的一維離散數(shù)組;對獲得的音頻數(shù)據(jù)的一維離散數(shù)組進(jìn)行分幀加窗處理,獲得音頻數(shù)據(jù)的多幀音頻信號;提取音頻數(shù)據(jù)的各幀音頻信號的梅爾頻率倒譜系數(shù)MFCC;根據(jù)音頻數(shù)據(jù)的各幀音頻信號的MFCC確定音頻數(shù)據(jù)的各幀音頻信號的音頻特征參數(shù),將確定的音頻數(shù)據(jù)的音頻特征參數(shù)確定為提取的音頻數(shù)據(jù)的音頻特征參數(shù);將與提取的音頻數(shù)據(jù)對應(yīng)的音頻標(biāo)識(shí)及提取的音頻數(shù)據(jù)的音頻特征參數(shù)輸入支持向量機(jī)SVM中進(jìn)行模型訓(xùn)練,獲得語音活性檢測模型。本發(fā)明提高了語音活性檢測的精度。
技術(shù)領(lǐng)域
本發(fā)明涉及語音活性檢測技術(shù)領(lǐng)域,特別是涉及語音活性檢測模型生成方法、系統(tǒng)及語音活性檢測方法、系統(tǒng)。
背景技術(shù)
語音活性檢測(VAD,Voice Activity Detection),是一項(xiàng)用于語音處理的技術(shù),可以檢測語音信號是否存在,確定音視頻中人聲出現(xiàn)的時(shí)間段,是進(jìn)行音視頻自動(dòng)智能處理應(yīng)用的必要步驟。
現(xiàn)有技術(shù)通常基于簡單的時(shí)域或頻域特征分析,如:比較常用的語音活性檢測技術(shù)是基于短時(shí)能量和過零率的雙門限端點(diǎn)檢測,,如果連續(xù)幾幀的短時(shí)能量和過零率都大于指定閾值,則判定語音開始。此類方法僅通過一些基礎(chǔ)的信號特征以及人為指定的閾值判定語音活性與否,精度通常較差。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例的目的在于提供一種語音活性檢測模型生成方法、系統(tǒng)及語音活性檢測方法、系統(tǒng),以提高語音活性檢測的精度。具體技術(shù)方案如下:
一種語音活性檢測模型生成方法,包括:
從預(yù)設(shè)的訓(xùn)練數(shù)據(jù)集中提取音頻數(shù)據(jù)及與音頻數(shù)據(jù)對應(yīng)的音頻標(biāo)識(shí),其中,所述預(yù)設(shè)的訓(xùn)練數(shù)據(jù)集中包括:語音音頻數(shù)據(jù)及非語音音頻數(shù)據(jù),所述音頻標(biāo)識(shí)為語音標(biāo)識(shí)或非語音標(biāo)識(shí);
對提取的音頻數(shù)據(jù)進(jìn)行采樣,獲得音頻數(shù)據(jù)的一維離散數(shù)組;
對獲得的音頻數(shù)據(jù)的一維離散數(shù)組進(jìn)行分幀加窗處理,獲得音頻數(shù)據(jù)的多幀音頻信號;
提取音頻數(shù)據(jù)的各幀音頻信號的梅爾頻率倒譜系數(shù)MFCC;
根據(jù)音頻數(shù)據(jù)的各幀音頻信號的MFCC確定音頻數(shù)據(jù)的各幀音頻信號的音頻特征參數(shù),將確定的音頻數(shù)據(jù)的音頻特征參數(shù)確定為提取的音頻數(shù)據(jù)的音頻特征參數(shù);
將與提取的音頻數(shù)據(jù)對應(yīng)的音頻標(biāo)識(shí)及提取的音頻數(shù)據(jù)的音頻特征參數(shù)輸入支持向量機(jī)SVM中進(jìn)行模型訓(xùn)練,獲得語音活性檢測模型。
可選的,所述方法還包括:
從預(yù)設(shè)的測試數(shù)據(jù)集中提取測試數(shù)據(jù)及與測試數(shù)據(jù)對應(yīng)的音頻標(biāo)識(shí);
對提取的測試數(shù)據(jù)進(jìn)行采樣,獲得測試數(shù)據(jù)的一維離散數(shù)組;
對獲得的測試數(shù)據(jù)的一維離散數(shù)組進(jìn)行分幀加窗處理,獲得測試數(shù)據(jù)的多幀音頻信號;
提取測試數(shù)據(jù)的各幀音頻信號的梅爾頻率倒譜系數(shù)MFCC;
根據(jù)測試數(shù)據(jù)的各幀音頻信號的MFCC確定測試數(shù)據(jù)的各幀音頻信號的音頻特征參數(shù),將確定的測試數(shù)據(jù)的音頻特征參數(shù)確定為提取的測試數(shù)據(jù)的音頻特征參數(shù);
控制所述SVM根據(jù)測試數(shù)據(jù)的音頻特征參數(shù)確定從預(yù)設(shè)的測試數(shù)據(jù)集中提取的測試數(shù)據(jù)對應(yīng)的音頻標(biāo)識(shí);
在所述SVM確定的音頻標(biāo)識(shí)與從預(yù)設(shè)的測試數(shù)據(jù)集中提取的音頻標(biāo)識(shí)不同時(shí),對所述語音活性檢測模型進(jìn)行調(diào)整以優(yōu)化所述語音活性檢測模型。
可選的,所述根據(jù)音頻數(shù)據(jù)的各幀音頻信號的MFCC確定音頻數(shù)據(jù)的各幀音頻信號的音頻特征參數(shù),包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京貝塔科技股份有限公司,未經(jīng)北京貝塔科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710147407.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





