[發(fā)明專利]語音活性檢測模型生成方法、系統(tǒng)及語音活性檢測方法、系統(tǒng)有效

申請?zhí)枺?/td>	201710147407.0	申請日：	2017-03-13
公開（公告）號：	CN108573712B	公開（公告）日：	2020-07-28
發(fā)明（設(shè)計(jì)）人：	張勇;何茜	申請（專利權(quán)）人：	北京貝塔科技股份有限公司
主分類號：	G10L25/24	分類號：	G10L25/24;G10L15/02;G10L15/14
代理公司：	北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227	代理人：	王寶筠
地址：	100192 北京市海淀區(qū)西小口路66號***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	語音活性檢測模型生成方法系統(tǒng)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明實(shí)施例提供了一種語音活性檢測模型生成方法、系統(tǒng)及語音活性檢測方法、系統(tǒng)，可以從訓(xùn)練數(shù)據(jù)集中提取音頻數(shù)據(jù)及音頻標(biāo)識(shí)，對提取的音頻數(shù)據(jù)進(jìn)行采樣，獲得音頻數(shù)據(jù)的一維離散數(shù)組；對獲得的音頻數(shù)據(jù)的一維離散數(shù)組進(jìn)行分幀加窗處理，獲得音頻數(shù)據(jù)的多幀音頻信號；提取音頻數(shù)據(jù)的各幀音頻信號的梅爾頻率倒譜系數(shù)MFCC；根據(jù)音頻數(shù)據(jù)的各幀音頻信號的MFCC確定音頻數(shù)據(jù)的各幀音頻信號的音頻特征參數(shù)，將確定的音頻數(shù)據(jù)的音頻特征參數(shù)確定為提取的音頻數(shù)據(jù)的音頻特征參數(shù)；將與提取的音頻數(shù)據(jù)對應(yīng)的音頻標(biāo)識(shí)及提取的音頻數(shù)據(jù)的音頻特征參數(shù)輸入支持向量機(jī)SVM中進(jìn)行模型訓(xùn)練，獲得語音活性檢測模型。本發(fā)明提高了語音活性檢測的精度。

技術(shù)領(lǐng)域

本發(fā)明涉及語音活性檢測技術(shù)領(lǐng)域，特別是涉及語音活性檢測模型生成方法、系統(tǒng)及語音活性檢測方法、系統(tǒng)。

背景技術(shù)

語音活性檢測(VAD，Voice Activity Detection)，是一項(xiàng)用于語音處理的技術(shù)，可以檢測語音信號是否存在，確定音視頻中人聲出現(xiàn)的時(shí)間段，是進(jìn)行音視頻自動(dòng)智能處理應(yīng)用的必要步驟。

現(xiàn)有技術(shù)通常基于簡單的時(shí)域或頻域特征分析，如：比較常用的語音活性檢測技術(shù)是基于短時(shí)能量和過零率的雙門限端點(diǎn)檢測,，如果連續(xù)幾幀的短時(shí)能量和過零率都大于指定閾值，則判定語音開始。此類方法僅通過一些基礎(chǔ)的信號特征以及人為指定的閾值判定語音活性與否，精度通常較差。

發(fā)明內(nèi)容

本發(fā)明實(shí)施例的目的在于提供一種語音活性檢測模型生成方法、系統(tǒng)及語音活性檢測方法、系統(tǒng)，以提高語音活性檢測的精度。具體技術(shù)方案如下：

一種語音活性檢測模型生成方法，包括：

從預(yù)設(shè)的訓(xùn)練數(shù)據(jù)集中提取音頻數(shù)據(jù)及與音頻數(shù)據(jù)對應(yīng)的音頻標(biāo)識(shí)，其中，所述預(yù)設(shè)的訓(xùn)練數(shù)據(jù)集中包括：語音音頻數(shù)據(jù)及非語音音頻數(shù)據(jù)，所述音頻標(biāo)識(shí)為語音標(biāo)識(shí)或非語音標(biāo)識(shí)；

對提取的音頻數(shù)據(jù)進(jìn)行采樣，獲得音頻數(shù)據(jù)的一維離散數(shù)組；

對獲得的音頻數(shù)據(jù)的一維離散數(shù)組進(jìn)行分幀加窗處理，獲得音頻數(shù)據(jù)的多幀音頻信號；

提取音頻數(shù)據(jù)的各幀音頻信號的梅爾頻率倒譜系數(shù)MFCC；

根據(jù)音頻數(shù)據(jù)的各幀音頻信號的MFCC確定音頻數(shù)據(jù)的各幀音頻信號的音頻特征參數(shù)，將確定的音頻數(shù)據(jù)的音頻特征參數(shù)確定為提取的音頻數(shù)據(jù)的音頻特征參數(shù)；

將與提取的音頻數(shù)據(jù)對應(yīng)的音頻標(biāo)識(shí)及提取的音頻數(shù)據(jù)的音頻特征參數(shù)輸入支持向量機(jī)SVM中進(jìn)行模型訓(xùn)練，獲得語音活性檢測模型。

可選的，所述方法還包括：

從預(yù)設(shè)的測試數(shù)據(jù)集中提取測試數(shù)據(jù)及與測試數(shù)據(jù)對應(yīng)的音頻標(biāo)識(shí)；

對提取的測試數(shù)據(jù)進(jìn)行采樣，獲得測試數(shù)據(jù)的一維離散數(shù)組；

對獲得的測試數(shù)據(jù)的一維離散數(shù)組進(jìn)行分幀加窗處理，獲得測試數(shù)據(jù)的多幀音頻信號；

提取測試數(shù)據(jù)的各幀音頻信號的梅爾頻率倒譜系數(shù)MFCC；

根據(jù)測試數(shù)據(jù)的各幀音頻信號的MFCC確定測試數(shù)據(jù)的各幀音頻信號的音頻特征參數(shù)，將確定的測試數(shù)據(jù)的音頻特征參數(shù)確定為提取的測試數(shù)據(jù)的音頻特征參數(shù)；

控制所述SVM根據(jù)測試數(shù)據(jù)的音頻特征參數(shù)確定從預(yù)設(shè)的測試數(shù)據(jù)集中提取的測試數(shù)據(jù)對應(yīng)的音頻標(biāo)識(shí)；

在所述SVM確定的音頻標(biāo)識(shí)與從預(yù)設(shè)的測試數(shù)據(jù)集中提取的音頻標(biāo)識(shí)不同時(shí)，對所述語音活性檢測模型進(jìn)行調(diào)整以優(yōu)化所述語音活性檢測模型。

可選的，所述根據(jù)音頻數(shù)據(jù)的各幀音頻信號的MFCC確定音頻數(shù)據(jù)的各幀音頻信號的音頻特征參數(shù)，包括：

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京貝塔科技股份有限公司，未經(jīng)北京貝塔科技股份有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710147407.0/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種基于NMF算法的單傳聲器語音分離方法
下一篇：語音識(shí)別裝置、語音識(shí)別方法以及存儲(chǔ)介質(zhì)

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識(shí)別；音頻分析或處理

免登錄下載普通用戶下載升級VIP會(huì)員，免費(fèi)下載

滑坡模型實(shí)驗(yàn)?zāi)Ｐ图?/a>

[發(fā)明專利]語音活性檢測模型生成方法、系統(tǒng)及語音活性檢測方法、系統(tǒng)有效

專利文獻(xiàn)下載