[發明專利]語音活動檢測方法、語音識別方法及系統在審

申請號：	201911104872.1	申請日：	2019-11-13
公開（公告）號：	CN110808073A	公開（公告）日：	2020-02-18
發明（設計）人：	汪鑫;薛峰	申請（專利權）人：	蘇州思必馳信息科技有限公司
主分類號：	G10L25/78	分類號：	G10L25/78;G10L25/84;G10L25/30;G10L15/04;G10L15/20;G10L15/26
代理公司：	北京商專永信知識產權代理事務所(普通合伙) 11400	代理人：	黃謙;車江華
地址：	215123 江蘇省蘇州市蘇***	國省代碼：	江蘇;32
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音活動檢測方法識別系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開一種語音活動檢測方法，包括：對待檢測音頻文件進行幀級別音頻活動檢測，以確定所述待檢測音頻文件是否包含語音；當采用幀級別音頻活動檢測確定所述待檢測音頻文件包含語音時，將所述待檢測音頻文件切分為多個句子級子音頻片段，以獲取所述多個句子級子音頻片段的多個子音頻特征；根據所述多個子音頻特征對所述待檢測音頻文件進行句子級別語音活動檢測，以再次判斷所述待檢測音頻文件是否包含語音。本發明在對待檢測音頻文件進行幀級別的語音活動檢測之后，對初步確定的包含語音的待檢測音頻文件進行特征提取，并根據所提取的特征實現了句子級別的再次檢測，從而使得在背景噪聲較大、信噪比較低時，仍能夠檢測出是否存在語音。

技術領域

本發明涉及語音識別技術領域，尤其涉及一種語音活動檢測方法、語音識別方法及系統。

背景技術

語音活動檢測(Voice Activity detection，VAD)也被稱為語音檢測，在語音處理中用于檢測語音的存在與否，從而將信號中的語音片段和非語音片段分開。專利申請號為：201410853931.6，名稱為：語音活動檢測方法及其系統的中國專利申請基于傳統聲學特征，如短時能量、頻譜能量、過零率等或基于神經網絡提取的特征來進行語音活動檢測，對每一幀音頻都給出是否是語音的判定。這種方法在信噪比較高時擁有很好的性能。但是背景噪聲較大、信噪比較低時，系統容易將非語音片段判定為語音片段，并送到后端語音識別系統，造成資源的浪費。

發明內容

本發明實施例提供一種語音活動檢測方法、語音識別方法及系統，用于至少解決上述技術問題之一。

第一方面，本發明實施例提供一種語音活動檢測方法，包括：

對待檢測音頻文件進行幀級別音頻活動檢測，以確定所述待檢測音頻文件是否包含語音；

當采用幀級別音頻活動檢測確定所述待檢測音頻文件包含語音時，將所述待檢測音頻文件切分為多個句子級子音頻片段，以獲取所述多個句子級子音頻片段的多個子音頻特征；

根據所述多個子音頻特征對所述待檢測音頻文件進行句子級別語音活動檢測，以再次判斷所述待檢測音頻文件是否包含語音。

第二方面，本發明實施例提供一種語音識別方法，應用于語音識別終端，所述方法包括：

獲取待檢測音頻文件；

采用本發明任一實施例所述的語音活動檢測方法判斷所述待檢測音頻文件中是否包含語音；

如果是，則對所述待檢測音頻文件進行語音識別；

如果否，則不對所述待檢測音頻文件進行語音識別。

第三，本發明實施例提供語音活動檢測系統，包括：