[發(fā)明專利]語音活動檢測方法、語音識別方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201911104872.1 | 申請日: | 2019-11-13 |
| 公開(公告)號: | CN110808073A | 公開(公告)日: | 2020-02-18 |
| 發(fā)明(設計)人: | 汪鑫;薛峰 | 申請(專利權)人: | 蘇州思必馳信息科技有限公司 |
| 主分類號: | G10L25/78 | 分類號: | G10L25/78;G10L25/84;G10L25/30;G10L15/04;G10L15/20;G10L15/26 |
| 代理公司: | 北京商專永信知識產(chǎn)權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;車江華 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 活動 檢測 方法 識別 系統(tǒng) | ||
1.一種語音活動檢測方法,包括:
對待檢測音頻文件進行幀級別音頻活動檢測,以確定所述待檢測音頻文件是否包含語音;
當采用幀級別音頻活動檢測確定所述待檢測音頻文件包含語音時,將所述待檢測音頻文件切分為多個句子級子音頻片段,以獲取所述多個句子級子音頻片段的多個子音頻特征;
根據(jù)所述多個子音頻特征對所述待檢測音頻文件進行句子級別語音活動檢測,以再次判斷所述待檢測音頻文件是否包含語音。
2.根據(jù)權利要求1所述的方法,其中,所述根據(jù)所述音頻特征對所述待檢測音頻文件進行句子級別語音活動檢測包括:將所述音頻特征輸入至預先訓練的句子級語音活動檢測模型,以對所述待檢測音頻文件進行句子級別語音活動檢測;所述句子級語音活動檢測模型基于語音數(shù)據(jù)和噪聲數(shù)據(jù)集預先訓練得到。
3.根據(jù)權利要求2所述的方法,其中,所述句子級語音活動檢測模型包括:順序連接的特征提取層、卷積層、特征統(tǒng)計層、融合層和深度神經(jīng)網(wǎng)絡層;其中,
所述特征提取層提取所接收到的句子級子音頻片段的子音頻特征,并將所述子音頻特征輸入至所述卷積層;
所述特征統(tǒng)計層基于所述卷積層的輸出統(tǒng)計得到所述子音頻特征的統(tǒng)計特征;
所述融合層對所述統(tǒng)計特征進行融合處理,并將融合結果輸入至所述深度神經(jīng)網(wǎng)絡層,以基于所述深度神經(jīng)網(wǎng)絡層的輸出確定所述待檢測音頻文件是否包含語音。
4.根據(jù)權利要求3所述的方法,其中,所述特征統(tǒng)計層包括:
音頻特征均值統(tǒng)計單元,用于確定所述句子級子音頻片段在預設時間內的子音頻特征的特征平均值;
音頻特征標準差統(tǒng)計單元,用于確定所述句子級子音頻片段在預設時間內的子音頻特征的特征標準差;所述預設時長為所述句子級子音頻片段的時間長度。
5.根據(jù)權利要求1所述的方法,其中,將所述待檢測音頻文件切分為多個句子級子音頻片段包括:
按照預設幀長和預設幀移將對所述待檢測音頻文件進行分幀處理以得到多個音頻幀,所述預設幀移小于所述預設幀長;
將所述多個音頻幀劃分為多個音頻幀組,以得到相應的多個句子級音頻片段。
6.根據(jù)權利要求5所述的方法,其中,所述多個音頻幀組中的相鄰的兩個音頻幀組之間具有多個共享過渡音頻幀。
7.一種語音識別方法,應用于語音識別終端,所述方法包括:
獲取待檢測音頻文件;
采用權利要求1-6中任一項所述的方法判斷所述待檢測音頻文件中是否包含語音;
如果是,則對所述待檢測音頻文件進行語音識別;
如果否,則不對所述待檢測音頻文件進行語音識別。
8.一種語音活動檢測系統(tǒng),包括:
幀級音活動檢測模塊,用于對待檢測音頻文件進行幀級別音頻活動檢測,以確定所述待檢測音頻文件是否包含語音;
音頻分段模塊,用于當采用幀級別音頻活動檢測確定所述待檢測音頻文件包含語音時,將所述待檢測音頻文件切分為多個句子級子音頻片段,以獲取所述多個句子級子音頻片段的多個子音頻特征;
句級語音活動檢測模塊,用于根據(jù)所述多個子音頻特征對所述待檢測音頻文件進行句子級別語音活動檢測,以再次判斷所述待檢測音頻文件是否包含語音。
9.一種電子設備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行權利要求1-6中任意一項所述方法的步驟。
10.一種存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)權利要求1-6中任意一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州思必馳信息科技有限公司,未經(jīng)蘇州思必馳信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911104872.1/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種車輛制動剎車片制造精加工工藝
- 下一篇:一種基于微信的報警方法及報警設備





