[發明專利]語音檢測方法、裝置、電子設備和存儲介質有效
| 申請號: | 202011327815.2 | 申請日: | 2020-11-24 |
| 公開(公告)號: | CN112466298B | 公開(公告)日: | 2023-08-11 |
| 發明(設計)人: | 周立峰;朱浩齊;李雨珂;楊衛強 | 申請(專利權)人: | 杭州網易智企科技有限公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/06;G10L15/02;G10L25/60 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 李靜文 |
| 地址: | 310052 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 檢測 方法 裝置 電子設備 存儲 介質 | ||
本申請公開了一種語音檢測方法、裝置、電子設備和存儲介質,涉及人工智能技術領域,該方法包括:將待檢測的音頻信息輸入語音分類模型以獲得第一結果,該第一結果用以確定音頻信息與目標對象之間的對應關系;其中,語音分類模型由音頻訓練信息訓練獲得,語音分類模型至少包括依次級聯的卷積神經網絡、循環神經網絡以及注意力機制模型,以及用于將卷積神經網絡和注意力機制模型各自的輸出結果進行融合的融合層。這樣,基于訓練好的語音分類模型對音頻信息進行檢測,以確定音頻信息與目標對象的對應關系,不需要人工審核,降低了人力成本和時間成本,提高了音頻審核效率,可以實現大規模語音數據的審核過濾。
技術領域
本申請涉及人工智能技術領域,更具體地說,涉及一種語音檢測方法、裝置、電子設備和存儲介質。
背景技術
在多媒體爆炸的信息時代,語音的數量和時長呈指數型增長。語音在被上傳至網絡中時,通常需要對語音進行審核,以避免垃圾語音在網絡中傳播。在一些場景下,特定人群的語音為垃圾語音。
目前,為了識別上述垃圾語音,通常采用人工審核的方式,即通過人工聽語音的方式判斷一段語音是否包含特定人群的語音。這需要審核人員聽完整段語音,理論上來講,一個審核人員一天只能審核不超過24小時的語音,效率低下,需要很高的人力成本和時間成本。并且,人工審核的方式無法完成大規模語音數據的審核過濾。
發明內容
本申請實施例提供一種語音檢測方法、裝置、電子設備和存儲介質,用以對語音進行自動檢測,降低耗費的人力成本和時間成本,提高了語音審核效率,可以實現大規模語音數據的審核過濾。
一方面,本申請實施例提供一種語音檢測方法,包括:
將待檢測的音頻信息輸入語音分類模型以獲得第一結果,所述第一結果用以確定所述音頻信息與目標對象之間的對應關系;其中,
所述語音分類模型由音頻訓練信息訓練獲得,所述語音分類模型至少包括依次級聯的卷積神經網絡、循環神經網絡以及注意力機制模型,以及用于將卷積神經網絡和注意力機制模型各自的輸出結果進行融合的融合層。
在一種可選的實施方式中,所述語音分類模型由所述目標對象的音頻訓練信息訓練獲得,包括:
對所述音頻訓練信息進行特征提取以獲得相應的音頻特征數據;
對所述音頻特征數據進行數據增強處理,并通過增強后的音頻特征數據對所述語音分類模型進行訓練。
在一種可選的實施方式中,對所述音頻訓練信息進行特征提取以獲得相應的音頻特征數據的步驟包括:
將所述音頻訓練信息切分為等長的音頻片段,對每個所述音頻片段分別進行特征提取以獲得對應的音頻特征數據,所述音頻特征數據包括對應于每個音頻片段的原始特征數據以及FBank特征數據。
在一種可選的實施方式中,對所述音頻特征數據進行數據增強處理的步驟至少包括以下之一:
在FBank特征數據中隨機的選取部分頻帶上對應的特征值,將相應的特征值替換為隨機值;
在FBank特征數據中隨機的交換至少兩個時間片段上對應的特征值。
在一種可選的實施方式中,對所述音頻特征數據進行數據增強處理的步驟至少包括以下之一:
在所述原始特征數據中添加隨機的噪聲特征數據;
將多段所述的原始特征數據相拼接;
改變原始特征數據中的發音速度特征和/或音調特征。
在一種可選的實施方式中,所述方法還包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州網易智企科技有限公司,未經杭州網易智企科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011327815.2/2.html,轉載請聲明來源鉆瓜專利網。





