[發明專利]基于聯合深度神經網絡的端點檢測方法及系統在審
| 申請號: | 202011397477.X | 申請日: | 2020-12-04 |
| 公開(公告)號: | CN112735482A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 珠海億智電子科技有限公司 |
| 主分類號: | G10L25/87 | 分類號: | G10L25/87;G10L25/30;G10L25/24 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 張龍哺 |
| 地址: | 519080 廣東省珠海市高新區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 聯合 深度 神經網絡 端點 檢測 方法 系統 | ||
本發明公開了基于聯合深度神經網絡的端點檢測方法及系統,該方法包括:基于開源音頻數據集獲取音頻及第一幀級別標簽,對音頻進行混合加噪得到第一音頻數據,以及,錄制真實場景聲音,得到第二音頻數據,分段標記得到分段標簽;將第一音頻數據、第二音頻數據及相應的標簽輸入至第一神經網絡中進行訓練,得到第一階段網絡模型;通過第一階段網絡模型得到第二音頻數據相應的第二幀級別標簽,將第二音頻數據及第二幀級別標簽輸入到第二神經網絡中進行訓練,得到第二階段網絡模型;基于第一階段網絡模型及第二階段網絡模型,對音頻信號進行端點檢測。本發明可減少依賴人工標記的幀級別數據,提高檢測識別效果,降低計算量,加快運算速度。
技術領域
本發明涉及語音處理技術領域,特別涉及一種基于聯合深度神經網絡的端點檢測方法及系統。
背景技術
端點檢測(Voice Activity Detection,VAD)是指從連續音頻信號中檢測出實際語音片段的起始位置和結束位置,用于提取有效的音頻片段,排除其他非語音干擾信號。端點檢測能夠為后續語音處理系統提供可靠的語音數據,同時將非語音信號去除,減少了后續語音處理系統的計算壓力,有助于提高系統的響應速度。
端點檢測可分為兩大類,一類是傳統的端點檢測算法,一類是基于深度神經網絡的端點檢測算法。傳統算法的計算量相對簡單,但在實際環境中尤其是低信噪比環境下效果較差,而基于深度神經網絡的算法計算量較大,且依賴于數據,需要匹配的人工標記的幀級別數據作為訓練數據集,而真實環境中包含的聲音場景和背景噪音種類繁多較為復雜,獲取標記數據需要耗費大量的人工,要想取得較為理想的效果,網絡結構復雜計算量較大。
發明內容
本發明旨在至少解決現有技術中存在的技術問題之一。為此,本發明提出一種基于聯合深度神經網絡的端點檢測方法,能夠減少依賴標記數據。
本發明還提出一種具有上述基于聯合深度神經網絡的端點檢測方法的基于聯合深度神經網絡的端點檢測系統。
本發明還提出一種具有上述基于聯合深度神經網絡的端點檢測方法的計算機可讀存儲介質。
根據本發明的第一方面實施例的基于聯合深度神經網絡的端點檢測方法,包括以下步驟:S100,基于開源音頻數據集獲取音頻及第一幀級別標簽,對所述音頻進行混合加噪得到第一音頻數據,以及,錄制真實場景聲音,得到第二音頻數據,并進行分段標記,得到分段標簽;S200,將所述第一音頻數據及第一幀級別標簽作為第一訓練數據,將所述第二音頻數據及所述分段標簽作為第二訓練數據,輸入至第一神經網絡中進行訓練,得到第一階段網絡模型;S300,通過所述第一階段網絡模型得到所述第二音頻數據相應的第二幀級別標簽,將所述第二音頻數據及所述第二幀級別標簽輸入到第二神經網絡中進行訓練,得到第二階段網絡模型;S400,基于所述第一階段網絡模型及所述第二階段網絡模型,對音頻信號進行端點檢測。
根據本發明實施例的基于聯合深度神經網絡的端點檢測方法,至少具有如下有益效果:通過開源數據集及對真實場景錄音制作弱標簽(即分段標簽)數據,替代人工標記的幀級別數據,減少前期人工耗費,對真實場景錄音并分段標記,而彌補了由于缺少實際標注數據,應用場景不匹配而導致VAD效果較差的缺陷;并通過兩階段網絡結構聯合訓練,在第一階段產生了真實場景下幀級別的數據,因此,第二階段可采用較小的網絡進行重新訓練,大大降低了在實際過程中的計算量,加快了推理過程,兼顧了性能和運算速度;且充分利用合成音頻的幀級別標簽數據和真實聲音場景的弱標簽數據進行聯合訓練,可使網絡能夠得到較為準確的幀級別標簽。
根據本發明的一些實施例,所述步驟S100包括:S110,基于開源音頻數據集獲取所述音頻,進行加窗分幀處理,根據預設能量閾值逐幀進行標記,獲得所述第一幀級別標簽,并按比例將所述音頻進行混合加噪處理,得到所述第一音頻數據;S120,對所述第二音頻數據按固定時長進行分段,判斷每一分段是否存在人類語音信息,根據判斷結果得到所述分段標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海億智電子科技有限公司,未經珠海億智電子科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011397477.X/2.html,轉載請聲明來源鉆瓜專利網。





