[發明專利]語音端點檢測方法、裝置、設備及計算機存儲介質有效
| 申請號: | 202010089292.6 | 申請日: | 2020-02-12 |
| 公開(公告)號: | CN111354378B | 公開(公告)日: | 2020-11-24 |
| 發明(設計)人: | 邱廣;馮大航;陳孝良;常樂 | 申請(專利權)人: | 北京聲智科技有限公司 |
| 主分類號: | G10L25/78 | 分類號: | G10L25/78;G10L25/18;G10L25/30;G10L25/27 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 邢少真 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 端點 檢測 方法 裝置 設備 計算機 存儲 介質 | ||
本申請公開了一種語音端點檢測方法、裝置、設備及計算機存儲介質,屬于語音端點檢測技術領域。所述方法包括:對音頻信號進行處理,得到所述音頻信號的頻譜圖;將所述頻譜圖輸入目標檢測模型,所述目標檢測模型用于檢測所述頻譜圖中的有效語音部分;獲取所述目標檢測模型輸出的所述頻譜圖中有效語音部分的起始位置和終止位置。解決了相關技術中語音端點檢測方法難以準確判斷一段音頻信號中是否存在有效語音部分的問題。達到了提高語音端點檢測方法準確性的效果。
技術領域
本申請涉及語音端點檢測技術領域,特別涉及一種語音端點檢測方法、裝置、設備及計算機存儲介質。
背景技術
語音端點檢測(Voice Activity Detection,VAD)是一種用于檢測音頻信號中有效語音部分的起始位置以及終止位置的方法,是語音增強、語音識別等技術的預處理步驟,有效語音部分是音頻信號中有人說話的部分。
相關技術中一種語音端點檢測方法,使用能量閾值判斷一段音頻信號中是否存在有效語音部分,音頻信號的能量是背景噪聲的能量與有效語音部分的能量的和,當音頻信號的能量大于某一預設的閾值,即可認為該段音頻信號中存在有效語音部分,進而獲取有效語音部分的開始位置與結束位置。
但是,在信噪比較低時,這種語音端點檢測方法難以準確判斷一段音頻信號中是否存在有效語音部分。
發明內容
本申請實施例提供了一種語音端點檢測方法、裝置、設備及計算機存儲介質,能夠解決相關技術中在信噪比較低時,語音端點檢測方法難以準確判斷一段音頻信號中是否存在有效語音部分的問題。所述技術方案如下:
根據本申請的第一方面,提供了一種語音端點檢測方法,所述語音端點檢測方法包括:
對音頻信號進行處理,得到所述音頻信號的頻譜圖;
將所述頻譜圖輸入目標檢測模型,所述目標檢測模型用于檢測所述頻譜圖中的有效語音部分;
獲取所述目標檢測模型輸出的所述頻譜圖中有效語音部分的起始位置和終止位置。
可選的,所述將所述頻譜圖輸入目標檢測模型之前,包括:
獲取初始目標檢測模型;
獲取訓練數據,所述訓練數據包括樣本頻譜圖,所述樣本頻譜圖具有多個先驗框以及與所述多個先驗框一一對應的損失函數,所述多個先驗框包括多個正樣本和多個負樣本,所述正樣本為有效語音部分大于閾值的先驗框,所述負樣本為有效語音部分不大于所述閾值的先驗框;
根據所述訓練數據對所述初始目標檢測模型進行訓練,得到所述目標檢測模型。
可選的,所述獲取訓練數據, 包括:
獲取所述樣本頻譜圖,所述樣本頻譜圖具有多個先驗框;
根據損失函數公式確定與所述多個先驗框一一對應的損失函數,所述損失函數公式包括:
L(x,c,l,g)=(Lconf(x,c)/N+αLloc(x,l,g));
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京聲智科技有限公司,未經北京聲智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010089292.6/2.html,轉載請聲明來源鉆瓜專利網。





