[發明專利]語音活性檢測方法、裝置及設備在審
| 申請號: | 201810362694.1 | 申請日: | 2018-04-20 |
| 公開(公告)號: | CN108648769A | 公開(公告)日: | 2018-10-12 |
| 發明(設計)人: | 李超;朱唯鑫;文銘 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L25/78 | 分類號: | G10L25/78;G10L25/30 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 閔南燕;劉芳 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻幀 產品線 神經網絡模型 聲學特征 神經網絡訓練 檢測 裝置及設備 活性檢測 輸出節點 訓練數據 應用場景 語音 場景 特征設計 有效語音 預設 標注 調試 | ||
本發明提供一種語音活性檢測方法、裝置及設備。本發明的方法,通過預先由訓練數據中各音頻幀的聲學特征和標注數據對深度神經網絡訓練得到深度神經網絡模型,將提取的待檢測的音頻幀的聲學特征直接輸入預設的深度神經網絡模型,計算待檢測的音頻幀對應的輸出節點的值,根據待檢測的音頻幀對應的輸出節點的值,確定待檢測的音頻幀是否為有效語音,針對不同的應用場景和產品線,只需采用與應用場景或者產品線相對應的訓練數據對深度神經網絡訓練,得到的深度神經網絡模型能夠適用于該場景或者產品線,可以適用于多種不同的場景和產品線,通用性好,并且無需對聲學特征進行復雜的特征設計過程和人工調試,提高了對音頻幀的識別效率。
技術領域
本發明涉及語音識別領域,尤其涉及一種語音活性檢測方法、裝置及設備。
背景技術
隨著語音搜索業務的不斷普及,越來越多的人開始使用自己的語音作為交互的手段。用戶通過移動終端將輸入的音頻上傳到服務器,服務器根據該音頻進行語音識別和搜索。
基于用戶的說話習慣,大多數用戶輸入的音頻包括長時間的靜音,如果將輸入的音頻全部傳輸到服務器,那么音頻中長時間的靜音就會消耗大量的流量,同時給也給服務器的語音識別引擎帶來巨大的壓力。目前,多是通過語音活性檢測(Voice ActivityDetector,簡稱VAD)工具,從音頻信號流里識別和消除長時間的靜音段。
但是目前的VAD工具通常是利用音頻的能量值和過零率,利用經驗總結出來的規則來區分音頻中的語音段和靜音段。目前的VAD工具通用性差,需要針對不同的產品線進行復雜的設計調試,耗時耗力。
發明內容
本發明提供一種語音活性檢測方法、裝置及設備,用以解決目前的VAD工具通用性差,需要針對不同的產品線進行復雜的設計調試,耗時耗力的問題。
本發明的一個方面是提供一種語音活性檢測方法,包括:
提取待檢測的音頻幀的聲學特征;
將所述待檢測的音頻幀的聲學特征輸入預設的深度神經網絡模型,計算所述待檢測的音頻幀對應的輸出節點的值,所述深度神經網絡模型由訓練數據中各音頻幀的聲學特征和標注數據對深度神經網絡訓練得到;
根據所述待檢測的音頻幀對應的輸出節點的值,確定所述待檢測的音頻幀是否為有效語音。
本發明的另一個方面是提供一種語音活性檢測裝置,包括:
特征提取模塊,用于提取待檢測的音頻幀的聲學特征;
檢測模塊,用于將所述待檢測的音頻幀的聲學特征輸入預設的深度神經網絡模型,計算所述待檢測的音頻幀對應的輸出節點的值,所述深度神經網絡模型由訓練數據中各音頻幀的聲學特征和標注數據對深度神經網絡訓練得到;
確定模塊,用于根據所述待檢測的音頻幀對應的輸出節點的值,確定所述待檢測的音頻幀是否為有效語音。
本發明的另一個方面是提供一種計算機設備,包括:
存儲器,處理器,以及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,
所述處理器運行所述計算機程序時實現上述所述的方法。
本發明的另一個方面是提供一種計算機可讀存儲介質,存儲有計算機程序,
所述計算機程序被處理器執行時實現上述所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810362694.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種咨詢推薦方法及其管理系統
- 下一篇:一種旋轉式播放裝置





