[發明專利]語音活動偵測方法及裝置在審
| 申請號: | 201610505472.1 | 申請日: | 2016-06-30 |
| 公開(公告)號: | CN107564545A | 公開(公告)日: | 2018-01-09 |
| 發明(設計)人: | 孫廷瑋;柯逸倩 | 申請(專利權)人: | 展訊通信(上海)有限公司 |
| 主分類號: | G10L25/78 | 分類號: | G10L25/78;G10L25/84 |
| 代理公司: | 北京集佳知識產權代理有限公司11227 | 代理人: | 郭學秀,吳敏 |
| 地址: | 201203 上海市浦東新區張*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 活動 偵測 方法 裝置 | ||
技術領域
本發明涉及語音檢測技術領域,特別是涉及一種語音活動偵測方法及裝置。
背景技術
移動終端,是指可以在移動中使用的計算機設備,廣義地講包括手機、筆記本、平板電腦、POS機、車載電腦等。隨著集成電路技術的飛速發展,移動終端已經擁有了強大的處理能力,移動終端正在從簡單的通話工具變為一個綜合信息處理平臺,這也給移動終端增加了更加寬廣的發展空間。
移動終端的使用,通常需要用戶集中一定的注意力。如今的移動終端設備都配備有觸摸屏,用戶需要觸摸所述觸摸屏,以執行相應的操作。但是,用戶無法觸碰到移動終端設備時,操作移動終端便會變得極其不方便。例如,當用戶駕駛車輛或者手中提有物品的時候。
語音活動偵測方法和總聽系統(Always Listening System)的使用,使得可以對移動終端進行非手動激活和操作。當所述總聽系統檢測到聲音信號時,語音檢測系統便會激活,并對檢測到的聲音信號進行識別,之后,移動終端便會根據所識別出的聲音信號執行相應的操作,例如,當用戶輸入“撥打XX的手機”的語音時,移動終端便可以對用戶輸入的“撥打XX的手機”的語音信息進行識別,并在正確識別后,從移動終端中獲取XX的手機號碼的信息,并撥打。
現有技術中,基于能量估計的語音活動偵測方法,對噪音較為敏感,當噪音類型發生變化時,存在著檢測準確性差的問題。
發明內容
本發明實施例解決的問題是如何提高語音活動偵測的準確性。
為解決上述問題,本發明實施例提供了一種語音活動偵測方法,包括:對輸入的聲音信號對應的聲音數據進行分幀處理得到多個幀;對所述多個幀進行遍歷,采用預設的高斯隨機過程隱變量模型計算遍歷至的當前幀的語音活動偵測分值;當確定計算得出的語音活動偵測分值小于預設的閾值時,確定當前幀中包括語音信息。
可選地,所述采用預設的高斯隨機過程隱變量模型計算遍歷至的當前幀的語音活動偵測分值,包括:建立訓練樣本條件概率的對數似然函數;將所述對數似然函數對當前幀中的各個采樣點對應的高斯隨機過程隱變量模型的超參數求偏導,得到對應的偏導數;采用梯度法對所述偏導數做最小化得到所述超參數的最優解;基于所述超參數的最優解,計算得到對應的平方指數協方差函數的長度尺度參數值,作為當前幀的語音活動偵測分值。
可選地,所述對數似然函數為:logp(y|X,γ)=∫p(y|f,X,γ)p(y|X,γ)df;其中,logp(y|X,γ)表示當前幀X的訓練樣本條件概率的對數似然函數,y表示當前幀X對應的語音活動偵測值,f表示所述高斯隨機過程隱變量模型,γ表示所述當前幀X對應的高斯隨機過程隱變量模型的超參數。
可選地,所述將所述對數似然函數對當前幀中的各個采樣點對應的高斯隨機過程隱變量模型的超參數求偏導,得到對應的偏導數,包括:且M=K+σ2I;其中,yT表示當前幀的語音活動偵測分值的轉置矩陣,K表示協方差函數,σ2表示預設的噪音功率,I表示單位矩陣。
可選地,所述多個幀中的每個幀的幀長為20ms,采樣點為160個,采樣率為8kHz。
本發明實施例還提供了一種語音活動偵測裝置,所述裝置包括:分幀處理單元,適于對輸入的聲音信號對應的聲音數據進行分幀處理得到多個幀;語音活動偵測單元,適于對所述多個幀進行遍歷,采用預設的高斯隨機過程隱變量模型計算遍歷至的當前幀的語音活動偵測分值;當確定計算得出的語音活動偵測分值小于預設的閾值時,確定當前幀中包括語音信息。
可選地,所述語音活動偵測單元適于建立訓練樣本條件概率的對數似然函數;將所述對數似然函數對當前幀中的各個采樣點對應的高斯隨機過程隱變量模型的超參數求偏導,得到對應的偏導數;采用梯度法對所述偏導數做最小化得到所述超參數的最優解;基于所述超參數的最優解,計算得到對應的平方指數協方差函數的長度尺度參數值,作為當前幀的語音活動偵測分值。
可選地,所述語音活動偵測單元適于建立的對數似然函數為:logp(y|X,γ)=∫p(y|f,X,γ)p(y|X,γ)df;其中,logp(y|X,γ)表示當前幀X的訓練樣本條件概率的對數似然函數,y表示當前幀X對應的語音活動偵測值,f表示所述高斯隨機過程隱變量模型,γ表示所述當前幀X對應的高斯隨機過程隱變量模型的超參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于展訊通信(上海)有限公司,未經展訊通信(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610505472.1/2.html,轉載請聲明來源鉆瓜專利網。





