[發明專利]語音活動偵測方法及裝置在審
| 申請號: | 201610607277.X | 申請日: | 2016-07-28 |
| 公開(公告)號: | CN107665711A | 公開(公告)日: | 2018-02-06 |
| 發明(設計)人: | 孫廷瑋;柯逸倩 | 申請(專利權)人: | 展訊通信(上海)有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L19/02;G10L25/78 |
| 代理公司: | 北京集佳知識產權代理有限公司11227 | 代理人: | 郭學秀,吳敏 |
| 地址: | 201203 上海市浦東新區張*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 活動 偵測 方法 裝置 | ||
技術領域
本發明涉及語音識別技術領域,特別是涉及一種語音活動偵測方法及裝置。
背景技術
移動終端,是指可以在移動中使用的計算機設備,廣義地講包括手機、筆記本、平板電腦、POS機、車載電腦等。隨著集成電路技術的飛速發展,移動終端已經擁有了強大的處理能力,移動終端正在從簡單的通話工具變為一個綜合信息處理平臺,這也給移動終端增加了更加寬廣的發展空間。但是,移動終端的使用,通常需要用戶集中一定的注意力。如今的移動終端設備都配備有觸摸屏,用戶需要觸摸所述觸摸屏,以執行相應的操作。但是,用戶無法觸碰到移動終端設備時,操作移動終端便會變得極其不方便。例如,當用戶駕駛車輛或者手中提有物品的時候。
語音識別方法和總聽系統(Always Listening System)的使用,使得可以對移動終端進行非手動激活和操作。當所述總聽系統檢測到聲音信號時,語音識別系統便會激活,并對檢測到的聲音信號進行識別,之后,移動終端便會根據所識別出的聲音信號執行相應的操作,例如,當用戶輸入“撥打XX的手機”的語音時,移動終端便可以對用戶輸入的“撥打XX的手機”的語音信息進行識別,并在正確識別后,從移動終端中獲取XX的手機號碼的信息,并撥打。
但是,現有技術中語音活動偵測方法,一般采用預設數學模型對輸入的聲音數據進行語音識別,存在著語音識別速度慢且準確率低的問題。
發明內容
本發明實施例解決的問題是如何提高語音識別的速度和準確率。
為解決上述問題,本發明實施例提供了一種語音活動偵測方法,所述語音活動偵測方法包括:將獲取的待識別的聲音數據劃分為多個重疊的幀,并對每個幀進行快速傅立葉變換運算,得到對應的頻譜;對所述多個重疊的幀的頻譜進行遍歷,計算遍歷至的當前幀的頻譜能量域的香農熵能量;當確定當前幀的頻譜能量域的香農熵能量大于預設的閾值時,確定當前幀包括語音信息。
可選地,所述計算遍歷至的當前幀的頻譜能量域的香農熵能量,包括:
其中,H(|Y(w,t)|2)表示當前幀的頻譜能量域的香農熵能量,P(|Y(w,t)|2表示當前幀t的幅度譜在對應頻段w中的概率,Y(w,t)表示當前幀t對應的頻段w的噪音類型,ε表示劃分得到的頻段的數量。
可選地,所述預設的閾值與所述待識別的聲音數據的噪音頻譜特性相關聯。
可選地,采用如下方式計算得到所述預設的閾值:基于所述多個重疊的幀的頻譜能量域的香農熵,確定對應的兩個高斯分布函數;其中,所確定的兩個高斯分布函數用于模擬所述多個重疊的幀的頻譜能量域的香農熵;采用所確定的高斯分布函數,計算得到所述閾值。
可選地,所述確定對應的兩個高斯分布函數,包括:采用最大期望值法確定對應的兩個高斯分布函數。
本發明實施例還提供了一種語音活動偵測裝置,所述裝置包括:傅立葉變換單元,適于將獲取的待識別的聲音數據劃分為多個重疊的幀,并對每個幀進行快速傅立葉變換運算,得到對應的頻譜;第一計算單元,適于對所述多個重疊的幀的頻譜進行遍歷,計算遍歷至的當前幀的頻譜能量域的香農熵能量;判斷單元,適于判斷當前幀的頻譜能量域的香農熵能量是否大于預設的閾值;確定單元,適于當確定當前幀的頻譜能量域的香農熵能量大于所述閾值時,確定當前幀包括語音信息。
可選地,所述第一計算單元適于采用如下的公式計算遍歷至的當前幀的頻譜能量域的香農熵能量:
其中,H(|Y(w,t)|2)表示當前幀的頻譜能量域的香農熵能量,P(|Y(w,t)|2表示當前幀t的幅度譜在對應頻段w中的概率,Y(w,t)表示當前幀t對應的頻段w的噪音類型,ε表示劃分得到的頻段的數量。
可選地,所述預設的閾值與當前待識別的聲音數據對應的噪音的頻譜特性相關聯。
可選地,所述裝置還包括:第二計算單元,適于基于所述多個重疊的幀的頻譜能量域的香農熵,確定對應的兩個高斯分布函數;其中,所確定的兩個高斯分布函數用于模擬所述多個重疊的幀的頻譜能量域的香農熵;采用所確定的高斯分布函數,計算得到所述閾值。
可選地,所述第二計算單元,適于采用最大期望值法確定對應的兩個高斯分布函數。
與現有技術相比,本發明的技術方案具有以下的優點:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于展訊通信(上海)有限公司,未經展訊通信(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610607277.X/2.html,轉載請聲明來源鉆瓜專利網。





