[發明專利]一種語音端點檢測方法及裝置無效
| 申請號: | 201010609503.0 | 申請日: | 2010-12-28 |
| 公開(公告)號: | CN102097095A | 公開(公告)日: | 2011-06-15 |
| 發明(設計)人: | 蘇偉博 | 申請(專利權)人: | 天津市亞安科技電子有限公司 |
| 主分類號: | G10L11/00 | 分類號: | G10L11/00 |
| 代理公司: | 天津盛理知識產權代理有限公司 12209 | 代理人: | 王來佳 |
| 地址: | 300384 天津*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 端點 檢測 方法 裝置 | ||
技術領域
本發明屬于視頻監控領域,尤其涉及一種語音端點檢測方法及裝置。
背景技術
目前,在實時視頻監控中,利用拾音器拾取監控場景中的異常聲音,從而調節攝像機光軸指向異常聲音處,可以實現異常事件的實時監控。由于全向性拾音器可以拾取各個方向上的聲音,因此可以有效解決傳統視頻監控中由于異常事件發生在監控攝像機視場盲區,不能迅速捕捉到異常事件發生的弊端。在視頻監控中,利用拾音器拾取監控場景中的異常聲音,最為關鍵的第一步就是語音端點檢測技術。
傳統的端點檢測方法,如短時能量、過零率等算法,基于熵、零能積、熵與能量結合的改進算法,在平穩噪聲或者高信噪比時性能較好。在低信噪比或者非平穩環境下,語音的短時能量容易與噪聲混淆,過零率容易區分清音和噪聲,但難以區分濁音和噪聲,短時零能積方法在一定程度上可以提高端點檢測的穩健性,但短時零能積特征參數抗噪聲性能不及信息熵,從某種程度上講,譜熵對噪聲具有一定的穩健性,但當信噪比下降時,雖然譜熵的形狀保持不變,但譜熵降低,而且傳統基于譜熵的方法只考慮當前幀的頻譜信息,在非平穩的噪聲環境下噪聲頻譜信息熵波動范圍很大,這給閾值選取帶來了困難。
發明內容
本發明的目的在于提供一種可以有效的區分語音和非語音幀,對于低信噪比環境也有較好的檢測效果的語音端點檢測方法。
本發明實施例是這樣實現的,一種語音端點檢測方法,所述檢測方法包括:
對輸入語音信號進行數據采樣,并對采樣后的語音信號進行預處理;
對預處理過的語音信號加入漢明窗進行分幀處理,記為Rn(0<n≤N),N是幀的總數;
計算第n幀語音信號的頻譜信息熵;
如果第n幀語音信號的頻譜信息熵大于設定的閾值,將該幀判定為語音幀,否則判定為非語音幀。
本發明的目的還在于提供一種語音端點檢測裝置,其特征在于,所述檢測裝置包括:
語音信號采樣處理單元,用于對輸入語音信號進行數據采樣,并對采樣后的語音信號進行預處理;
語音信號分幀處理單元,對預處理過的語音信號加入漢明窗進行分幀處理,記為Rn(0<n≤N),N是幀的總數;
頻譜信息熵計算單元,用于計算第n幀語音信號的頻譜信息熵;
語音幀確定單元,用于如果第n幀語音信號的頻譜信息熵大于設定的閾值,將該幀判定為語音幀,否則判定為非語音幀。
本發明的優點和積極效果是:
本發明應用了頻譜熵作為語音和非語音的區分特征,可以有效的區分語音幀和非語音幀,對于低信噪比環境也有較好的檢測效果,克服了傳統的基于頻譜熵的算法只考慮當前幀的頻譜信息,在非平穩的噪聲環境下噪聲頻譜信息熵波動很大,增加了閾值選擇的難度的問題。
附圖說明
圖1是本發明實施例提供的語音端點檢測方法的實現流程圖;
圖2是本發明的第一實施例的實現流程圖;
圖3是本發明實施例提供的語音端點檢測裝置的結構框圖。
具體實施方式
為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
本發明實施例提出了一種監控領域低信噪比下語音端點檢測方法。該方法以子帶頻譜熵作為語音和非語音幀的區分特征,首先對每幀語音信號進行小波分解,獲得不同頻段的子帶信號,然后對這些子帶信號進行FFT變換,分別計算出各個子帶的頻譜熵,把前后相距若干幀的子帶頻譜熵通過一組順序統計濾波器進行平滑處理,計算得到每幀的頻譜熵,根據其值和設定的閾值判定語音幀和非語音幀,為了提高算法的精度,對閾值進行自適應修改。
圖1示出了本發明實施例提供的語音端點檢測方法的流程圖。該方法包括:
在步驟S101中,對輸入語音信號進行數據采樣,并對采樣后的語音信號進行預處理;
在步驟S102中,對預處理過的語音信號加入漢明窗進行分幀處理,記為Rn(0<n≤N),N是幀的總數;
在步驟S103中,計算第n幀語音信號的頻譜信息熵;
在步驟S104中,如果第n幀語音信號的頻譜信息熵大于設定的閾值,將該幀判定為語音幀,否則判定為非語音幀。
在步驟S105中,如果n>N則算法結束,否則返回到第2步。
作為本發明的第一實施例,如圖2所示,一種語音端點檢測方法,具體包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津市亞安科技電子有限公司,未經天津市亞安科技電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010609503.0/2.html,轉載請聲明來源鉆瓜專利網。





