[發明專利]基于分數階傅里葉變換的語音非語音檢測方法有效

申請號：	201310557124.5	申請日：	2013-11-11
公開（公告）號：	CN103578466A	公開（公告）日：	2014-02-12
發明（設計）人：	張衛強;劉加	申請（專利權）人：	清華大學
主分類號：	G10L15/04	分類號：	G10L15/04
代理公司：	北京眾合誠成知識產權代理有限公司 11246	代理人：	陳波
地址：	100084 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于分數傅里葉變換語音檢測方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明屬于語音信號處理領域，尤其涉及一種基于分數階傅里葉變換的語音非語音檢測方法。

背景技術

在語音信號處理中，音頻數據的預處理是非常重要的一個環節。其功能是去除語音信號之外的非語音信號，具體包括靜音、噪聲、音樂等，從而得到較為“干凈”的語音數據，供后續模塊進行處理。

目前，對于靜音、噪聲、音樂等處理有各自的算法。例如對于靜音處理，有較成熟的VAD（語音活動檢測）算法，如G.723.1、子帶頻譜熵等算法；對于噪聲處理，有較成熟的降噪或去噪算法，如小波降噪算法、維納濾波算法；對于音樂處理，有語音音樂分類算法，如MLER（改進的低能量率）算法、GMM（高斯混合模型）算法。這些算法可以分別應對不同的非語音類型，在構建實際應用系統時，一般需要將這些模塊進行串聯，從而達到處理各種非語音的目的。但是這樣帶來的問題是系統實現復雜，處理框架不統一。

發明內容

針對背景技術中提到的目前存在的語音信號處理方法無法達到處理各種非語音的問題，本發明提出了一種基于分數階傅里葉變換的語音非語音檢測方法。

一種基于分數階傅里葉變換的語音非語音檢測方法，其特征在于，所述方法具體包括以下步驟：

步驟1：對音頻信號按幀長25ms，幀移10ms進行分幀處理；

步驟2：對分幀處理后的每幀信號進行零均值化和加窗處理；

步驟3：在步驟2的基礎上，對每幀信號進行不同階次的分數階傅里葉變換，得到不同階次的分數階頻譜；

步驟4：對每一階次的分數階頻譜，計算其分數階頻譜熵；

步驟5：對不同階次的分數階頻譜熵取最大值，并將最大值與設定的閾值進行比較，如果大于閾值，則判決為非語音；否則，判決為語音。

所述加窗處理指的是對分幀處理后的每幀信號加漢明窗或漢寧窗。

所述不同階次的設定為：階次從0到1，每隔0.05進行一次。

所述對每幀信號進行不同階次的分數階傅里葉變換的公式為：

Xp(u)=∫-∞+∞Kp(u,t)x(t)dt]]>