[發明專利]一種基于改進的并行模型組合的聲音事件識別方法有效
| 申請號: | 201310239724.7 | 申請日: | 2013-06-17 |
| 公開(公告)號: | CN103310789A | 公開(公告)日: | 2013-09-18 |
| 發明(設計)人: | 劉宏;王一;李曉飛 | 申請(專利權)人: | 北京大學深圳研究生院 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/02 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 余長江 |
| 地址: | 518055 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 并行 模型 組合 聲音 事件 識別 方法 | ||
技術領域
本發明屬于智能監控中音頻信號處理領域,涉及室內環境中聲音事件識別方法,具體涉及一種基于改進的并行模型組合的聲音事件識別方法。
背景技術
相對于人工智能領域中成熟的語音識別方法來講,利用計算機來進行聲音事件的識別是近幾年在比較新研究方向。聲音事件識別針對的是自然環境中發聲的具有一定含義的或是可以反映人們行為的聲音事件,進行自動的判斷和歸類。在家庭智能監控系統中,聲音事件的識別可以幫助人們遠程的監控家庭室內環境中發生的情況,并及時告知用戶產生了什么樣的事件,有利于用戶及時進行處理。但是,真實的環境中是存在著復雜的噪聲的,要想實現在真實環境下的有效的監控,對噪聲的處理是必須的和緊迫的。
首先,聲音事件的識別屬于一個模式識別的問題,類似于自動語音識別。基本的方法是信號處理和模式識別。現有的聲音事件識別方法包括以下幾個步驟:
(1)聲音事件信號的錄入,預濾波、模數變換。先把錄入的模擬聲音信號進行預濾波,高通濾波抑制50HZ電源噪聲信號;低通濾波濾除聲音信號中頻率分量超過采樣頻率一半的部分,防止混疊干擾。對模擬聲音信號進行采樣和量化得到數字信號。
(2)分幀、加窗。聲音信號和語音信號一樣,都具有整體非平穩,局部平穩的短時平穩性,類似語音信號,可以認為聲音信號在10~30ms內是平穩的,可以把聲音信號按照30ms的長度進行分幀。分幀時利用窗函數進行信號的提取,窗函數它的選擇(形狀和長度)對短時分析參數的特性影響很大,常用的窗函數包括矩形窗、漢寧窗和漢明窗等。一般選用漢明窗,可以很好地反應語音信號的特性變化。
(3)特征提取。不同的聲音事件的特征是不相同的,要想區分不同的聲音信號,就要對聲音信號的特征進行數學描述。常用的聲音事件識別的特征有時域特征:短時能量,短時過零率。頻域特征:子帶能量,小波時頻特性。倒譜域特征:線性預測倒譜系數(LPCC),梅爾頻率倒譜系數(MFCC)等。
(4)識別。聲音事件的識別方法也是采用類似于語音識別的算法。常用的聲音事件識別的方法有基于支持向量機(SVM)的分類,基于混合高斯模型(GMM)聚類方法,隱馬爾可夫模型(HMM)方法,貝葉斯分類算法。
其次,對噪聲的處理。上述所講述的識別方法在實際環境中應用時,識別系統的性能會隨著訓練數據和測試數據的失配急劇惡化,而導致所述失配的原因就是環境噪聲的影響。由噪聲引起的訓練和測試的不匹配可以從信號空間、特征空間和模型空間三個空間來分析。常用的方法有類似于語音增強的聲音增強法、魯棒特征提取、特征補償、模型補償如并行模型組合(PMC)等方法對噪聲進行處理,提高系統的魯棒性。
現有的方法大部分還是沿用語音識別的一套,對噪聲的處理也不外乎以上幾種方法,以上方法中基于PMC的方法能夠充分描述環境噪聲而被廣泛采用,他們可以充分挖掘環境中的信息,提高系統識別的魯棒性,但現有的PMC方法中對于噪聲特征是用單高斯模型(SGM)來描述的,對于噪聲比較復雜的情況,SGM并不能很好表征噪聲的特性。所以,噪聲復雜的情況下識別率不夠理想。
發明內容
為了解決上述技術問題,本發明的目的在于提供一種通過改進的模型參數融合的方法得到符合噪聲環境的帶噪聲音事件模型,對于實際噪聲環境下的待識別聲音事件進行識別。
為了實現上述的目的,本發明技術方案為:一種基于改進的并行模型組合的聲音事件識別方法,其步驟包括:
1)根據干凈聲音事件訓練得到GMM高斯混合模型,建立干凈聲音事件模板;
2)根據噪聲數據訓練得到GMM高斯混合模型,建立噪聲模板;
3)對所述噪聲模板和所述干凈聲音事件模板采用并行模型融合的方法,得到帶噪聲音事件模板;
4)采樣得到帶噪聲音事件樣本信號,根據所述帶噪聲音事件模板中的參數對樣本信號進行聲音識別。
更進一步,建立干凈聲音事件的模板的方法如下:
1)在無噪安靜室內的環境下錄制聲音事件的數據,對錄制的聲音事件進行預濾波、模數變換后再進行分幀、加窗處理;
2)提取MFCC梅爾倒譜系數特征,訓練出聲音事件的GMM高斯混合模板。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學深圳研究生院,未經北京大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310239724.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:端子結構、撓曲部和頭懸架
- 下一篇:商品讀取裝置及商品讀取方法





