[發明專利]基于支持向量機的不良語音識別方法無效
| 申請號: | 201210197377.1 | 申請日: | 2012-06-15 |
| 公開(公告)號: | CN102708861A | 公開(公告)日: | 2012-10-03 |
| 發明(設計)人: | 傅政軍;姚金良;王小華;黃金海;周建政;周渝清;嚴俊杰 | 申請(專利權)人: | 天格科技(杭州)有限公司;杭州電子科技大學;金華就約我吧網絡科技有限公司 |
| 主分類號: | G10L15/14 | 分類號: | G10L15/14;G10L15/02;G10L19/02 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 杜軍 |
| 地址: | 310005 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 支持 向量 不良 語音 識別 方法 | ||
技術領域
本發明屬于智能語音處理領域,具體涉及一種基于支持向量機的不良語音識別方法。
背景技術
不良語音識別是從實時語音流中自動檢測出包含有不良語音的片段,其中不良語音是指各種色情語音。隨著Web2.0時代的到來,以及網絡內容的發布缺乏有效的監控機制,大量的色情信息出現在互聯網上。如何有效抑制色情信息在網絡上的傳播是一項重要工作。根據政府部門?“誰經營誰負責,誰接入誰負責”的原則來過濾不良信息,大量的web2.0網站都需要面臨如何高效地過濾色情信息的問題。從而自動的不良語音和視頻識別技術具有廣泛應用及產業化前景。不良語音識別技術可以與不良視頻檢測技術融合來識別不良多媒體信息,是當前從技術角度促進網絡環境健康發展的重要技術手段。
當前不良圖像/視頻識別的技術成果較多,但是不良語音識別技術的成果較少,主要有以下幾種方法:
(1)方法首先從視頻文件中提取出音頻信息,再通過漢明窗加窗處理后被分成0.02秒的短時音頻處理幀,并對音頻處理幀提取MFCC系數等特征。然后利用短時能量將音頻處理幀分靜音幀和非靜音幀,再利用單高斯模型將非靜音幀進一步分成音樂、語音、音樂語音混合聲和環境聲四類,最后再利用隱馬爾可夫模型從剩余的語音和音樂語音混合幀中識別出可能包含色情的音頻幀。(姬鵬宇,色情視頻的音頻輔助識別,北京郵電大學,碩士論文,2011)。
(2)方法在MFCC系數的基礎上提出了一種刻畫語音頻率不斷重復的特征(repeated?curve-like?spectrum?feature),并作為不良語音識別的特征,用SVM分類器來識別不良語音。?(JaeDeok?Lim?et?al.,?Classification?and?Detection?of?Objectionable?Sounds?Using?Repeated?Curve-like?Spectrum?Feature,?2011?International?Conference?on?Information?Science?and?Applications?(ICISA),?pp.1-5,?2011)。
不良語音識別最為關鍵的技術是:不良語音特征的提取和分類器的選擇。由于不良語音識別系統無法預先知道輸入的語音信息是在哪種情況下錄制的,很多不良語音存在大量的背景聲音,比如:音樂,因此,不良語音特征提取最為重要的是要對各種噪聲魯棒。MFCC系數在語音識別領域被廣泛使用,但并不是最為有效的語音特征,當前有很多新的更為魯棒的語音特征被提取出來。在分類器的選擇方面,單高斯模型可用于識別不良語音,但是其只能建模單一種類的不良語音,而實際上,不良語音的種類較多。采用支持向量機對不良語音進行識別需要面對計算復雜度較高的困難。而隱馬爾可夫模型通過建模相鄰語音幀之間的關系來提高識別的準確,而正常語音轉換為不良語音的條件概率很難建模實際的概率。
發明內容
本發明的目的主要是針對現有不良語音識別方法魯棒性不高的問題,而提供一種算法復雜度低、有較好精度的方法,實現對當前網絡語音流的不良語音片段的檢出。
本發明方法步驟如下:
步驟(1)獲取輸入語音流,將語音流解碼為原始語音信號,并進行預處理操作,預處理操作主要包括以下步驟:
1)如果輸入音頻是立體聲語音信號,則進行單聲道處理,即將立體聲混合為單聲道語音;
2)如果輸入音頻的采樣率與方法預先定義的采樣率不一致,則進行采樣率調整,即將音頻原始采樣率轉換為預先定義的采樣率。
3)如果輸入音頻的量化位數與方法預先定義的量化位數不一致,則進行重新量化,即將原來的量化值轉換為新的量化值。
步驟(2)對預處理后的語音數據進行加窗分幀處理;
步驟(3)對每幀語音提取移位差分倒譜參數特征;
步驟(4)對移位差分倒譜參數特征采用高斯混合模型進行分類;其學習的樣本數據包括各種種類的不良語音片段。
步驟(5)對分類為不良語音的候選幀進行支持向量機的分類,確認最終的不良語音幀;
步驟(6)根據一定時間內不良語音幀的數量來提取不良語音片段并進行存儲。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天格科技(杭州)有限公司;杭州電子科技大學;金華就約我吧網絡科技有限公司,未經天格科技(杭州)有限公司;杭州電子科技大學;金華就約我吧網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210197377.1/2.html,轉載請聲明來源鉆瓜專利網。





