[發明專利]一種基于向量機SVM的說話者年齡段識別方法無效
| 申請號: | 201310049445.4 | 申請日: | 2013-02-07 |
| 公開(公告)號: | CN103151039A | 公開(公告)日: | 2013-06-12 |
| 發明(設計)人: | 熊剛;孔慶杰;朱菁;王飛躍;趙紅霞;朱鳳華 | 申請(專利權)人: | 中國科學院自動化研究所;東莞中國科學院云計算產業技術創新與育成中心 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 宋焰琴 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 向量 svm 說話 年齡段 識別 方法 | ||
1.一種基于支持向量機SVM的說話者年齡段識別方法,其特征在于,該方法包括以下步驟:
步驟1,建立存儲有多個不同年齡段的說話者的語音信號的語音庫;
步驟2,對所述語音庫中的語音信號進行預處理;
步驟3,對經過預處理的語音信號提取其語音特征參數;
步驟4,基于提取出的語音特征參數進行支持向量機訓練,得到支持向量機模型;
步驟5,根據所述步驟4訓練得到的支持向量機模型,對待識別語音的語音特征參數X進行預測,在預測過程中,每個支持向量機的輸出通過邏輯判決后,選擇得票最多的作為最可能的年齡段類別,由此得到最終的年齡段識別結果。
2.根據權利要求1所述的方法,其特征在于,所述語音信號以短語為單元。
3.根據權利要求1所述的方法,其特征在于,所述步驟2中,所述預處理進一步包括以下步驟:
步驟21,對語音信號進行采樣量化;
步驟22,對量化后的語音信號進行預加重處理;
步驟23,采用基于能量和過零率的端點檢測方法去掉每個語音信號中的無聲段。
4.根據權利要求3所述的方法,其特征在于,所述預加重處理表示為:
H(z)=1-0.9375z-1,
其中,z表示語音信號,H(z)表示經過預加重處理后得到的語音信號。
5.根據權利要求3所述的方法,其特征在于,利用所述端點檢測方法檢測無聲段包括以下步驟:
步驟231,將所述語音信號進行短時分幀處理,得到多個語音幀;
步驟232,計算每一語音幀的短時能量及短時過零率;
步驟233,根據所有語音幀的平均能量設置一個較高的判決門限E1,將各語音幀的短時能量的大小與所述門限E1進行比較,得到初步判定的每一語音幀的語音起止點;
步驟234,根據背景噪聲的平均能量設置一個稍低的判決門限E2,在所述步驟233初步判定的結果上確定每一語音幀的語音起止點,即每一語音幀的端點;
步驟235,根據所述背景噪聲的平均過零率設置一個門限Z1,基于所述每一語音幀的端點,判斷語音前端的清音和后端的尾音,最終得到每一語音幀中有聲段和無聲段的端點。
6.根據權利要求5所述的方法,其特征在于,所述幀長取20ms,語音信號采樣率為16KHz,即320個采樣點。
7.根據權利要求1所述的方法,其特征在于,所述語音特征參數取為美爾倒譜系數MFCC。
8.根據權利要求7所述的方法,其特征在于,所述語音特征參數提取的步驟包括以下步驟:
步驟31,將所述語音信號的語音頻率劃分成一系列三角形的Mel濾波器序列;
步驟32,取每個三角形的Mel濾波器序列頻率帶寬內所有信號幅度的加權和作為相應濾波器的輸出;
步驟33,對所有濾波器的輸出作對數運算;
步驟34,對所述步驟33得到的結果進行離散余弦變換得到MFCC。
9.根據權利要求1所述的方法,其特征在于,所述支持向量機訓練的步驟進一步包括:
步驟41,將提取出的各個不同年齡段的語音特征參數作為特征矢量;
步驟42,為各個不同年齡段的語音特征參數加上類別標簽;
步驟43,將所述特征矢量歸一化,并按比率縮放,縮至[-1,+1]范圍內;
步驟44,對各個不同年齡段歸一化后的特征矢量進行訓練,得到支持向量機集合。
10.根據權利要求1所述的方法,其特征在于,所述步驟5在對待識別語音的特征參數X進行預測之前,還包括對待識別語音特征參數歸一化,并將其縮至[-1,+1]范圍內的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所;東莞中國科學院云計算產業技術創新與育成中心,未經中國科學院自動化研究所;東莞中國科學院云計算產業技術創新與育成中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310049445.4/1.html,轉載請聲明來源鉆瓜專利網。





