[發明專利]一種基于向量機SVM的說話者年齡段識別方法無效

申請號：	201310049445.4	申請日：	2013-02-07
公開（公告）號：	CN103151039A	公開（公告）日：	2013-06-12
發明（設計）人：	熊剛;孔慶杰;朱菁;王飛躍;趙紅霞;朱鳳華	申請（專利權）人：	中國科學院自動化研究所;東莞中國科學院云計算產業技術創新與育成中心
主分類號：	G10L15/02	分類號：	G10L15/02;G10L15/06
代理公司：	中科專利商標代理有限責任公司 11021	代理人：	宋焰琴
地址：	100190 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于向量 svm 說話年齡段識別方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及模式識別技術領域，尤其是一種基于支持向量機(Support?Vector?Machine，SVM)的說話者年齡段識別方法。

背景技術

目前，關于語音識別，說話者識別等方面的研究技術已比較成熟。在此基礎上展開的其他相關研究，比如漢語語音情感識別，說話者性別識別，音頻分類與識別等方向也都有人提出相應的解決方法。但是，有關說話者年齡段的識別卻幾乎沒有研究涉及到，而說話者年齡段識別卻是可以應用于很多的場合，比如人機對話系統中，機器識別出說話者的年齡段，即可采用相應年齡段的機器語音回答，增加人機交互中的親切感；或者在一些案件的偵破中，可以由聲音資料識別出的嫌疑人的年齡層，減小目標搜索范圍等。故本發明提出的一種說話者年齡段的識別方法，能夠為相關場合的開發應用提供理論基礎。

通常，人的年齡可以被粗略地分為以下幾個階段，兒童階段(0～11歲)，少年階段(12～17歲)，青年階段(18～34歲)，中年階段(35～50歲)，老年階段(50歲以上)等。隨著人年齡的增長，同一個人在不同的階段，說話的聲音也是漸漸變化的；而處于相同年齡段的人發出的語音則是有共性的。本發明就是圍繞每個年齡段的說話者發出的語音都有對應年齡段的特色這一特征展開。

由于SVM分類方法在音頻分類，說話者性別識別，圖像識別等識別應用中效果很好。所以，本發明采用SVM模型進行分類識別。語音特征參數中的美爾倒譜系數MFCC是以人耳朵的聽覺特性為基礎導出的聲學特征。因為人耳朵所能聽到的聲音實際上與聲音的頻率并不是簡單的線性關系。研究顯示，人耳對聲音頻率的感知在1KHz以下時遵循近似線性關系，而對頻率在1KHz以上的聲音則遵循對數頻率坐標上的近似線性關系。MFCC則是在美爾標度頻率域提取出的倒譜參數，該參數弱化了語音譜的高頻成分，并且對噪聲具有適應性，故使用此參數作為SVM分類器訓練識別的特征參數。

發明內容

本發明的目的是采用SVM分類器結合語音信號的特征參數MFCC，實現說話者年齡段的判斷，使其能夠應用于有需要的場合，具體過程是提取可以區分說話者年齡段的語音信號特征參數，利用SVM訓練并識別出說話者所屬的年齡段。

為實現上述目的，本發明提出的一種基于支持向量機SVM的說話者年齡段識別方法包括以下步驟：

步驟1，建立存儲有多個不同年齡段的說話者的語音信號的語音庫；

步驟2，對所述語音庫中的語音信號進行預處理；

步驟3，對經過預處理的語音信號提取其語音特征參數；

步驟4，基于提取出的語音特征參數進行支持向量機訓練，得到支持向量機模型；

步驟5，根據所述步驟4訓練得到的支持向量機模型，對待識別語音的語音特征參數X進行預測，在預測過程中，每個支持向量機的輸出通過邏輯判決后，選擇得票最多的作為最可能的年齡段類別，由此得到最終的年齡段識別結果。

綜上，本發明提供了一種識別說話者年齡段的方法，由于目前基本沒有關于說話者年齡段的識別研究，故本發明的應用前景比較廣闊，比如，可以將其應用于人機交互，刑偵搜索，網上聊天，游戲娛樂等多種場合。另外，本發明采用支持向量機分類器并結合語音信號的典型特征參數，來識別說話者所屬的年齡段。本發明方法中提取的特征參數MFCC符合人耳聽覺特性，經過訓練可以有效地區分出不同年齡段的說話者。該參數對噪聲也具有適應性，在說話者識別領域得到了很廣泛的應用。而SVM分類器可以實現特征參數的降維，在分類識別的應用場合具有比較好的分類效果。本發明將不同年齡段語音的MFCC參數利用SVM訓練，再將待測語音參數進行預測識別，可以比較好的實現說話者年齡段的判斷。但是，由于說話者在各個年齡段分界處，說話的聲音隨時間變化緩慢，故各年齡段邊緣的語音較難識別，另外，個別說話者的語音特色可能跟相應的年齡段語音特色不一致，這個也將增加識別的難度。綜上所述，預計本發明對于各個年齡段的平均識別率可達70％以上。

附圖說明

圖1是本發明基于支持向量機SVM的說話者年齡段識別方法流程圖；

圖2是根據本發明一實施例的SVM訓練流程圖；

圖3是根據本發明一實施例的SVM判決識別圖。

具體實施方式

為使本發明的目的、技術方案和優點更加清楚明白，以下結合具體實施例，并參照附圖，對本發明進一步詳細說明。

圖1為本發明基于支持向量機SVM的說話者年齡段識別方法流程圖，如圖1所示，該方法具體包括以下步驟：

步驟1，建立存儲有多個不同年齡段的說話者的語音信號的語音庫，所述語音信號以短語為單元；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所;東莞中國科學院云計算產業技術創新與育成中心，未經中國科學院自動化研究所;東莞中國科學院云計算產業技術創新與育成中心許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201310049445.4/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種自動語音識別業務的實現方法、系統和媒體服務器
下一篇：自動開收傘半自動收折結構

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】