[發明專利]說話人重識別方法及系統在審
| 申請號: | 201710488312.5 | 申請日: | 2017-06-23 |
| 公開(公告)號: | CN107358947A | 公開(公告)日: | 2017-11-17 |
| 發明(設計)人: | 梁超;吳琳;阮威健;黃文軍 | 申請(專利權)人: | 武漢大學;武漢大學蘇州研究院 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/065;G10L15/07;G10L15/10;G10L15/14;G10L25/21;G10L25/24 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙)42222 | 代理人: | 胡艷 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 說話 識別 方法 系統 | ||
1.說話人重識別方法,其特征是,包括:
S1采集不同場景下不同人物涉及不同情感的語音樣本,構建多場景的人聲語料庫;
S2對人聲語料庫中各語音樣本分別進行預處理,所述的預處理包括依次進行采樣與量化、預加重和分幀加窗;
S3基于人聲語料庫進行場景分析與聚類,具體為:
3.1分場景提取預處理后語音樣本各幀的特征;
3.2采用各場景提取的特征分別訓練各場景的混合高斯模型GMMs;
3.3計算各場景的混合高斯模型間的距離,即場景間的差異性;
3.4根據場景間的差異性對人聲語料庫中所有場景進行聚類;
S4,語音信號建模,具體為:
4.1采用聚類后各類場景下語音樣本各幀的特征,分別訓練各類場景的混合高斯模型GMMs,所訓練的混合高斯模型即各類場景的統一背景模型UBM;
4.2結合各類場景下的統一背景模型UBM和該類場景下各語音樣本特征向量,運用MAP自適應技術,得到人聲語料庫中各語音樣本的混合高斯模型GMMs;
S5在人聲語料庫中查找與查詢語音匹配的語音樣本,具體為:
5.1定義集合構建集合Q上的近鄰圖G=<Q,E>,近鄰圖邊E的權重值用親和矩陣中對應的元素值表示;其中,xp表示查詢語音,表示人聲語料庫中第i個語音樣本,n表示人聲語料庫中語音樣本數;
5.2根據親和矩陣A和排序函數估計人聲語料庫中各語音樣本對應的排序分數,根據排序分數獲得與查詢語音匹配的語音樣本,從而實現說話人重識別。
2.如權利要求1所述的說話人重識別方法,其特征是:
步驟S1具體為:
從視頻資料和/或音頻資料提取不同場景不同人物涉及不同情感的音頻信息,從音頻信息截取語音片段并進行采樣率轉換,保證每個語音片段只有一個人的聲音;采樣率轉換后的語音片段即語音樣本;
所述的不同場景包括室內場景、室外場景和電話場景,其中,室內場景進一步包括屋內場景、辦公室場景、車內場景、餐廳場景、酒吧場景;室外場景進一步包括樓道場景、街道場景、公園場景;
所述的不同人物包括不同性別和不同年齡層的人物,其中,不同年齡層又包括幼年、少年、青年、中年和老年;
所述的不同情感包括高興、抑郁、憤怒、悲傷、驚訝和疑惑。
3.如權利要求1所述的說話人重識別方法,其特征是:
子步驟3.1中,所述的特征為梅爾頻率倒譜系數、線性梅爾頻率倒譜系數、線性預測倒譜系數、耳蝸濾波器倒譜系數、時域特征中的短時能量、時域特征中的短時過零率或前述特征的高階組合特征。
4.如權利要求1所述的說話人重識別方法,其特征是:
步驟3中,執行子步驟3.2前,對子步驟3.1提取的特征進行降維處理。
5.如權利要求1所述的說話人重識別方法,其特征是:
子步驟3.3中,采用無跡變換近似KL散度法、蒙特卡諾分析法、變分近似法或匹配約束近似法計算各場景的混合高斯模型間的距離。
6.如權利要求1所述的說話人重識別方法,其特征是:
步驟S3中所述的基于人聲語料庫進行場景分析與聚類,具體為:
3.1分場景提取預處理后語音樣本各幀的特征;3.2根據語音樣本各幀的特征計算場景間的差異性;3.3根據場景間的差異性對人聲語料庫中所有場景進行聚類。
7.如權利要求1所述的說話人重識別方法,其特征是:
子步驟5.1中,親和矩陣采用如下方法獲得:
計算人聲語料庫中語音樣本間的親和矩陣Ag;
當待查詢語音段xp來到時,計算xp到人聲語料庫中各語音樣本間的距離dp-g,將dp-g添加至親和矩陣Ag,獲得親和矩陣
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學;武漢大學蘇州研究院,未經武漢大學;武漢大學蘇州研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710488312.5/1.html,轉載請聲明來源鉆瓜專利網。





