[發明專利]一種基于深度學習的語音會話分割方法在審
| 申請號: | 202111245978.0 | 申請日: | 2021-10-26 |
| 公開(公告)號: | CN113963718A | 公開(公告)日: | 2022-01-21 |
| 發明(設計)人: | 姜元春;葛鴻飛;錢洋;劉業政;孫見山;柴一棟;袁昆;周凡;李浩 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G10L25/27 | 分類號: | G10L25/27;G10L25/45;G10L25/78;G10L25/24;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 語音 會話 分割 方法 | ||
本發明公開了一種基于深度學習的語音會話分割方法,包括:1獲取會話語音集合并進行分幀和短時加窗處理;2篩除靜音段;3提取語音信號的顯式特征;4提取語音信號的隱式特征5κ?means聚類。本發明方法在有背景噪聲情況下仍然能保證分割聚類的準確性和時效性。
技術領域
本發明屬于語音數據處理分析領域,具體的說是一種基于深度學習的語音會話分割方法。
背景技術
在當今互聯網大數據背景下,對特定數據進行處理分析,變得越來越重要。這種數據分析在人工智能某些領域又可被稱作“表征學習”,即從數據中抽取有用信息,機器學習尤其是深度學習的算法很大程度上依賴于數據表征,因而如何利用互聯網上海量數據,自監督式挖掘其自身潛在有效信息,受到研究者們的廣泛關。說話人分割聚類技術作為一項重要的前端處理技術,它可以獲取一段多人對話語音中的說話人身份變動的信息,并確定哪些語音段是由同一個人發出來的。說話人分割聚類技術在多種領域中都有重要作用,如在會議語音中,說話人分割聚類可以將每個人的語音分割出來方便提取目標人語音;在聲紋鑒定工作中,送檢的檢材通常是多人對話,但需要鑒定的往往是其中一人的語音。因此鑒定人員需要將整段音頻預檢后再選取目標語音進行檢驗。當音頻時間較長時,這一步驟會花費鑒定人員大量精力。說話人分割聚類技術可以幫助鑒定人員解決這一問題。最初說話人分割方法是基于短時能量,這種方法的適用前提是在說話人身份轉變時有一段寂靜期。當有搶話現象或者有背景噪聲時,這種方法性能就會急劇下降。目前說話人分割主流的方法是基于距離尺度和基于模型?;诰嚯x尺度常用的方法有貝葉斯信息準則(BIC)、歸一化似然比(GLR)和KL2距離等?;诰嚯x尺度方法不需要先驗知識,計算量小,但是需要劃定門限,魯棒性較差?;谏疃壬窠浘W絡模型的說話人分割的方法漏檢率低,但是計算量較大。說話人聚類方法有自下而上和自上而下兩種。目前大多數的說話人聚類系統都采用自下而上的聚類方法,但是這種方法魯棒性較差;自上而下聚類最開始只有一個類別,每次增加一個類別然后重新計算更新類別,這種方法的類別區分性較差。
發明內容
本發明是為了解決上述現有技術存在的不足之處,提出一種基于深度學習的語音會話分割方法,以期在有背景噪聲情況下仍然能保證分割聚類的準確性和時效性。
本發明為達到上述發明目的,采用如下技術方案:
本發明一種基于深度學習的語音會話分割方法的特點按如下步驟進行:
步驟1、獲取會話語音集合W={(w1,y1),(w2,y2),…,(wm′,ym′),…,(wM′,yM′)},其中,wm′表示第m′條會話語音,并有:wm′=(wm′,T,wm′,2T,…,wm′,nT,…,wm′,tT)T,wm′,nT表示第m′條會話語音wm′中在n×T時刻的信號強度,t表示第m′條語音會話wm′的時間長度,T表示采樣周期;ym′表示第m′條語音會話的會話者的唯一身份標簽,并對ym′進行one-hot向量表示,得到向量化后的第m′個身份標簽向量,記為其中,表示第m′個樣本對應身份標簽向量的第i維的值,k為會話語音集合W中會話者的人數;M′表示會話語音的數量;
步驟2、分幀和短時加窗處理:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111245978.0/2.html,轉載請聲明來源鉆瓜專利網。





