[發明專利]混音分離方法和混音分離裝置有效
| 申請號: | 201811079834.0 | 申請日: | 2018-09-17 |
| 公開(公告)號: | CN109300470B | 公開(公告)日: | 2023-05-02 |
| 發明(設計)人: | 趙峰;王健宗;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L15/04 | 分類號: | G10L15/04;G10L21/0272;G10L25/24;G10L25/30 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 管士濤;陳英俊 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音分 方法 裝置 | ||
本方案涉及人工智能領域,提供了一種采用深度學習的混音分離方法和裝置,其中,方法包括:采用預設的LSTM模型確定混音數據中的任兩個音頻數據之間的時間分割點;在時間分割點將混音數據切分為若干個音頻數據片段后,對全部音頻數據片段進行聚類處理,以得到每個用戶對應的音頻數據。通過本發明的技術方案,能夠明顯地提升對多個用戶的語音數據進行分離的準確性。
技術領域
本發明涉及人工智能領域,尤其涉及語音處理技術領域,具體而言,涉及一種混音分離方法和一種混音分離裝置。
背景技術
兩說話人分離(speaker?diarization)是生物識別技術的一種,它用來將錄制在同一段音軌上的兩個說話人輪流講話的錄音分離,成為兩段音軌,每段音軌只包含其中一個說話人的講話錄音。兩說話人廣泛應用于諸多領域,在廣播,電視,媒體,客服中心等行業和領域有著廣泛的需求。
相關技術中,兩說話人分離主要采用貝葉斯信息準則(Bayesian?informationcriterion,BIC)作為相似性度量的方法,但是其準確性不盡如人意。
發明內容
為了解決上述至少一個技術問題,本發明提出了一種混音分離方法和混音分離裝置。
為了實現上述目的,本發明的技術方案提供了一種混音分離方法,包括:采用預設的LSTM模型確定混音數據中的任兩個音頻數據之間的時間分割點;在時間分割點將混音數據切分為若干個音頻數據片段后,對全部音頻數據片段進行聚類處理,以得到每個用戶對應的音頻數據。
本方案中,相對于貝葉斯信息準則而言,通過采用預設的LSTM模型確定混音數據中的任兩個音頻數據之間的時間分割點,并且在時間分割點將混音數據切分為若干個音頻數據片段后,對全部音頻數據片段進行聚類處理,以得到每個用戶對應的音頻數據,能夠提高混音分離方案的準確性和可靠性。
具體地,LSTM(Long?Short-Term?Memory)是長短期記憶網絡,是一種時間遞歸神經網絡,適合于處理和預測時間序列中間隔和延遲相對較長的重要事件。CRF算法,中文名稱條件隨機場算法,外文名稱conditional?random?field?algorithm,是一種數學算法,是2001年提出的,基于遵循馬爾可夫性的概率圖模型。通過word2Vec,也即詞向量獲取算法,將句子中的字符或詞轉成向量、通過預防過擬合方式(Dropout)將輸入傳入LSTM,雙向LSTM(Bi-LSTM)可以捕捉字符在前后方向的依賴關系。
優選地,本方案中預設的LSTM包括以下結構層:
(1)首先是數層堆疊的有相同結構的神經網絡層(Deep?architecture)。這里每層神經網絡采用并列的一個前向LSTM(forward?LSTM)和一個后向LSTM(backward?LSTM),層數一般為1~3層。
(2)然后進入一個平均層(Average?sentence),此層的作用是作為一個temporalpool(沿時間軸向池化),它將上層前向LSTM和后向LSTM輸出的矢量序列都進行平均化,得到一個前向平均矢量和一個后向平均矢量,并將這兩個平均矢量前后串聯成一個矢量。
(3)然后進入一個DNN全連接層(Affine)。
(4)然后進入歸一化層(Length?Normalization),此層將上一層的輸入按照L2范數進行歸一化,得到長度為1的歸一化后的矢量。
(5)最后進入損失層,損失層對應的損失函數用于檢驗LSTM模型預測的準確度。
優選地,滑窗的長度取值范圍為0.7秒~2秒,兩個滑窗沿時間軸方向每次移動100毫秒。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811079834.0/2.html,轉載請聲明來源鉆瓜專利網。





