[發明專利]語音分離方法、裝置、電子設備及計算機可讀存儲介質有效
| 申請號: | 201911006481.6 | 申請日: | 2019-10-22 |
| 公開(公告)號: | CN110718228B | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 賴勇銓;陳文;賀亞運;李美玲 | 申請(專利權)人: | 中信銀行股份有限公司 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/14;G10L17/18;G10L17/22;G10L21/0272 |
| 代理公司: | 北京市蘭臺律師事務所 11354 | 代理人: | 張峰 |
| 地址: | 100010 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 分離 方法 裝置 電子設備 計算機 可讀 存儲 介質 | ||
本申請提供了一種語音分離方法、裝置、電子設備及計算機可讀存儲介質,應用于語音處理技術領域,其中該方法包括:提取目標通話音頻對應的聲譜圖的三維特征,充分利用了說話者的信息,能夠提升語音切分的準確性;此外,通過預訓練的循環神經網絡自動輸出目標通話音頻的分割標簽,對轉換點的判斷更加精準,進而提升語音切分的準確性,再者,不需要另外的聚類算法進行聚類處理,從而能夠實現語音分離的端到端處理。
技術領域
本申請涉及語音處理技術領域,具體而言,本申請涉及一種語音分離方法、裝置、電子設備及計算機可讀存儲介質。
背景技術
隨著多媒體技術的發展,大量的音頻文件不斷增加。如何對海量的音頻信息進行有效地管理和應用,使音頻數據從“無序”變成“有序”是一個很重要的問題,而對音頻進行說話人分割,是解決這一問題的關鍵技術。
目前,對音頻進行語音分割是通過跳變點檢測和聚類的方法實現的,即先利用說話者跳變點檢測方法,將語音分割成很多語音小段,再采用自底向上聚類,把相同說話人歸并到一起。然而,由于沒有語音中說話人信息的先驗知識,在分割和聚類的過程中,說話者信息利用不夠充分,所以會影響音頻切分的準確度。因此,現有的通過跳變點檢測和聚類的方法實現語音分割的方法,存在說話者信息利用不夠充分,語音切分準確度低的問題。
發明內容
本申請提供了一種語音分離方法、裝置、電子設備及計算機可讀存儲介質,用于提升信用卡申請審核的效率、降低新增申請的欺詐風險以及發現存量申請中的欺詐申請,本申請采用的技術方案如下:
第一方面,提供了一種語音分離方法,該方法包括,
獲取目標通話音頻對應的聲譜圖;
基于預訓練的卷積神經網絡提取聲譜圖的三維特征,三維特征包括時間維度特征、頻率維度特征、通道維度特征;
對三維特征在頻率維度進行平均池化處理,得到池化處理后的特征;
將池化處理后的特征輸入至預訓練的循環神經網絡,得到時間維度上的分割標簽;
基于時間維度上的分割標簽對目標通話音頻進行語音分離。
可選地,獲取目標通話音頻對應的聲譜圖,之前包括:
獲取目標通話音頻;
對目標通話音頻進行標準化處理,得到目標通話音頻對應的數字信號;
基于數字信號通過滑動窗口方法以及FFT變換,得到目標通話音頻對應的聲譜圖。
可選地,基于時間維度上的分割標簽對目標通話音頻進行語音分離,包括:
基于時間維度上的分割標簽將目標通話音頻分割為多個音頻片段;
將相同的時間維度上的分割標簽對應的各個音頻片段進行拼接,得到目標通話音頻進行分離處理后的音頻。
可選地,該方法還包括:
提取任一分割標簽對應的音頻片段的聲紋特征;
計算任一分割標簽對應的音頻片段的聲紋特征與預存儲的至少一個客服的聲紋特征的相似度;
基于第一相似度計算結果確定待識別的目標通話音頻分離后的音頻是目標對象的音頻或客服的音頻。
可選地,該方法還包括:
提取目標通話音頻進行分離處理后的音頻的聲紋特征;
計算目標通話音頻進行分離處理后的音頻的聲紋特征與預存儲的至少一個客服的聲紋特征的相似度;
基于第二相似度計算結果確定待識別的目標通話音頻分離后的音頻是目標對象的音頻或客服的音頻。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中信銀行股份有限公司,未經中信銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911006481.6/2.html,轉載請聲明來源鉆瓜專利網。





