[發明專利]語音處理方法、介質、裝置和計算設備有效
| 申請號: | 201810087661.0 | 申請日: | 2018-01-30 |
| 公開(公告)號: | CN108364654B | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | 臧陽光;沙泓州 | 申請(專利權)人: | 網易樂得科技有限公司 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/08;G10L17/20;G10L15/26;G10L25/30 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 闞梓瑄;王衛忠 |
| 地址: | 100193 北京市海淀區西北旺*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 處理 方法 介質 裝置 計算 設備 | ||
1.一種語音處理方法,包括:
獲取待處理的錄音文件;
從所述錄音文件中提取指定人員的聲紋特征,得到第一聲紋特征;
根據所述第一聲紋特征,從錄音庫中查找與所述第一聲紋特征相匹配的目標錄音數據;其中,所述目標錄音數據包括預定數量個測試錄音,所述預定數量個測試錄音的總時長大于或等于預定時長;
從所述目標錄音數據中提取第二聲紋特征;
基于所述第二聲紋特征確定所述錄音文件中包含的所述指定人員的聲音數據。
2.根據權利要求1所述的方法,其中,從所述錄音文件中提取指定人員的聲紋特征,包括:
截取所述錄音文件中預定時間段的錄音數據;
從所述預定時間段的錄音數據中提出所述指定人員的聲紋特征。
3.根據權利要求2所述的方法,其中,截取所述錄音文件中預定時間段的錄音數據,包括:
刪除所述錄音文件中位于最前端的指定類型的錄音數據,得到預處理后的錄音文件;
在所述預處理后的錄音文件的最前端截取所述預定時間段的錄音數據。
4.根據權利要求3所述的方法,其中,所述指定類型的錄音數據包括靜音數據和/或鈴聲數據。
5.根據權利要求2所述的方法,其中,從所述預定時間段的錄音數據中提出所述指定人員的聲紋特征,包括:
通過所述預定時間段的錄音數據對通用背景模型進行訓練;
基于訓練后的所述通用背景模型的參數,通過自適應高斯混合模型輸出所述指定人員的聲紋特征。
6.根據權利要求1所述的方法,其中,根據所述第一聲紋特征,從錄音庫中查找與所述第一聲紋特征相匹配的目標錄音數據,包括:
將所述錄音庫中的錄音數據切分為多個預定長度的測試錄音;
計算所述測試錄音的聲紋特征與所述第一聲紋特征的相似度;
選取相似度大于第一預定閾值的預定數量個測試錄音,并根據選取出的測試錄音生成所述目標錄音數據。
7.根據權利要求6所述的方法,其中,根據選取出的測試錄音生成所述目標錄音數據,包括:
對選取出的測試錄音進行拼接處理,以得到所述目標錄音數據。
8.根據權利要求1所述的方法,其中,從所述目標錄音數據中提取第二聲紋特征,包括:
通過所述目標錄音數據對通用背景模型進行訓練;
基于訓練后的所述通用背景模型的參數,通過自適應高斯混合模型輸出所述第二聲紋特征。
9.根據權利要求1所述的方法,其中,基于所述第二聲紋特征確定所述錄音文件中包含的所述指定人員的聲音數據,包括:
按照說話人員的不同對所述錄音文件進行切分,得到切分后的錄音數據;
從所述切分后的錄音數據中查找與所述第二聲紋特征相匹配的錄音數據作為所述指定人員的聲音數據。
10.根據權利要求9所述的方法,其中,按照說話人員的不同對所述錄音文件進行切分,包括:
基于檢驗一段聲音數據中是包含一個人員的聲音數據還是包含多個人員的聲音數據,構造假設檢驗得分函數;
根據所述假設檢驗得分函數以預定長度的檢驗窗口對所述錄音文件進行檢驗,以確定所述錄音文件的切割點;
基于確定的切割點,對所述錄音文件進行切分。
11.根據權利要求10所述的方法,其中,確定所述錄音文件的切割點,包括:
若根據所述假設檢驗得分函數確定所述錄音文件中任一段錄音的得分大于第二預定閾值,則根據所述假設檢驗得分函數確定所述任一段錄音中的得分最大點,并將所述得分最大點作為所述切割點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網易樂得科技有限公司,未經網易樂得科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810087661.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語音數據處理方法及處理裝置
- 下一篇:語音處理方法、介質、裝置和計算設備





