[發明專利]用于生成語音樣本的方法、裝置、電子設備和介質有效
| 申請號: | 202010082923.1 | 申請日: | 2020-02-07 |
| 公開(公告)號: | CN111292766B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 蔡猛;梁鎮麟 | 申請(專利權)人: | 抖音視界有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L15/06;G10L15/16;G10L15/07 |
| 代理公司: | 北京風雅頌專利代理有限公司 11403 | 代理人: | 王剛 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 生成 語音 樣本 方法 裝置 電子設備 介質 | ||
1.一種用于生成語音樣本的方法,包括:
獲取語音樣本,其中,所述語音樣本是通過如下步驟生成的:
獲取初始樣本語音的語音相關信息,所述語音相關信息包括所述初始樣本語音的說話人信息和內容信息;
根據所述語音相關信息,獲取第一候選語音和第二候選語音,其中,所述第一候選語音與所述初始樣本語音的說話人信息相匹配且內容信息不匹配,所述第二候選語音與所述初始樣本語音的說話人信息不匹配且內容信息不匹配;
從所述初始樣本語音、所述第一候選語音和所述第二候選語音的各種組合中選擇一種組合作為所述語音樣本;
確定第一樣本語音和第二樣本語音之間的評分是否滿足第一預設要求,其中,所述第一樣本語音、所述第二樣本語音和第三樣本語音組成所述語音樣本;所述第一樣本語音、所述第二樣本語音和第三樣本語音是有順序的;
響應于確定滿足,確定所述第一樣本語音和所述第三樣本語音之間的評分是否滿足第二預設要求;
響應于確定滿足,確定所述語音樣本為目標語音樣本。
2.根據權利要求1所述的方法,其中,所述獲取初始樣本語音的語音相關信息,包括:
將所述初始樣本語音輸入語音處理模型,得到所述說話人信息和內容信息。
3.根據權利要求1所述的方法,其中,所述獲取初始樣本語音的語音相關信息,包括:
從存儲所述初始樣本語音的語音庫中獲取語音相關信息,其中,所述語音庫中樣本語音和語音相關信息是關聯存儲的。
4.根據權利要求1所述的方法,其中,所述第一樣本語音和第二樣本語音之間的評分是通過如下步驟確定的:
從所述第一樣本語音中提取所述第一樣本語音對應的第一幀向量;
從所述第二樣本語音提取第二幀向量;
利用所述第一幀向量和所述第二幀向量,計算所述第二樣本語音對應的說話人是所述第一樣本語音對應的說話人的評分。
5.根據權利要求1所述的方法,其中,所述第一樣本語音和第三樣本語音之間的評分是通過如下步驟確定的:
從所述第一樣本語音中提取第三幀向量;
從所述第三樣本語音中提取第四幀向量;
利用所述第三幀向量和所述第四幀向量,確定所述第三樣本語音對應的說話人是所述第一樣本語音對應的說話人的評分。
6.根據權利要求1所述的方法,其中,所述第一預設要求包括第一樣本語音和第二樣本語音之間的評分大于或等于第一目標值。
7.根據權利要求1所述的方法,其中,所述第二預設要求包括第一樣本語音和第三樣本語音之間的評分小于第二目標值。
8.根據權利要求1所述的方法,其中,所述方法還包括:
使用所述目標語音樣本來訓練深度神經網絡,其中,所述深度神經網絡包括操作語音幀的層、聚合到幀級表示的統計池層、在段級操作的附加層和輸出層。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于抖音視界有限公司,未經抖音視界有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010082923.1/1.html,轉載請聲明來源鉆瓜專利網。





