[發明專利]多語種語音的生成模型的訓練方法、裝置及計算機設備在審
| 申請號: | 202011503535.2 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112669841A | 公開(公告)日: | 2021-04-16 |
| 發明(設計)人: | 陳閩川;馬駿;王少軍 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/26;G10L25/24;G10L19/02;G10L17/02;G10L15/06 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 涂年影 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語種 語音 生成 模型 訓練 方法 裝置 計算機 設備 | ||
本發明公開了一種多語種語音的生成模型的訓練方法、裝置及計算機設備,該方法包括:若接收到用戶輸入的多語種語音,獲取多語種語音的文本、目標梅爾頻譜以及用戶的聲紋特征向量;根據國際音標表對文本進行處理并將處理后的文本輸入到編碼器中,得到音素特征向量;將音素特征向量與聲紋特征向量進行拼接,得到多語種語音的特征向量;將特征向量輸入到解碼器中,得到預測梅爾頻譜;根據預測梅爾頻譜、目標梅爾頻譜更新編碼器、解碼器的網絡參數。本發明基于語音語義技術,在對生成模型進行訓練的過程中,通過添加多語種語音的國際音標,使得多語種語音的語句在解碼過程中實現了對齊,解決了后續無法完整的將多語種語音生成指定說話人的語音的問題。
技術領域
本發明涉及語音語義技術領域,尤其涉及一種多語種語音的生成模型的訓練方法、裝置及計算機設備。
背景技術
在現有技術中,雖然能較易將單語言語音生成特定說話人的語音,但是在使用多語種語音生成特定說話人的語音的過程中,語言轉換的銜接部分不流暢,無法準確讀取多語種語音中特定的字符,導致生成的多語種語音出現發音錯誤的現象,且無法清晰的體現出特定說話人的特征。
發明內容
針對上述技術問題,本發明實施例提供了一種多語種語音的生成模型的訓練方法、裝置及計算機設備,通過添加多語種語音的國際音標,使得多語種語音的語句在編碼過程中對齊,實現了將用戶的多語種語音生成指定說話人的梅爾頻譜。
第一方面,本發明實施例提供了一種多語種語音的生成模型的訓練方法,其包括:
若接收到用戶輸入的多語種語音,獲取所述多語種語音的文本、目標梅爾頻譜以及所述用戶的聲紋特征向量;
根據預設的國際音標表對所述文本進行處理并將處理后的文本輸入到編碼器中,得到所述多語種語音的音素特征向量;
將所述音素特征向量與所述聲紋特征向量進行拼接,得到所述多語種語音的特征向量;
將所述多語種語音的特征向量輸入到解碼器中,得到所述多語種語音的預測梅爾頻譜;
根據所述預測梅爾頻譜、所述目標梅爾頻譜更新所述編碼器、所述解碼器的網絡參數。
第二方面,本發明實施例提供了一種多語種語音的生成模型的訓練裝置,其包括:
接收單元,用于若接收到用戶輸入的多語種語音,獲取所述多語種語音的文本、目標梅爾頻譜以及所述用戶的聲紋特征向量;
處理單元,用于根據預設的國際音標表對所述文本進行處理并將處理后的文本輸入到編碼器中,得到所述多語種語音的音素特征向量;
第一拼接單元,用于將所述音素特征向量與所述聲紋特征向量進行拼接,得到所述多語種語音的特征向量;
解碼單元,用于將所述多語種語音的特征向量輸入到解碼器中,得到所述多語種語音的預測梅爾頻譜;
第一更新單元,用于根據所述預測梅爾頻譜、所述目標梅爾頻譜更新所述編碼器、所述解碼器的網絡參數。
第三方面,本發明實施例又提供了一種計算機設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如上述第一方面所述的多語種語音的生成模型的訓練方法。
第四方面,本發明實施例還提供了一種計算機可讀存儲介質,其中所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序當被處理器執行時使所述處理器執行上述第一方面所述的多語種語音的生成模型的訓練方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011503535.2/2.html,轉載請聲明來源鉆瓜專利網。





