[發明專利]多語種語音的生成模型的訓練方法、裝置及計算機設備在審

申請號：	202011503535.2	申請日：	2020-12-18
公開（公告）號：	CN112669841A	公開（公告）日：	2021-04-16
發明（設計）人：	陳閩川;馬駿;王少軍	申請（專利權）人：	平安科技（深圳）有限公司
主分類號：	G10L15/22	分類號：	G10L15/22;G10L15/26;G10L25/24;G10L19/02;G10L17/02;G10L15/06
代理公司：	深圳市精英專利事務所 44242	代理人：	涂年影
地址：	518000 廣東省深圳市福田區福***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語種語音生成模型訓練方法裝置計算機設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種多語種語音的生成模型的訓練方法、裝置及計算機設備，該方法包括：若接收到用戶輸入的多語種語音，獲取多語種語音的文本、目標梅爾頻譜以及用戶的聲紋特征向量；根據國際音標表對文本進行處理并將處理后的文本輸入到編碼器中，得到音素特征向量；將音素特征向量與聲紋特征向量進行拼接，得到多語種語音的特征向量；將特征向量輸入到解碼器中，得到預測梅爾頻譜；根據預測梅爾頻譜、目標梅爾頻譜更新編碼器、解碼器的網絡參數。本發明基于語音語義技術，在對生成模型進行訓練的過程中，通過添加多語種語音的國際音標，使得多語種語音的語句在解碼過程中實現了對齊，解決了后續無法完整的將多語種語音生成指定說話人的語音的問題。

技術領域

本發明涉及語音語義技術領域，尤其涉及一種多語種語音的生成模型的訓練方法、裝置及計算機設備。

背景技術

在現有技術中，雖然能較易將單語言語音生成特定說話人的語音，但是在使用多語種語音生成特定說話人的語音的過程中，語言轉換的銜接部分不流暢，無法準確讀取多語種語音中特定的字符，導致生成的多語種語音出現發音錯誤的現象，且無法清晰的體現出特定說話人的特征。

發明內容

針對上述技術問題，本發明實施例提供了一種多語種語音的生成模型的訓練方法、裝置及計算機設備，通過添加多語種語音的國際音標，使得多語種語音的語句在編碼過程中對齊，實現了將用戶的多語種語音生成指定說話人的梅爾頻譜。

第一方面，本發明實施例提供了一種多語種語音的生成模型的訓練方法，其包括：

若接收到用戶輸入的多語種語音，獲取所述多語種語音的文本、目標梅爾頻譜以及所述用戶的聲紋特征向量；

根據預設的國際音標表對所述文本進行處理并將處理后的文本輸入到編碼器中，得到所述多語種語音的音素特征向量；

將所述音素特征向量與所述聲紋特征向量進行拼接，得到所述多語種語音的特征向量；

將所述多語種語音的特征向量輸入到解碼器中，得到所述多語種語音的預測梅爾頻譜；

根據所述預測梅爾頻譜、所述目標梅爾頻譜更新所述編碼器、所述解碼器的網絡參數。