[發明專利]跨語言語音轉換方法、裝置、設備及介質在審

申請號：	202110602042.2	申請日：	2021-05-31
公開（公告）號：	CN113345431A	公開（公告）日：	2021-09-03
發明（設計）人：	倪子凡;王健宗	申請（專利權）人：	平安科技（深圳）有限公司
主分類號：	G10L15/16	分類號：	G10L15/16;G10L15/06;G10L15/00;G10L13/027;G10L25/24
代理公司：	深圳市精英專利事務所 44242	代理人：	涂年影
地址：	518000 廣東省深圳市福田區福***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語言語音轉換方法裝置設備介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明涉及人工智能領域，提供一種跨語言語音轉換方法、裝置、設備及介質，能夠訓練每個目標語言的ASR模型，及訓練轉換模型，當接收到待處理語音時，利用每個目標語言的ASR模型生成所述待處理語音的PPGs，進一步將所述待處理語音的PPGs輸入至所述轉換模型，并獲取所述轉換模型的輸出作為所述待處理語音的聲學語音參數，啟動聲碼器根據所述待處理語音的聲學語音參數合成語音，進而實現跨語言語音轉換，并解決使用單個用戶錄制多語言語料庫所帶來的困難。此外，本發明還涉及區塊鏈技術，訓練得到的模型可存儲于區塊鏈節點中。

技術領域

本發明涉及人工智能技術領域，尤其涉及一種跨語言語音轉換方法、裝置、設備及介質。

背景技術

語音轉換(voice conversion，VC)是語音合成研究領域中的熱門研究方向，旨在保留同一機器人語音特征的同時實現跨多語言的擴展功能。

目前，業內對于語音轉換的研究應用很多，包括各大公司的語音助手以及智能人機交互等語音技術產品。

但是，基于現有的語音轉換技術，當同一機器人為不同語言或方言而改變聲音特征時，會變得十分不自然。所以，各大人工智能企業都在研究和實現中英文跨語言以及各大方言的語音轉換功能，并希望在保留語音特征的同時擴展多語言支持，從而提高用戶對于機器人跨語言功能的滿意度，同時提升用戶的體驗感。

現有的多語言TTS(Text To Speech，從文本到語音)系統，通常需要使用單個說話人錄制的多語言語料庫，顯然，在這種方式下，錄制難度會因語言種類的增加而增加。因此，使用傳統方法來生成一個支持多語言、多方言的TTS系統是很難實現的。

發明內容

鑒于以上內容，有必要提供一種跨語言語音轉換方法、裝置、設備及介質，能夠實現跨語言語音轉換，并解決使用單個用戶錄制多語言語料庫所帶來的困難。

一種跨語言語音轉換方法，所述跨語言語音轉換方法包括：

獲取預先配置的多個目標語言，并調用與所述多個目標語言相對應的多個通用語料庫；

提取每個通用語料庫中語料的梅爾頻率倒譜系數MFCC作為訓練數據，并分別訓練對應于每個目標語言的自動語音識別ASR模型；

調用文本轉換TTS語料庫，并從所述TTS語料庫中獲取所述TTS語料庫所存儲的每個語料的聲學語音參數；

提取每個語料的MFCC，將每個語料的MFCC分別輸入至每個目標語言的ASR模型，并獲取每個目標語言的ASR模型的輸出作為每個語料對應于每個目標語言的語音后驗概率PPG；

對每個語料對應于每個目標語言的PPG進行融合處理，得到每個語料的目標語音后驗概率PPGs；

將每個語料的PPGs確定為輸入，將每個語料的聲學語音參數確定為輸出，并訓練指定神經網絡模型，得到轉換模型；

當接收到待處理語音時，利用每個目標語言的ASR模型生成所述待處理語音的PPGs；

將所述待處理語音的PPGs輸入至所述轉換模型，并獲取所述轉換模型的輸出作為所述待處理語音的聲學語音參數；

啟動聲碼器根據所述待處理語音的聲學語音參數合成語音。

根據本發明優選實施例，所述提取每個通用語料庫中語料的梅爾頻率倒譜系數MFCC包括：

將所述多個通用語料庫中的每個語料確定為目標語料；

對于每個目標語料，對所述目標語料進行預加重、分幀及加窗處理，得到第一語料；

對所述第一語料進行快速傅立葉變換，得到頻譜；

將所述頻譜輸入至梅爾濾波器組，得到梅爾頻譜；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于平安科技（深圳）有限公司，未經平安科技（深圳）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110602042.2/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】