[發明專利]語音轉換方法、裝置、設備以及存儲介質在審
| 申請號: | 202110731052.6 | 申請日: | 2021-06-29 |
| 公開(公告)號: | CN113421576A | 公開(公告)日: | 2021-09-21 |
| 發明(設計)人: | 張旭龍;王健宗 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L21/007 | 分類號: | G10L21/007;G10L25/27;G10L25/18;G10L25/48 |
| 代理公司: | 深圳國新南方知識產權代理有限公司 44374 | 代理人: | 周雷 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 轉換 方法 裝置 設備 以及 存儲 介質 | ||
1.一種語音轉換方法,其特征在于,所述方法包括:
將原始語音輸入至預設的聲碼器進行分析,得到所述原始語音對應的基頻信息和頻譜信息;
基于預設的基頻轉換模型對所述基頻信息進行基于CWT變換的轉換,得到轉換基頻信息;
基于預設的頻譜轉換模型對所述頻譜信息進行基于MCEPS變換的轉換,得到轉換頻譜信息;
將所述轉換基頻信息和所述轉換頻譜信息輸入至所述聲碼器進行語音合成,得到轉換語音。
2.根據權利要求1所述的語音轉換方法,其特征在于,所述基于預設的基頻轉換模型對所述基頻信息進行基于CWT變換的轉換,得到轉換基頻信息,包括:
對所述基頻信息執行CWT變換,得到CWT基頻信息;
將所述CWT基頻信息輸入至預設的基頻轉換模型進行分析,得到轉換CWT基頻信息;
對所述轉換CWT基頻信息執行CWT逆變換,得到轉換基頻信息。
3.根據權利要求1所述的語音轉換方法,其特征在于,所述基于預設的頻譜轉換模型對所述頻譜信息進行基于MCEPS變換的轉換,得到轉換頻譜信息,包括:
對所述頻譜信息執行MCEPS變換,得到所述頻譜信息對應的梅爾頻譜倒譜系數;
將所述梅爾頻譜倒譜系數輸入至預設的頻譜轉換模型進行分析,得到轉換梅爾頻譜倒譜系數;
對所述轉換梅爾頻譜倒譜系數執行MCEPS逆變換,得到轉換頻譜信息。
4.根據權利要求1-3任一項所述的語音轉換方法,其特征在于,所述基頻轉換模型和所述頻譜轉換模型均是基于StarGAN模型構建的模型。
5.根據權利要求4所述的語音轉換方法,其特征在于,所述基頻轉換模型和所述頻譜轉換模型均在所述StarGAN模型的基礎之上引入感知損失函數來構建模型中的生成器。
6.根據權利要求4所述的語音轉換方法,其特征在于,所述基頻轉換模型和所述頻譜轉換模型均在所述StarGAN模型的基礎之上使用Switchable Normalization代替BatchNormalization。
7.根據權利要求4所述的語音轉換方法,其特征在于,所述基頻轉換模型和所述頻譜轉換模型均在所述StarGAN模型的基礎之上使用Residual Network建立generator編碼器和解碼器之間不同層次的映射。
8.一種語音轉換裝置,其特征在于,所述裝置包括:
語音分析模塊,用于將原始語音輸入至預設的聲碼器進行分析,得到所述原始語音對應的基頻信息和頻譜信息;
基頻轉換模塊,用于基于預設的基頻轉換模型對所述基頻信息進行基于CWT變換的轉換,得到轉換基頻信息;
頻譜轉換模塊,用于基于預設的頻譜轉換模型對所述頻譜信息進行基于MCEPS變換的轉換,得到轉換頻譜信息;
語音合成模塊,用于將所述轉換基頻信息和所述轉換頻譜信息輸入至所述聲碼器進行語音合成,得到轉換語音。
9.一種計算機設備,其特征在于,所述計算機設備包括:
存儲有可執行程序代碼的存儲器;
與所述存儲器連接的處理器;
所述處理器調用所述存儲器中存儲的所述可執行程序代碼,執行如權利要求1-7任一項所述的語音轉換方法。
10.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1-7任一項所述的語音轉換方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110731052.6/1.html,轉載請聲明來源鉆瓜專利網。





