[發明專利]語音轉換方法、電子裝置及計算機可讀存儲介質在審
| 申請號: | 202010063801.8 | 申請日: | 2020-01-19 |
| 公開(公告)號: | CN111261177A | 公開(公告)日: | 2020-06-09 |
| 發明(設計)人: | 馬坤;趙之硯;施奕明 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L21/013 | 分類號: | G10L21/013;G10L25/03;G10L25/18;G10L25/24 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 轉換 方法 電子 裝置 計算機 可讀 存儲 介質 | ||
本發明涉及語音處理技術,揭露了一種語音轉換方法,該方法包括:接收用戶發出的攜帶真實語音及目標音色的轉換指令,從真實語音中提取出第一聲學特征,并將第一聲學特征的輸入第一轉換模型中進行音色轉換得到第二聲學特征,基于第二聲學特征構建低音質的第一頻譜圖,然后將第一頻譜圖輸入第二轉換模型中進行音質轉換得到高音質的第二頻譜圖,利用第二頻譜圖還原出語音信號得到與目標音色對應的目標語音,并將所述目標語音反饋給用戶。本發明還揭露了一種電子裝置及計算機存儲介質。利用本發明,可以實現實時、高質量的語音轉換。
技術領域
本發明涉及語音處理技術領域,尤其涉及一種語音轉換方法、電子裝置及計算機可讀存儲介質。
背景技術
自然風格遷移(neural style transfer),是人工智能領域新興的重要領域,尤其在圖像領域已經取得很多的進展,如圖像轉換方面image-to-image translation,繪畫風格遷移等。
但在語音領域,相關的研究取得的進展仍然比較少,目前語音轉換技術中最接近人聲效果的信號-聲波采用的是wavenet,其特點為自回歸,需要對樣本數據中所有樣本數據進行學習訓練,音質效果特別好,然而這種方法存在以下問題:1)需要大量用戶和轉換目標的內容成對的語音數據,而在實際應用過程中難以獲取較多的成對語音數據支持訓練,使得模型效果不佳,無法得到高質量的轉換語音;2)鑒于需要對整個樣本中所有樣本數據進行學習訓練,造成訓練過程特別慢。
因此,亟需提供一種能快速轉換出高質量的轉換語音的方法。
發明內容
鑒于以上內容,本發明提供一種語音轉換方法、電子裝置及計算機可讀存儲介質,其主要目的在于實現實時、高質量的語音轉換。
為實現上述目的,本發明提供一種語音轉換方法,該方法包括:
步驟S1,接收用戶通過客戶端發出的語音轉換指令,所述語音轉換指令中包括待轉換的真實語音及目標音色;
步驟S2,從所述真實語音中提取出第一聲學特征,將所述真實語音的第一聲學特征輸入預先訓練好的與所述目標音色對應的第一轉換模型進行音色轉換,輸出所述真實語音的與所述目標音色對應的第二聲學特征;
步驟S3,基于所述第二聲學特征,構建與所述目標音色對應的有關所述真實語音的第一頻譜圖;
步驟S4,將所述第一頻譜圖輸入預先訓練好的第二轉換模型進行音質轉換,輸出與所述目標音色對應的有關所述真實語音的第二頻譜圖;及
步驟S5,基于語音重建算法對所述第二頻譜圖進行還原,得到與所述目標音色對應的有關所述真實語音的目標語音,并通過所述客戶端將所述目標語音反饋給用戶。
此外,為實現上述目的,本發明還提供一種電子裝置,該裝置包括:存儲器、處理器,所述存儲器中存儲有可在所述處理器上運行的語音轉換程序,所述語音轉換程序被所述處理器執行時可實現如上所述語音轉換方法中的任意步驟。
此外,為實現上述目的,本發明還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質中包括語音轉換程序,所述語音轉換程序被處理器執行時,可實現如上所述語音轉換方法中的任意步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010063801.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種液壓拉馬自動測試設備
- 下一篇:一種磷酸根離子的定量檢測方法及其應用





