[發明專利]語音轉換方法、裝置及計算機系統在審
| 申請號: | 202010549934.6 | 申請日: | 2020-06-16 |
| 公開(公告)號: | CN113808576A | 公開(公告)日: | 2021-12-17 |
| 發明(設計)人: | 趙勝奎;阮忠孝;王昊;馬斌 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L13/10 |
| 代理公司: | 北京眾達德權知識產權代理有限公司 11570 | 代理人: | 南海燕 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 轉換 方法 裝置 計算機系統 | ||
本申請實施例公開了語音轉換方法、裝置及計算機系統,所述方法包括:從源發音者關聯的源語音文件中提取語音后驗圖譜PPG特征序列;將所述PPG特征序列輸入到預先訓練獲得的聲學特征合成模型中,獲得目標發音者對應的聲學特征序列;其中,所述聲學特征合成模型是利用所述目標發音者對應的訓練語料訓練獲得的;在所述聲學特征合成模型中,針對輸入的PPG特征序列的編碼結果的每一幀分別進行解碼輸出;根據所述目標發音者對應的聲學特征序列生成目標語音文件。通過本申請實施例,能夠更好的支持跨語言的語音轉換,并提高語音轉換效率。
技術領域
本申請涉及語音轉換技術領域,特別是涉及語音轉換方法、裝置及計算機系統。
背景技術
語音轉換的基本任務是在保持說話內容的基礎上,改變源發音者的聲音特征,使之聽起來像目標發音者的音色。
現有技術中存在一些語音轉換系統,例如,一種系統中的做法是,首先將源發音者的說話語音進行錄制,然后轉換成文本,再將文本結合特定人的語音特征信息進行合成,再將合成的語音通過揚聲器進行播放。該方案雖然能夠實現語音轉換,但是由于需要轉換成文本,再從文本轉換成目標發音者的聲音,因此,在轉換過程中可能會將源發音者在說話過程中的韻律等信息丟失,以至于轉換后的語音不夠生動自然。另外,由于轉換過程中所用的文本信息是與語言相關的,并且,并且不同語言間文本信息無法通用,因此,限制了其跨語言語音轉換的功能。例如,某發音者A是以中文為母語,發音者B以英文為母語,系統里收集到的數據中,與發音者A相關的都是該發音者A的中文語音,與發音者B相關的都是發音者B的英文語音。此時,如果想將發音者B用英文錄制的一段語音轉換為發音者A的聲音進行輸出,也即讓這段語音聽上去像是發音者A說的一段英文,則用現有技術的方案實現時,可能會出現無法轉換成功的現象。
因此,如何更有效地實現語音轉換,成為需要本領域技術人員解決的技術問題。
發明內容
本申請提供了語音轉換方法、裝置及計算機系統,能夠更好的支持跨語言的語音轉換,并提高語音轉換效率。
本申請提供了如下方案:
一種語音轉換方法,包括:
從源發音者關聯的源語音文件中提取語音后驗圖譜PPG特征序列;
將所述PPG特征序列輸入到預先訓練獲得的聲學特征合成模型中,獲得目標發音者對應的聲學特征序列;其中,所述聲學特征合成模型是利用所述目標發音者對應的訓練語料訓練獲得的;在所述聲學特征合成模型中,針對輸入的PPG特征序列的編碼結果的每一幀分別進行解碼輸出;
根據所述目標發音者對應的聲學特征序列生成目標語音文件。
一種建立語音庫的方法,包括:
獲取源發音者關聯的源語音文件,以及根據目標發音者的訓練語料訓練獲得的聲學特征合成模型以及聲碼器模型;
從源發音者關聯的源語音文件中提取語音后驗圖譜PPG特征序列;
將所述PPG特征序列輸入到所述聲學特征合成模型中,獲得目標發音者的聲學特征序列;在所述聲學特征合成模型中,針對輸入的PPG特征序列編碼結果的每一幀分別進行解碼輸出;
將所述目標發音者的聲學特征序列輸入到所述聲碼器模型中生成目標語音文件;
將所述目標語音文件添加到語音庫中。
一種生成語音文件的方法,包括:
確定目標文本;
根據所述目標文本進行語音合成,獲得第一語音文件;
從所述第一語音文件中提取PPG特征序列;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010549934.6/2.html,轉載請聲明來源鉆瓜專利網。





