[發明專利]一種快速語音克隆方法在審
| 申請號: | 202110657034.8 | 申請日: | 2021-06-12 |
| 公開(公告)號: | CN113436607A | 公開(公告)日: | 2021-09-24 |
| 發明(設計)人: | 趙莉;陳非凡;趙瑞霞;史嘉琪;許鶴馨 | 申請(專利權)人: | 西安工業大學 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L13/10;G10L25/30;G10L15/16 |
| 代理公司: | 西安賽嘉知識產權代理事務所(普通合伙) 61275 | 代理人: | 王偉超 |
| 地址: | 710021 陜西省西*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 快速 語音 克隆 方法 | ||
本發明涉及一種快速語音克隆方法,包括如下步驟:步驟101、利用編碼器模塊獲取聲學特征;步驟102、利用合成器模塊合成梅爾譜圖;步驟103、利用聲碼器模塊將梅爾譜圖轉換成克隆語音;該快速語音克隆方法,采用了3個模型聯合建模,分別采用不同數據集,進行獨立的訓練。其可以使用目前的開源數據集并在低性能設備上克隆出良好效果的克隆語音,具有失真率低,頻譜相似度高,對齊度高的優點。
技術領域
本發明屬于語音克隆技術領域,具體涉及一種快速語音克隆方法。
背景技術
隨著語音學的研究和發展,語音技術也日新月異。如今的語音技術主要包括語音合成和語音識別兩大類。一般來說,對語音中的聲學特征進行改變或調整的技術被稱為語音轉換。而對語音進行處理,通過改變說話人的聲學特征,如頻譜、共振峰等,使其與另一說話人的音色相似的技術則是語音克隆。實現語音克隆的方法通常有兩種,通過改變原始語音中的聲學特征,使其與目標說話人的聲學特征近似,以將原始語音轉換成目標說話人音色的語音。本技術所說的語音克隆則是另一種,通過提取目標說話人語音特征后再根據文字進行特定的語音合成。
語音克隆的研究始于18世紀,Kratzenstein使用氣囊風箱簧片等材料模仿人的發聲器官和發聲過程,并加以改造,以此發出不同的元音。20世紀初,貝爾實驗室發明了一種電子合成器,可以通過模擬聲音的諧振發聲。到了20世紀后期,使用集成電路技術的共振峰合成器的也相繼出現,其可以構建濾波器的聲道可以通過精心調整參數合成出自然的語音。接著波形拼接合成方法也隨即出現。21世紀初劉慶峰博士將復雜的語音以聽感量化單元進行表征,并以此技術占據當時的80%的中文語音合成市場。隨著硬件算力的提升,基于人工智能的語音克隆技術層出不窮,卷積神經網絡和長短期記憶神經網絡等各種神經網絡構型都可以用來做語音克隆系統的訓練,對語音的韻律進行更加精準的調整,并且訓練出成熟模型后不需要大量人力進行人工調整。
傳統語音克隆的方法有矢量量化、隱馬爾科夫模型、高斯混合模型等方法,此類方法均有過平滑和語音特征處理較弱的缺點,同時需要手動的對韻律和頻譜圖進行調整,需要的人工成本較高。目前現有的語音克隆方案依托于大量的數據集和人工對于韻律的調整,條件苛刻并且耗時耗力。同時中文高質量的開源語音數據較為匱乏,許多語音數據被科大訊飛等公司獨占。
發明內容
為了解決現有語音克隆技術的缺陷問題,本發明提出了一種快速語音克隆方法,其可以使用目前的開源數據集并在低性能設備上實現良好的效果。
本發明所述的一種快速語音克隆方法,包括如下步驟:
步驟101、利用編碼器模塊獲取聲學特征;
步驟102、利用合成器模塊合成梅爾譜圖;
步驟103、利用聲碼器模塊將梅爾譜圖轉換成克隆語音。
進一步的,所述步驟101、利用編碼器模塊獲取聲學特征的具體過程是:
步驟201、將目標的音頻文件進行預處理后得到40維MFCC;
步驟202、將40維MFCC輸入到3層LSTM中,從中提取出聲學隱藏特征;
步驟203、將聲學隱藏特征輸入到全連接層中,對聲學特征進行歸類;
步驟204、將經過歸類的聲學特征進行縮放,并通過RELU層去除冗余數據,使目標的聲學特征稀疏化。
進一步的,所述聲學特征通過相似度矩陣進行表示:如下式(3):
其中,第i個說話人的第j個語音定義為uij(1≤i≤N,1≤j≤M),xij表示語音uij的對數梅爾頻譜圖,eij表示目標的特征,目標特征的均值定義為目標特征的質心ci,如式(1)所示:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安工業大學,未經西安工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110657034.8/2.html,轉載請聲明來源鉆瓜專利網。





