[發明專利]一種基于深度學習的語音合成方法有效
| 申請號: | 202110430708.0 | 申請日: | 2021-04-21 |
| 公開(公告)號: | CN113112985B | 公開(公告)日: | 2022-01-18 |
| 發明(設計)人: | 安鑫;代子彪;李陽;孫曉 | 申請(專利權)人: | 合肥工業大學 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/04;G10L25/24;G10L19/16;G10L25/30 |
| 代理公司: | 安徽省合肥新安專利代理有限責任公司 34101 | 代理人: | 陸麗莉;何梅生 |
| 地址: | 230009 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 語音 合成 方法 | ||
本發明公開了一種基于深度學習的語音合成方法,包括:1、對輸入文本進行標準化處理,去除無效字符;2、增加位置編碼,使輸入信號在前向和后向傳播時任意位置間的間隔縮短;3、構建基于BERT的端到端神經網絡模型,經過訓練能快速的將輸入的文本信息轉化為梅爾頻譜幀;4、使用預訓練模型WaveGlow將生成的梅爾頻譜幀轉化為高質量的音頻。本發明能充分利用GPU的并行計算能力從而獲得更快的訓練速度和預測速度,并能從輸入序列中獲取遠距離信息,使其在長文本語音合成中效果跟好,進而在實際使用過程中能更好的滿足高效、高質量的需求。
技術領域
本發明屬于自然語言處理,語音合成技術,深度學習技術領域,具體的說是一種基于深度學習的語音合成方法。
背景技術
語音合成作為實現人機語音交互系統的核心技術之一,是語音處理技術中一個重要的方向,其應用價值越來越受到重視。作為人機語音交互的出口,語音合成的效果直接影響到人機交互的體驗。一個高質量的、穩定的語音合成系統能夠讓機器更加地擬人化,使人機交互過程更加自然。
近年來,隨著人工神經網絡的迅速發展,端到端的語音合成模型取得了更好的效果,例如Tacotron以及Tacotron2等。它們直接從文本產生梅爾頻譜圖,然后再通過Griffin-Lim算法或者WaveNet的聲碼器合成音頻結果。通過端到端的神經網絡,合成的音頻質量有了極大的提高,甚至可以與人類錄音相媲美。
這些端到端模型多用RNN作為編碼器和解碼器。然而,RNN作為一種自回歸模型,其第i步的輸入包含了第i-1步輸出的隱藏狀態,這種時序結構限制了訓練和預測過程中的并行計算能力。此外,這種結還會導致當輸入序列過長時來自許多步驟之前的信息在傳遞過程中逐漸消失進而使生成的上下文信息存在偏差的問題。
發明內容
本發明是為了解決上述現有技術存在的不足之處,提出一種基于深度學習的語音合成方法,以期能充分利用GPU的并行計算能力從而獲得更快的訓練速度和預測速度,并能從輸入序列中獲取遠距離信息,使其在長文本語音合成中效果跟好,進而在實際使用過程中能更好的滿足高效、高質量的需求。
本發明為達到上述發明目的,采用如下技術方案:
本發明一種基于深度學習的語音合成方法的特點是按如下步驟進行:
步驟1、建立文本數據庫和音頻數據庫,所述文本數據庫中的每個文本與所述音頻數據庫中的每個音頻用編號相對應,從而得到N條原始數據,記為W={W(1),W(2),…,W(n),…,W(N)},W(n)表示第n條原始數據,且W(n)=Audion,Textn;Audion表示第n條音頻,Textn表示第n個文本,n=1,2,…,N;
步驟2、對第n個文本Textn進行標準化處理,得到預處理后的第n個文本Textn′;
將所述預處理后的第n個文本Textn′中的字符串轉化為字符,并用one-hot向量表示每個字符,從而得到向量化后的第n個文本向量,記為其中,表示第n個文本向量的第i個字符,i=1,2,…,m,m為字符串長度;
步驟3、利用梅爾頻率倒譜系數對第n條音頻Audion進行語音特征提取,得到第n條語音信息特征MFCCn,從而與所述向量化后的第n個文本向量Cn共同構成第n條訓練數據W′(n)=MFCCn,Cn;
步驟4、構建基于BERT模型的編碼器神經網絡,包括:多頭注意力層、兩個殘差連接與歸一化層、雙層全連接層、單層全連接層;所述多頭注意力層是由h個點積注意力組成;所述雙層全連接層、單層全連接層中設置有概率為p的Dropout函數以及神經元的激活函數tanh;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥工業大學,未經合肥工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110430708.0/2.html,轉載請聲明來源鉆瓜專利網。





