[發明專利]一種語音合成方法在審
| 申請號: | 202011374257.5 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN112489616A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 鄧努波;陳麗娟;張麗娟;張建華;黃嫄;向洪偉;郭強;程潔;張流暢;巫俊潔;鄧燕晶 | 申請(專利權)人: | 國網重慶市電力公司物資分公司 |
| 主分類號: | G10L13/027 | 分類號: | G10L13/027;G10L25/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 重慶晟軒知識產權代理事務所(普通合伙) 50238 | 代理人: | 王海鳳 |
| 地址: | 400020 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 合成 方法 | ||
1.一種語音合成方法,其特征在于,包括如下步驟:
S10:文本特征提取和聲學特征提取;
文本特征提取模塊首先對輸入文本數據做字符嵌入,即使用固定維度大小的向量來對文本字符進行表征,然后依次通過Pre-Net、CBHG兩個子網絡,得到文本特征數據;
聲學特征提取:使用梅爾頻譜和線性頻譜進行,首先對語音數據進行預加重處理,將原始音頻信號通過一個高通濾波器得到預加重后的語音數據,然后進行短時傅里葉變換得到線性譜;
S20:對提取的文本特征數據與聲學特征進行融合,具體包括如下步驟:
a)構建編碼器,編碼器使用Tacotron框架中的編碼器,S10中得到的文本特征數據輸入編碼器中,編碼器輸出編碼序列;
b)構建一個位置敏感注意力機制,所述位置敏感注意力機制的位置特征用32個長度為31的1維卷積核卷積得出,所述a)輸出的編碼序列和位置特征投影到128維隱層表征后,得到出注意力權重,即注意力上下文向量;
c)構建解碼器,所述解碼器是一個自回歸的循環神經網絡,它將編碼器輸出的編碼序列預測輸出聲譜圖,一次預測一幀,上一步預測出的頻譜幀首先被傳入一個每層由256個隱藏ReLU單元組成的雙層全連接的預處理網絡pre-net;
pre-net的輸出和注意力上下文向量拼接在一起,傳給一個兩層堆疊的由1024個單元組成的單向神經網絡,所述神經網絡的輸出再次和注意力上下文向量拼接在一起,然后經過一個線性變換投影來預測目標頻譜幀;
預測的所述目標頻譜幀經過一個5層卷積網絡來預測一個殘差疊加到卷積前的頻譜幀上,網絡的每層由512個5×1卷積核和一個批標準化處理組成,除了最后一層卷積,每層的批標準化處理都后接一個tanh激活函數;
并行于頻譜幀的預測,解碼器的輸出與注意力上下文向量拼接在一起,投影成一個標量后傳遞給sigmoid激活函數,來預測輸出序列是否已經完成的概率;
將該概率值大于或等于預設的結束閾值時,表示預測結束,進行下一步;
d)后網絡和波形合成,后處理網絡由CBHG模塊和全連接層組成,解碼器的輸出經過后處理網絡轉化成線性聲譜圖,Griffin-Lim算法將線性聲譜圖還原成語音波形輸出。
2.如權利要求1所述的語音合成方法,其特征在于:所述S10中聲學特征提取的具體方法為:
1)將原始音頻信號通過一個高通濾波器得到預加重后的語音數據,采用公式(1):
H(Z)=1-μ·z-1 (1);
其中,H為語音采樣值,Z表示不同時刻,1表示當前時刻的采樣值,z-1表示上一時刻的采樣值,μ為預加重系數;
2)然后公式(1)得到的語音數據進行短時傅里葉變換得到線性譜,如公式(2):
其中z(t)為源信號,z(t)=H(Z),g(t)為窗函數,f為線性頻譜的頻率;
3)用梅爾濾波器組處理線性頻譜得到梅爾頻譜,如公式(3):
其中,f為線性頻譜的頻率。
3.如權利要求1所述的語音合成方法,其特征在于:所述S20中的編碼器由Pre-net預處理網絡和CBHG模塊構成,CBHG模塊依次由一維卷積濾波器組、殘差連接、多層高速公路網絡highway network和雙向門控循環單元GRU網絡組成。
4.如權利要求1所述的語音合成方法,其特征在于:所述S20中的構建位置敏感注意力機制后解碼器的輸出計算過程如下:
位置敏感注意力機制的能量計算如公式(4):
其中,si是第i時刻解碼器循環神經網絡的隱狀態,hj是編碼器的第j個輸出,fi,j表示對i時刻前累加注意力權重的卷積輸出,b是偏置值,初始為0向量,va、W、V和U表示不同網絡層的權重矩陣,表示va的轉置;
卷積輸出fi,j來自累加注意力權重的卷積,F為卷積核,如公式(5)和(6);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網重慶市電力公司物資分公司,未經國網重慶市電力公司物資分公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011374257.5/1.html,轉載請聲明來源鉆瓜專利網。





