[發明專利]語音合成方法、裝置、電子設備及存儲介質有效
| 申請號: | 202010006604.2 | 申請日: | 2020-01-03 |
| 公開(公告)號: | CN110797002B | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 顧王一 | 申請(專利權)人: | 同盾控股有限公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L25/30 |
| 代理公司: | 杭州創智卓英知識產權代理事務所(普通合伙) 33324 | 代理人: | 鄭思思 |
| 地址: | 311121 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 方法 裝置 電子設備 存儲 介質 | ||
本發明公開了一種語音合成方法,涉及語音合成領域,該方法包括以下步驟:獲取文本數據,根據文本數據得到線性頻譜和相位的目標值,將文本數據轉化為文本向量;將文本向量輸入神經網絡模型得到線性頻譜和相位的預測值,進而計算整體損失,用以訓練神經網絡模型,通過訓練完成的神經網絡模型得到線性頻譜和初始相位;將線性頻譜和初始相位輸入Griffin?Lim聲碼器訓練,得到文本數據對應的音頻信號。該方法根據線性頻譜和初始相位訓練Griffin?Lim聲碼器,能夠減少聲碼器迭代次數,加快聲碼器收斂速度,在不降低音頻質量的情況下,加速音頻實時合成過程,適用于利用Griffin?Lim算法作為聲碼器的語音合成裝置。本發明還公開了一種語音合成裝置、電子設備和計算機存儲介質。
技術領域
本發明涉及語音合成領域,尤其涉及一種語音合成方法、裝置、電子設備及存儲介質。
背景技術
語音合成是中文信息處理領域的一項前沿技術,主要是將給定的文本輸入按字或詞分解為特征向量,再將特征向量轉化為音頻特征,最終用聲碼器將音頻特征還原為相應的音頻文件輸出。隨著WaveNet,LpcNet等技術的提出,出現了一批采用神經網絡作為聲碼器的語音合成方法,但在合成性能或合成效果上還很難達到商用,目前Griffin-Lim算法作為聲碼器廣泛應用于語音合成方法中。Griffin-Lim算法作為一種利用頻譜預測相位的迭代算法,以頻譜幅值作為輸入,隨機初始化的相位通過一定次數的迭代,得到連接音頻幀的合適的相位,恢復出時域音頻信號。
現有的語音合成方法采用神經網絡模型將文本轉化為線性頻譜,然后輸入Griffin-Lim聲碼器通過反復迭代以產生質量較好的音頻信號。為了改善整體的性能,往往從工程角度優化Griffin-Lim聲碼器進而提高單次迭代的效率,卻忽視了基于神經網絡模型為Griffin-Lim聲碼器提供一個較好的初始相位,以加快其收斂速度,從根本上解決Griffin-Lim聲碼器多次迭代帶來的負擔。
發明內容
為了克服現有技術的不足,本發明的目的之一在于提供一種語音合成方法,其通過將頻譜和相位的目標值和測試值加入整體損失,使得模型的頻譜和相位往一致的方向訓練,基于訓練完成的模型得到線性頻譜和初始相位,并將線性頻譜和初始相位輸入Griffin-Lim聲碼器進行訓練,得到連接各音頻幀的連合相位,恢復并輸出相應的音頻信號。
本發明的目的之一采用以下技術方案實現:
獲取文本數據,根據所述文本數據得到線性頻譜目標值和相位目標值,將所述文本數據轉化為文本向量;
將所述文本向量輸入神經網絡模型得到線性頻譜預測值和相位預測值,根據所述線性頻譜目標值、所述線性頻譜預測值、所述相位目標值和所述相位預測值計算整體損失,根據所述整體損失訓練所述神經網絡模型,通過訓練完成的所述神經網絡模型得到線性頻譜和初始相位;
將所述線性頻譜和所述初始相位輸入至Griffin-Lim聲碼器進行迭代訓練,得到所述文本數據對應的音頻信號;
其中,將所述線性頻譜和所述初始相位輸入至Griffin-Lim聲碼器進行迭代訓練,得到所述文本數據對應的音頻信號,包括:將所述線性頻譜和所述初始相位進行逆短時傅里葉變換得到音頻信號,通過Griffin-Lim聲碼器的迭代訓練,得到連接各音頻幀的連合相位,根據所述連合相位恢復并輸出所述文本數據對應的音頻信號。
進一步地,根據所述文本數據得到線性頻譜目標值和相位目標值,將所述文本數據轉化為文本向量,包括:
獲取與所述文本數據匹配的音頻數據;
將所述音頻數據進行短時傅里葉變換得到所述線性頻譜目標值和所述相位目標值;
將所述文本數據進行分詞,得到所述文本數據的分詞結果,對所述分詞結果進行獨熱編碼得到文本向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同盾控股有限公司,未經同盾控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010006604.2/2.html,轉載請聲明來源鉆瓜專利網。





