[發明專利]一種韻律控制語音合成方法、系統及電子裝置有效

申請號：	202010705955.2	申請日：	2020-07-21
公開（公告）號：	CN111754976B	公開（公告）日：	2023-03-07
發明（設計）人：	張鵬遠;尚增強;顏永紅	申請（專利權）人：	中國科學院聲學研究所;北京中科信利技術有限公司
主分類號：	G10L13/02	分類號：	G10L13/02;G10L13/04;G10L13/10
代理公司：	北京億騰知識產權代理事務所(普通合伙) 11309	代理人：	陳霽
地址：	100190 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種韻律控制語音合成方法系統電子裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請涉及一種韻律控制語音合成方法、系統和電子裝置，其中所述方法包括：對待合成文本進行正則獲取語言學特征和音素序列；將所述音素序列輸入Tacotron2模型的編碼器；將編碼結果和所述語言學特征輸入韻律參數預測模型，預測待合成文本的韻律參數，獲得音素級別的時長和DCT參數化基頻；將所述音素級別時長和DCT參數化基頻映射為二維向量，與所述編碼結果拼接輸入Tacotron2的解碼器，輸出韻律聲學特征序列；將所述韻律聲學特征序列送入聲碼器合成語音信號。該方法通過使用DCT參數化的基頻和時長，使得Tacotron2模型中能夠引入額外的語言學特征來輔助韻律的控制，并且該方法使得模型能夠收斂，更加具有解釋性。該方法相比其他方法更加魯棒，對于長句更加穩定。

技術領域

本申請涉及語音合成技術領域，特別涉及一種韻律控制語音合成方法、系統及電子裝置。

背景技術

語音合成技術是將輸入的文本轉換為語音的重要技術，也是人機交互領域的一個重要研究內容。

聲譜預測網絡(以下簡稱Tacotron2)的發明在英文上很大的提升了將輸入的文本轉換為語音的自然度。但是當移植到中文上使用時，由于中文漢字的稀疏性，存在韻律不穩定的現象。目前的中文語音合成技術主流做法是輸入端的輸入為從中文文本提取的音素序列，但由于在字音轉換過程損失了很多與分詞和詞性相關的信息，使得Tacotron2模型不能收斂。其他改進的方案如在輸入端加入韻律相關特征等在輸入上的改動也會容易導致Tacotron2模型不能收斂。

發明內容

本申請的目的在于克服傳統的中文端到端網絡利用Tacotron2將輸入的中文文本轉換為語音時存在韻律不穩定的問題。

為了實現上述目的，本申請提供了一種韻律控制語音合成方法、系統和電子裝置，基于DCT參數化基頻和時長來實現韻律控制。

第一方面，本申請提供了一種韻律控制語音合成方法，包括：對待合成文本進行正則獲取語言學特征和音素序列；將所述音素序列輸入Tacotron2模型的編碼器；將編碼結果和所述語言學特征輸入韻律參數預測模型，預測待合成文本的韻律參數，獲得音素級別的時長和DCT參數化基頻；將所述音素級別時長和DCT參數化基頻映射為二維向量，與所述編碼結果拼接輸入Tacotron2的解碼器，輸出韻律聲學特征序列；將所述韻律聲學特征序列送入聲碼器合成語音信號。

在一個可能的實施方式中，所述方法還包括預訓練Tacotron2模型，包括：以音素序列為輸入，以幀級別的多維聲學特征為輸出訓練Tacotron2模型，獲得具有音素序列與所述聲學特征的對應關系的上下文權重矩陣。

在一個可能的實施方式中，所述預測待合成文本的韻律參數，包括：基于預訓練Tacotron2模型獲得的所述上下文權重矩陣，使用以下公式獲得音素對應的幀數：

N_i＝∑_jW_ij

其中N_i表示所述音素序列中第i個音素對應的幀數，W_ij表示第j幀聲學特征對應于第i個音素的概率；計算log(N_i)獲得所述音素級別的時長；計算N階的離散余弦變換的系數e＝[e₀,e₁...e_T-1]^T的基頻為：

其中，D^(t)為逆離散余弦變換時的第t幀的向量：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國科學院聲學研究所;北京中科信利技術有限公司，未經中國科學院聲學研究所;北京中科信利技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010705955.2/2.html，轉載請聲明來源鉆瓜專利網。