[發明專利]語音合成方法、裝置、可讀介質及電子設備在審

申請號：	202110075973.1	申請日：	2021-01-20
公開（公告）號：	CN112786007A	公開（公告）日：	2021-05-11
發明（設計）人：	吳鵬飛;潘俊杰	申請（專利權）人：	北京有竹居網絡技術有限公司
主分類號：	G10L13/04	分類號：	G10L13/04;G10L13/033;G10L25/30;G10L25/63
代理公司：	北京英創嘉友知識產權代理事務所(普通合伙) 11447	代理人：	魏云鹿
地址：	101299 北京市平***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音合成方法裝置可讀介質電子設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本公開涉及一種語音合成方法、裝置、可讀介質及電子設備，涉及電子信息處理技術領域，該方法包括：獲取待合成文本、指定聲學特征和指定情感類型，指定聲學特征用于指示音頻的韻律特征，提取待合成文本對應的音素序列，將指定聲學特征按照音素序列進行擴展，得到聲學特征序列，將音素序列、聲學特征序列和指定情感類型，輸入預先訓練的語音合成模型，以得到語音合成模型輸出的，待合成文本對應的具有指定情感類型的目標音頻，目標音頻的聲學特征與指定聲學特征匹配。本公開通過指定聲學特征和指定情感類型來控制文本的語音合成，能夠實現語音合成過程中情感類型和聲學特征兩個維度的顯性控制，提高了目標音頻的表現力。

技術領域

本公開涉及電子信息處理技術領域，具體地，涉及一種語音合成方法、裝置、可讀介質及電子設備。

背景技術

隨著電子信息處理技術的不斷發展，語音作為人們獲取信息的重要載體，已經被廣泛應用于日常生活和工作中。涉及語音的應用場景中，通常會包括語音合成的處理，語音合成是指將用戶指定的文本，合成為音頻。語音合成過程中，可以通過指定的情感標簽，來合成具有相應情感的語音。然而，情感標簽的類型有限，很難滿足用戶多樣化的需求。

發明內容

提供該發明內容部分以便以簡要的形式介紹構思，這些構思將在后面的具體實施方式部分被詳細描述。該發明內容部分并不旨在標識要求保護的技術方案的關鍵特征或必要特征，也不旨在用于限制所要求的保護的技術方案的范圍。

第一方面，本公開提供一種語音合成方法，所述方法包括：

獲取待合成文本、指定聲學特征和指定情感類型，所述指定聲學特征用于指示音頻的韻律特征；

提取所述待合成文本對應的音素序列；

將所述指定聲學特征按照所述音素序列進行擴展，得到聲學特征序列；

將所述音素序列、所述聲學特征序列和所述指定情感類型，輸入預先訓練的語音合成模型，以得到所述語音合成模型輸出的，所述待合成文本對應的具有所述指定情感類型的目標音頻，所述目標音頻的聲學特征與所述指定聲學特征匹配。

第二方面，本公開提供一種語音合成裝置，所述裝置包括：

獲取模塊，用于獲取待合成文本、指定聲學特征和指定情感類型，所述指定聲學特征用于指示音頻的韻律特征；

提取模塊，用于提取所述待合成文本對應的音素序列；

擴展模塊，用于將所述指定聲學特征按照所述音素序列進行擴展，得到聲學特征序列；

合成模塊，用于將所述音素序列、所述聲學特征序列和所述指定情感類型，輸入預先訓練的語音合成模型，以得到所述語音合成模型輸出的，所述待合成文本對應的具有所述指定情感類型的目標音頻，所述目標音頻的聲學特征與所述指定聲學特征匹配。