[發明專利]語音合成方法、裝置、設備以及存儲介質在審

申請號：	202110605207.1	申請日：	2021-05-31
公開（公告）號：	CN113345412A	公開（公告）日：	2021-09-03
發明（設計）人：	張旭龍;王健宗	申請（專利權）人：	平安科技（深圳）有限公司
主分類號：	G10L13/033	分類號：	G10L13/033;G10L13/08
代理公司：	深圳國新南方知識產權代理有限公司 44374	代理人：	周雷
地址：	518000 廣東省深圳市福田區福***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音合成方法裝置設備以及存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種語音合成方法，包括：將目標文本序列轉換為目標unicode編碼；將所述目標unicode編碼輸入預設的語音特征分析模型進行分析，得到所述目標unicode編碼對應的語音特征信息；將參考語音輸入預設的語音編碼器進行分析，得到所述參考語音對應的語音編碼信息；將語音合成信息輸入至預設的語音聲碼器進行分析，得到所述目標文本序列對應的合成語音；其中，所述語音合成信息包括所述語音特征信息和所述語音編碼信息。可見，本發明能夠使合成的語音即使是在不同語言之間進行切換時仍像是同一說話人發出的，提升合成的語音在不同語言之間進行切換時的效果。本發明還涉及區塊鏈技術領域。

技術領域

本發明涉及語音合成技術領域，尤其涉及一種語音合成方法、裝置、計算機設備以及存儲介質。

背景技術

近年，多語言語音合成技術正逐漸成為語音合成領域中熱門的研究課題。多語言語音合成技術能夠用同一個系統生成不同說話人、不同語言的合成語音，其可以廣泛應用于人機交互、雙語教學、口語對話等場景中，對促進多語言地區的語言交流有著重要的意義。

實際應用中，多語言語音合成技術的實現的一個難點在于用于進行人工神經網絡的訓練的數據的收集，要尋找一個能同時精通多種語言的人進行語音數據的收集顯然是不現實的，所以實際收集到的數據通常會包括不同的說話人以及不同語言的語音，例如，a精通中文和英文，則收集a的中文語音和英文語音，b精通日文，則收集b的日文語音。這樣，人工神經網絡在訓練時擬合的將會是不同的說話人以及不同語言的語音，導致多語言語音合成技術最終合成的語音在不同語言之間進行切換時的效果并不理想，具體表現為同一個文本序列轉換成的不同語言的語音像是不同的說話人發出的。

發明內容

本發明所要解決的技術問題在于，多語言語音合成技術最終合成的語音在不同語言之間進行切換時的效果不佳，像是不同的說話人發出的。

為了解決上述技術問題，本發明第一方面公開了一種語音合成方法，所述方法包括：

將目標文本序列轉換為目標unicode編碼；

將所述目標unicode編碼輸入預設的語音特征分析模型進行分析，得到所述目標unicode編碼對應的語音特征信息；

將參考語音輸入預設的語音編碼器進行分析，得到所述參考語音對應的語音編碼信息；

將語音合成信息輸入至預設的語音聲碼器進行分析，得到所述目標文本序列對應的合成語音；

其中，所述語音合成信息包括所述語音特征信息和所述語音編碼信息。

本發明第二方面公開了一種語音合成裝置，所述裝置包括：

轉換模塊，用于將目標文本序列轉換為目標unicode編碼；

語音特征分析模塊，用于將所述目標unicode編碼輸入預設的語音特征分析模型進行分析，得到所述目標unicode編碼對應的語音特征信息；

語音編碼分析模塊，用于將參考語音輸入預設的語音編碼器進行分析，得到所述參考語音對應的語音編碼信息；