[發明專利]用于合成語音的方法和裝置有效

申請號：	201210501075.9	申請日：	2012-11-29
公開（公告）號：	CN103854643A	公開（公告）日：	2014-06-11
發明（設計）人：	康永國;李健	申請（專利權）人：	株式會社東芝
主分類號：	G10L13/06	分類號：	G10L13/06
代理公司：	北京市中咨律師事務所 11247	代理人：	劉瑞東;楊曉光
地址：	日本***	國省代碼：	日本;JP
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	用于合成語音方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及語音合成技術，具體地，涉及用于合成語音的方法和裝置。

背景技術

目前，基于隱馬爾科夫模型的語音合成（HTS，HMM-based?Text?toSpeech）已經廣泛應用于語音合成技術。

具體地，圖4示出了傳統的基于隱馬爾科夫模型的語音合成系統。如圖4所示，在訓練階段，利用語音數據庫10和語境數據庫20訓練隱馬爾科夫模型（HMMs），得到時長決策樹30。

在合成階段，在步驟405，對步驟401輸入的文本句進行文本分析，得到該文本句的音素序列和語境特征序列。然后，在步驟410，基于步驟405中得到的語境特征在時長決策樹30中查找與該語境特征對應的音素的葉子節點。然后，在步驟415，將葉子節點的中心時長作為該音素的時長。最后，在步驟420，利用預測出的時長進行語音合成。

在上述傳統的基于隱馬爾科夫模型的語音合成系統中，某個音素的時長是由時長決策樹30的某個葉子節點的中心時長，例如高斯分布的均值決定。也就是說，一個葉子節點上的所有音素時長實例由單一的中心時長來表示，由此導致了過平淡節奏的出現。這種平淡的合成語音會在電子書閱讀、汽車導航、移動電話等這樣的應用中降低用戶體驗。

發明內容

為了改善上述現有技術中存在的利用葉子節點的單一的中心時長生成音素的時長而導致合成語音的節奏過于平淡的問題，本發明提出了一種改進合成語音節奏的方法，該方法利用時長決策樹的葉子節點上的多中心時長來生成音素的時長。也就是說，本發明提供了用于合成語音的方法和裝置。具體地，提供了以下技術方案。

[1]一種用于合成語音的方法，包括以下步驟：

輸入文本句；

對上述文本句進行文本分析以獲得音素序列；

在時長預測模型中的時長決策樹中查找上述音素序列中的至少一個音素的葉子節點，上述葉子節點中的音素時長實例被聚為多個類；

計算上述至少一個音素屬于上述葉子節點中的多個類的每個類的概率；

利用上述計算出的概率和上述多個類的每個類的類中心時長預測上述至少一個音素的時長；以及

利用上述預測出的時長合成上述文本句的語音。

本發明的上述用于合成語音的方法，在進行音素的時長預測時，與使用葉子節點的單一的中心時長的傳統方法不同，使用葉子節點中的多個類的類中心時長進行預測，有效地解決了現有技術中合成語音的節奏過于平淡的技術問題，提高了在電子書閱讀、汽車導航、移動電話等這樣的應用中的用戶體驗。

[2]根據上述[1]所述的方法，其中，上述利用上述計算出的概率和上述多個類的每個類的類中心時長預測上述至少一個音素的時長的步驟包括：

將上述多個類中概率最大的類的類中心時長作為上述至少一個音素的時長。

本發明的上述用于合成語音的方法，通過使用葉子節點的多個類中概率最大的類的類中心時長作為上述至少一個音素的時長，可以使上述至少一個音素的時長的預測更加準確。

[3]根據上述[1]所述的方法，其中，上述利用上述計算出的概率和上述多個類的每個類的類中心時長預測上述至少一個音素的時長的步驟包括：

將上述多個類的類中心時長以上述計算出的概率為權重的加權和，作為上述至少一個音素的時長。

本發明的上述用于合成語音的方法，通過使用葉子節點的多個類的類中心時長以上述計算出的概率為權重的加權和，作為上述至少一個音素的時長，可以使上述至少一個音素的時長預測的候選由多中心動態擴展為一個在實例空間上的范圍。

[4]根據上述[1]所述的方法，其中，上述利用上述計算出的概率和上述多個類的每個類的類中心時長預測上述至少一個音素的時長的步驟包括：

利用上述計算出的概率、上述多個類的每個類的類中心時長和上述多個類的每個類的先驗概率預測上述至少一個音素的時長。

[5]根據上述[4]所述的方法，其中，上述利用上述計算出的概率、上述多個類的每個類的類中心時長和上述多個類的每個類的先驗概率預測上述至少一個音素的時長的步驟包括：

將上述多個類的類中心時長以上述計算出的概率和上述多個類的每個類的先驗概率為權重的加權和，作為上述至少一個音素的時長。

本發明的上述用于合成語音的方法，通過引入先驗概率，時長預測中出現異常時長的可能性減小，由此帶來了主觀感知的提升。

[6]根據上述[1]～[5]的任一項所述的方法，其中，

上述對上述文本句進行文本分析的步驟還獲得與上述音素序列對應的語境特征序列，

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于株式會社東芝，未經株式會社東芝許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201210501075.9/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L13-00 語音合成；文本-語音合成系統
G10L13-02 .產生合成語音的方法；語音合成設備
G10L13-06 .語音合成設備中使用的基本語音單位；級聯規則
G10L13-08 .文本分析或文本以外的語音合成參數的產生，例如語義圖翻譯為音素、韻律產生、重音或聲調測定
G10L13-04 ..語音合成系統的零部件，例如合成設備結構或存儲器管理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】