[發明專利]高表現力的語音合成方法和裝置有效
| 申請號: | 201410645715.2 | 申請日: | 2014-11-12 |
| 公開(公告)號: | CN104392716B | 公開(公告)日: | 2017-10-13 |
| 發明(設計)人: | 李秀林;賈磊;康永國 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L13/027 | 分類號: | G10L13/027;G10L13/08 |
| 代理公司: | 北京品源專利代理有限公司11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 表現力 語音 合成 方法 裝置 | ||
技術領域
本發明實施例涉及文語轉換技術領域,尤其涉及一種高表現力的語音合成方法和裝置。
背景技術
語音是人機交流最習慣、最自然的方式。將文字輸入轉成語音輸出的技術稱為文語轉換(Text-to-Speech,TTS)或語音合成技術。它涉及聲學、語言學、數字信號處理多媒體技術等多個領域,是中文信息處理領域的一項前沿技術。
由于合成語音的聲學參數大都服從高斯分布,所以利用高斯聲學模型來生成合成語音的聲學參數,進而產生合成語音。圖1示出了現有技術提供的基于高斯聲學模型的語音合成系統的信號流。參見圖1,所述語音合成系統從模型庫中選擇一個高斯聲學模型101,并基于選擇的該高斯聲學模型生成聲學參數102,進而合成語音。由于語音合成音庫的規模往往只有幾千到幾萬句的規模,為了避免過訓練,聲學模型決策樹的葉子節點模型,只能表現統計意義的聲學參數,難以區分細致的上下文所帶來的差異,因而,造成了合成語音平淡乏味,自然度不高。
發明內容
有鑒于此,本發明實施例提出一種高表現力的語音合成方法和裝置,以提高合成語音的自然度。
第一方面,本發明實施例提供了一種高表現力的語音合成方法,所述方法包括:
將輸入文本進行處理分析,得到所述輸入文本對應的音子序列以及所述音子序列中音子包含的狀態的上下文;
根據所述狀態的上下文,基于維特比算法從所述狀態對應的包含至少兩個高斯聲學模型的高斯混合聲學模型中選擇一個高斯聲學模型,作為合成語音的高斯聲學模型;
根據所選擇的高斯聲學模型生成聲學參數,并根據生成的聲學參數合成語音。
第二方面,本發明實施例提供了一種高表現力的語音合成裝置,所述裝置包括:
上下文獲取模塊,用于將輸入文本進行處理分析,得到所述輸入文本對應的音子序列以及所述音子序列中音子包含的狀態的上下文;
高斯聲學模型選取模塊,用于根據所述狀態的上下文,基于維特比算法從所述狀態對應的包含至少兩個高斯聲學模型的高斯混合聲學模型中選擇一個高斯聲學模型,作為合成語音的高斯聲學模型;
語音合成模塊,用于根據所選擇的高斯聲學模型生成聲學參數,并根據生成的聲學參數合成語音。
本發明實施例提供的高表現力的語音合成方法和裝置,通過將輸入文本進行處理分析,得到所述輸入文本對應的音子序列以及所述音子序列中音子包含的狀態的上下文,根據所述狀態的上下文,基于維特比算法從所述狀態對應的包含至少兩個高斯聲學模型的高斯混合聲學模型中選擇一個高斯聲學模型,作為合成語音的高斯聲學模型,根據所選擇的高斯聲學模型生成聲學參數,并根據生成的聲學參數合成語音,從而應用維特比算法從組成高斯混合聲學模型的多個分量中選取一個高斯聲學模型來生成聲學參數,提高了合成語音的自然度。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發明的其它特征、目的和優點將會變得更明顯:
圖1是現有技術提供的基于高斯聲學模型的語音合成系統的信號流示意圖;
圖2是本發明第一實施例提供的高表現力的語音合成方法的流程圖;
圖3是本發明第二實施例提供的高表現力的語音合成方法的流程圖;
圖4是本發明第二實施例提供的基于高斯聲學模型的語音合成系統的信號流示意圖;
圖5是本發明第三實施例提供的高表現力的語音合成方法中高斯混合聲學模型訓練的流程圖;
圖6是本發明第四實施例提供的高表現力的語音合成方法中高斯聲學模型選取的流程圖;
圖7是本發明第四實施例提供的最佳路徑的示意圖;
圖8是本發明第五實施例提供的高表現力的語音合成裝置的結構圖。
具體實施方式
下面結合附圖和實施例對本發明作進一步的詳細說明。可以理解的是,此處所描述的具體實施例僅用于解釋本發明,而非對本發明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發明相關的部分而非全部內容。
圖2示出了本發明的第一實施例。
圖2是本發明第一實施例提供的高表現力的語音合成方法的流程圖。參見圖2,所述高表現力的語音合成方法包括:
S210,將輸入文本進行處理分析,得到所述輸入文本對應的音子序列以及所述音子序列中音子包含的狀態的上下文。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410645715.2/2.html,轉載請聲明來源鉆瓜專利網。





