[發明專利]一種波形拼接語音合成的選音方法有效

申請號：	201310481306.9	申請日：	2013-10-15
公開（公告）號：	CN103531196A	公開（公告）日：	2014-01-22
發明（設計）人：	陶建華;張冉;溫正棋	申請（專利權）人：	中國科學院自動化研究所
主分類號：	G10L13/02	分類號：	G10L13/02
代理公司：	中科專利商標代理有限責任公司 11021	代理人：	宋焰琴
地址：	100190 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種波形拼接語音合成方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及智能信息處理領域，尤其涉及一種波形拼接語音合成的選音方法。

背景技術

語音作為人類交流信息的主要手段之一，語音合成技術主要是讓計算機能夠產生高清晰度、高自然度的連續語音。在語音合成技術的發展過程中，早期的研究主要是采用參數合成方法，后來隨著計算機技術的發展又出現了波形拼接的合成方法。隨著語料庫的不斷增大，候選基元的數量也在不斷增長，如何根據輸入文本，選擇出最佳的基元進行拼接，越來越受到關注。

基于隱馬爾可夫模型的參數語音合成系統和基于基元選取的拼接系統是近十幾年最主流的語音合成技術，而混合語音合成系統結合了二者的優勢，采用了前者訓練出的聲學模型來指導基元選取，從而選出更加合適的基元進行拼接。這種混合語音合成系統的選音方法比傳統拼接方法更加的穩定，而且人工干預更少，但仍存在著很多的不足，主要表現在以下幾點：

1、選音方法并沒有體現人耳的感知作用，在現有選音方法中得一個高分，并不意味著選出了更適合人聽覺的語音；

2、選音方法采用了因素加權疊加的方法進行選音，即將基元的各個特征分別計算子代價，然后分別給予權重，再疊加成為一個總的選音代價來選音，該方法假定所有因素對基元的接受度的影響是線性疊加的，這顯然不符合事實。

發明內容

為解決上述的一個或多個問題，本發明提供了一種波形拼接語音合成的選音方法。該方法結合了人的主觀聽覺感受，能選出最適合人耳聽感的基元，最終拼接出較好的語音。

本發明提供的波形拼接語音合成的選音方法包括以下步驟：

對原始音庫進行參數提取，并結合相應文本標注信息，進行基于隱馬爾可夫的模型訓練；輸入若干訓練文本，進行文本分析，利用決策樹搜索相關模型，并利用參數生成算法合成對應目標語音，并進行音節的切分，獲取目標音節；人工評判合成音節語音與其候選基元語音的相似度來作為分類屬性，同時計算候選基元各聲學參數的在當前模型下的似然概率，作為輸入的特征向量，從而訓練出一個相似度分類器；給定任意待合成文本，使用分類器剔除不相似的候選基元，對剩余的候選基元，利用拼接代價最小原則選擇最佳基元，最后拼接出合成語音。

從上述技術方案可以看出，本發明波形拼接語音合成的選音方法具有以下有益效果：

（1）與參數合成的音節相似的基元，有與之相同的重音和語調，采用這種標準選出的語音來進行拼接，可以得到兼備穩定性和一致性的語音；

（2）與參數合成的音節相似的基元，也更容易拼接，因為它們在邊界處的特征更加趨于一致，不需要或僅需要很少的平滑，從而保證了原始語音的平滑和自然；

（3）在選音中引入了人的主觀聽感因素，使選音結果更適合人的主觀喜好。

附圖說明

圖1為根據本發明一實施例的波形拼接語音合成的選音方法流程圖；

圖2為根據本發明一實施例的聲學模型訓練流程；

圖3為根據本發明一實施例的隱馬爾可夫訓練流程圖；

圖4為根據本發明一實施例的目標音節的生成流程圖；

圖5為根據本發明一實施例的分類器訓練流程圖；

圖6為根據本發明一實施例的根據分類器選音的流程圖。

具體實施方式