[發明專利]一種波形拼接語音合成的選音方法有效
| 申請號: | 201310481306.9 | 申請日: | 2013-10-15 |
| 公開(公告)號: | CN103531196A | 公開(公告)日: | 2014-01-22 |
| 發明(設計)人: | 陶建華;張冉;溫正棋 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 宋焰琴 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 波形 拼接 語音 合成 方法 | ||
技術領域
本發明涉及智能信息處理領域,尤其涉及一種波形拼接語音合成的選音方法。
背景技術
語音作為人類交流信息的主要手段之一,語音合成技術主要是讓計算機能夠產生高清晰度、高自然度的連續語音。在語音合成技術的發展過程中,早期的研究主要是采用參數合成方法,后來隨著計算機技術的發展又出現了波形拼接的合成方法。隨著語料庫的不斷增大,候選基元的數量也在不斷增長,如何根據輸入文本,選擇出最佳的基元進行拼接,越來越受到關注。
基于隱馬爾可夫模型的參數語音合成系統和基于基元選取的拼接系統是近十幾年最主流的語音合成技術,而混合語音合成系統結合了二者的優勢,采用了前者訓練出的聲學模型來指導基元選取,從而選出更加合適的基元進行拼接。這種混合語音合成系統的選音方法比傳統拼接方法更加的穩定,而且人工干預更少,但仍存在著很多的不足,主要表現在以下幾點:
1、選音方法并沒有體現人耳的感知作用,在現有選音方法中得一個高分,并不意味著選出了更適合人聽覺的語音;
2、選音方法采用了因素加權疊加的方法進行選音,即將基元的各個特征分別計算子代價,然后分別給予權重,再疊加成為一個總的選音代價來選音,該方法假定所有因素對基元的接受度的影響是線性疊加的,這顯然不符合事實。
發明內容
為解決上述的一個或多個問題,本發明提供了一種波形拼接語音合成的選音方法。該方法結合了人的主觀聽覺感受,能選出最適合人耳聽感的基元,最終拼接出較好的語音。
本發明提供的波形拼接語音合成的選音方法包括以下步驟:
對原始音庫進行參數提取,并結合相應文本標注信息,進行基于隱馬爾可夫的模型訓練;輸入若干訓練文本,進行文本分析,利用決策樹搜索相關模型,并利用參數生成算法合成對應目標語音,并進行音節的切分,獲取目標音節;人工評判合成音節語音與其候選基元語音的相似度來作為分類屬性,同時計算候選基元各聲學參數的在當前模型下的似然概率,作為輸入的特征向量,從而訓練出一個相似度分類器;給定任意待合成文本,使用分類器剔除不相似的候選基元,對剩余的候選基元,利用拼接代價最小原則選擇最佳基元,最后拼接出合成語音。
從上述技術方案可以看出,本發明波形拼接語音合成的選音方法具有以下有益效果:
(1)與參數合成的音節相似的基元,有與之相同的重音和語調,采用這種標準選出的語音來進行拼接,可以得到兼備穩定性和一致性的語音;
(2)與參數合成的音節相似的基元,也更容易拼接,因為它們在邊界處的特征更加趨于一致,不需要或僅需要很少的平滑,從而保證了原始語音的平滑和自然;
(3)在選音中引入了人的主觀聽感因素,使選音結果更適合人的主觀喜好。
附圖說明
圖1為根據本發明一實施例的波形拼接語音合成的選音方法流程圖;
圖2為根據本發明一實施例的聲學模型訓練流程;
圖3為根據本發明一實施例的隱馬爾可夫訓練流程圖;
圖4為根據本發明一實施例的目標音節的生成流程圖;
圖5為根據本發明一實施例的分類器訓練流程圖;
圖6為根據本發明一實施例的根據分類器選音的流程圖。
具體實施方式
為使本發明的目的、技術方案和優點更加清楚明白,以下結合具體實施例,并參照附圖,對本發明進一步詳細說明。
需要說明的是,在附圖或說明書描述中,相似或相同的部分都使用相同的圖號。附圖中未繪示或描述的實現方式,為所屬技術領域中普通技術人員所知的形式。另外,雖然本文可提供包含特定值的參數的示范,但應了解,參數無需確切等于相應的值,而是可在可接受的誤差容限或設計約束內近似于相應的值。
圖1為根據本發明一實施例的波形拼接語音合成的選音方法流程圖,如圖1所示,該選音方法包括以下步驟:
步驟S1,基于從音頻數據庫中提取得到的原始音頻進行基于隱馬爾可夫的模型訓練,得到聲學模型集以及對應的特征決策樹;
如圖2所示,所述步驟S1進一步包括以下步驟:
步驟S11,獲取音頻數據庫中的原始音頻;
步驟S12,對于所述原始音頻按幀進行頻譜參數和基頻參數的提??;
所述步驟S12進一步包括以下步驟:
步驟S121,將所述原始音頻進行分幀加窗處理;
分幀加窗為現有技術中常用的音頻處理技術,在此不作贅述。
步驟S122,對處理得到的每幀音頻比如用STRAIGHT算法提取其梅爾倒譜系數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310481306.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電性連接裝置
- 下一篇:多屏幕集成顯示系統帶寬調整設備及其調整方法





