[發明專利]一種融合韻律和個人信息的中文語音合成方法有效
| 申請號: | 202110667531.6 | 申請日: | 2021-06-16 |
| 公開(公告)號: | CN113393829B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 湯步洲;付滬豪;劉超 | 申請(專利權)人: | 哈爾濱工業大學(深圳) |
| 主分類號: | G10L13/10 | 分類號: | G10L13/10;G10L25/30 |
| 代理公司: | 深圳市添源創鑫知識產權代理有限公司 44855 | 代理人: | 覃迎峰 |
| 地址: | 518000 廣東省深圳市南*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 融合 韻律 個人信息 中文 語音 合成 方法 | ||
本發明提供了一種融合韻律和個人信息的中文語音合成方法,中文語音合成方法包括如下步驟:步驟1:將輸入文本、輸入文本對應的拼音和輸入文本的詞法句法特征輸入層次化韻律預測模型,得到輸入文本的多層韻律信息;步驟2:將輸入文本對應的拼音、聲調等輸入到聲學模型,得到輸入文本對應的語音特征譜圖;步驟3:將多層韻律信息引入聲學模型,將層次化韻律預測模型和聲學模型進行聯合,形成新的聲學模型;步驟4:在新的聲學模型中引入說話人信息,形成個性化語音合成模型,支持多人個性化語音合成。本發明有益效果:本發明在目前端到端合成模型的基礎上,提高音頻質量、速度;單人和多人的應用場景下,探索一種聯合韻律預測任務和梅爾譜圖生成任務的多任務學習方法,使得合成音頻的停頓節奏感更自然,更貼近原始音頻。
技術領域
本發明涉及語音處理技術領域,尤其涉及一種融合韻律和個人信息的中文語音合成方法。
背景技術
隨著手機、平板、智能家居及可穿戴設備等都開始接入語音功能,人機交互方式逐漸走入語音時代。與傳統的人機交互不同的是,語音交互具有便捷性、智能性,可以使得機器具有像人一樣聽說讀寫的綜合能力。語音合成是智能語音交互系統的最后一環,負責讓機器說出特點文本、特定說話人的語音音頻,其分為文本分析和聲學模型建模兩個部分。文本分析主要是對文本進行特征提取,為后端提供發音、韻律等文本相關的信息;后端的工作是基于前端提取的語言特征來進行聲學建模,從而獲得自然可懂的語音輸出。語音合成技術經過幾十年的研究,從最早通過機械組件來模擬人體發聲,逐漸發展成基于單元波形拼接和統計參數合成兩個主要技術流派,雖然該兩種技術模型產生的語音質量基本上滿足可懂度的要求,但針對不同的語言,其模型設計方式和語言特征提取的方式也不同,需要開發人員具有較強的語言學背景,極大的限制了模型的通用性,同時復雜的組件設計導致錯誤不斷的被傳遞累加,從而限制著合成語音的自然度。隨著人工智能浪潮的興起,越來越多的研究人員都開始將神經網絡技術應用到語音合成領域,使得語音合成技術進入了一個新的時代。目前的主流語音合成系統一般都是采取基于端到端的聲學模型加神經網絡聲碼器的串聯架構,該架構生成音頻的主觀測試分數十分接近原始音頻。同時由于深度學習技術的蓬勃發展,復雜的聲碼器技術也得到不斷優化提速,讓語音合成工程化應用成為可能。
隨著合成音頻音質的提升及合成速度的加快,公眾的需求從最初的“可懂度”逐步發展到賦能場景的能力、對產品體驗的提升上。目前市場上的大多數語音合成產品都是針對單人定制的,不能靈活的滿足用戶合成多個人聲音的個性化需求。為了更好的迎合用戶,探索多人合成技術是十分有必要的。因為多人語音合成技術可以提供一個通用模型,使得可以高效率、低成本的進行多人語音合成,具有很強的實用性。此外用戶往往都希望獲得自然流利的語音輸出,促使了研究者將更多的注意力集中在文本的韻律結構預測任務中。正確的韻律結構信息引導合成系統學習到更恰當的停頓發音特點,尤其是針對中文這種極具韻律美的語言,用戶更希望能夠得到具有更自然的情感起伏、抑揚頓挫的語音。
發明內容
為了解決端到端中文語音合成中的長難句合成不穩定,音質發散、停頓韻律不自然的問題,本發明提供了一種中文語音合成方法,從用戶的個性化需求出發,在目前端到端合成模型的基礎上,提高音頻質量、速度;同時在單人和多人的應用場景下,探索一種聯合韻律預測任務和梅爾譜圖生成任務的多任務學習方法,使得合成音頻的停頓節奏感更自然,更貼近原始音頻,并能支持多人語音合成。
本發明提供了一種融合韻律和個人信息的中文語音合成方法,包括如下步驟:
步驟1:將輸入文本、輸入文本對應的拼音和輸入文本的詞法句法特征輸入層次化韻律預測模型,得到輸入文本的多層韻律信息;
步驟2:將輸入文本對應的拼音、聲調輸入到聲學模型,得到輸入文本對應的語音特征譜圖;
步驟3:將多層韻律信息引入聲學模型,將層次化韻律預測模型和聲學模型進行聯合形成新的聲學模型;
步步驟4:在新的聲學模型中引入說話人信息,形成個性化語音合成模型,支持多人個性化語音合成。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學(深圳),未經哈爾濱工業大學(深圳)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110667531.6/2.html,轉載請聲明來源鉆瓜專利網。





