[發明專利]一種語音合成的方法、裝置及電子設備有效
| 申請號: | 201610849422.5 | 申請日: | 2016-09-23 |
| 公開(公告)號: | CN107871494B | 公開(公告)日: | 2020-12-11 |
| 發明(設計)人: | 宋陽 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G10L13/04 | 分類號: | G10L13/04;G10L13/08 |
| 代理公司: | 北京華沛德權律師事務所 11302 | 代理人: | 馬苗苗 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 合成 方法 裝置 電子設備 | ||
本發明公開了一種語音合成的方法、裝置及電子設備,該語音合成的方法包括:從固定成分文本的錄音中提取固定成分文本音頻的基頻參數和幅度參數;根據所述幅度參數進行音頻壓限和濾波處理,獲得固定成分文本音頻的頻譜參數;在合成語音時,基于待合成語音中的固定成分文本的基頻參數和頻譜參數合成語音。在上述技術方案中,通過音頻壓限和濾波處理使音頻達到幅度更均衡及音頻協調一致的效果,使得頻譜參數達到與純參數合成語音(非固定成分文本)的音色一致,再基于此固定成分文本的基頻參數和頻譜參數合成語音,其固定成分文本的音色與非固定成分文本一致,解決了現有技術中參數語音合成音色不一致的技術問題。
技術領域
本發明涉及語音信號處理技術領域,特別涉及一種語音合成的方法、裝置及電子設備。
背景技術
參數語音合成,是目前一種主流的語音合成技術。參數語音合成占用空間少、運算實時性高,在智能終端、嵌入式設備上廣泛的應用前景。
參數語音時由合成文本完成,合成文本通常由固定不變成分(即固定成分文本)及可變參數成分(即非固定成分文本)構成。現有技術中,語音合成時將固定成分文本通過預先錄制自然語音的方式獲取部分語音片斷,對可變成分文本執行語音合成得到另一語音片斷,然后將兩斷語音片斷信號拼接獲取到最后的連續語音信號。由于,自然語音和電子設備合成的合成語音之間音色存在較大差異,導致固定成分文本采用自然語音、非固定成分文本采用合成語音進行拼接合成的語音存在音色不一致的問題。
可見,現有技術中參數語音合成存在音色不一致的技術問題。
發明內容
本發明實施例提供一種語音合成的方法、裝置及電子設備,用于解決現有技術中參數語音合成存在音色不一致的技術問題。
本申請實施例提供一種語音合成的方法,所述方法包括:
從固定成分文本的錄音中提取固定成分文本音頻的基頻參數和幅度參數;
根據所述幅度參數進行音頻壓限和濾波處理,獲得固定成分文本音頻的頻譜參數;
在合成語音時,基于待合成語音中的固定成分文本的基頻參數和頻譜參數合成語音。
可選的,所述根據所述幅度參數進行音頻壓限和濾波處理,獲得固定成分文本音頻的頻譜參數,包括:
針對所述幅度參數進行歸一化處理,并將歸一化處理后的參數轉換為分貝值序列;
針對所述分貝值序列進行音頻壓限處理;
對音頻壓限處理后的音頻幅度進行幅度反歸一化獲得處理后的幅度參數;
根據所述處理后的幅度參數進行濾波處理獲得所述頻譜參數。
可選的,所述針對所述幅度參數進行歸一化處理,包括:根據如下公式對所述幅度參數進行歸一化處理,并獲得歸一處理后的參數y1:
其中,scale表示歸一化系數,y表示所述幅度參數,n表示所述固定成分文本音頻的量化位數。
可選的,所述將歸一化處理后的參數轉換為分貝值序列,包括:
根據如下公式將所述歸一化處理后的參數中的每一個點x1轉換成對應的分貝值y2:
y2=20*log10(abs(x1))
由所有的y2構成所述分貝值序列。
可選的,所述針對所述分貝值序列進行音頻壓限處理,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610849422.5/2.html,轉載請聲明來源鉆瓜專利網。





