[發明專利]一種語音合成的方法、裝置及電子設備有效
| 申請號: | 201610849422.5 | 申請日: | 2016-09-23 |
| 公開(公告)號: | CN107871494B | 公開(公告)日: | 2020-12-11 |
| 發明(設計)人: | 宋陽 | 申請(專利權)人: | 北京搜狗科技發展有限公司 |
| 主分類號: | G10L13/04 | 分類號: | G10L13/04;G10L13/08 |
| 代理公司: | 北京華沛德權律師事務所 11302 | 代理人: | 馬苗苗 |
| 地址: | 100084 北京市海淀區中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 合成 方法 裝置 電子設備 | ||
1.一種語音合成的方法,其特征在于,所述方法包括:
從固定成分文本的錄音中提取固定成分文本音頻的基頻參數和幅度參數;
根據所述幅度參數進行音頻壓限和濾波處理,獲得固定成分文本音頻的頻譜參數;
在合成語音時,基于待合成語音中的固定成分文本的基頻參數和頻譜參數合成語音。
2.如權利要求1所述的方法,其特征在于,所述根據所述幅度參數進行音頻壓限和濾波處理,獲得固定成分文本音頻的頻譜參數,包括:
針對所述幅度參數進行歸一化處理,并將歸一化處理后的參數轉換為分貝值序列;
針對所述分貝值序列進行音頻壓限處理;
對音頻壓限處理后的音頻幅度進行幅度反歸一化獲得處理后的幅度參數;
根據所述處理后的幅度參數進行濾波處理獲得所述頻譜參數。
3.如權利要求2所述的方法,其特征在于,所述針對所述幅度參數進行歸一化處理,包括:
根據如下公式對所述幅度參數進行歸一化處理,并獲得歸一處理后的參數y1:
其中,scale表示歸一化系數,y表示所述幅度參數,n表示所述固定成分文本音頻的量化位數。
4.如權利要求2所述的方法,其特征在于,所述將歸一化處理后的參數轉換為分貝值序列,包括:
根據如下公式將所述歸一化處理后的參數中的每一個點x1轉換成對應的分貝值y2:
y2=20*log10(abs(x1))
由所有的y2構成所述分貝值序列。
5.如權利要求2所述的方法,其特征在于,所述針對所述分貝值序列進行音頻壓限處理,包括:
通過如下公式對所述分貝值序列中的每一個分貝值進行處理:
其中,ratio表示壓限比例,0ratio1,border表示壓限的邊界值,y2表示所述分值序列中的一個分貝值,y3表示壓限獲得的目標分貝值。
6.如權利要求2所述的方法,其特征在于,所述對音頻壓限處理后的目標分貝值進行幅度反歸一化獲得處理后的幅度參數,包括:
其中,scale表示歸一化系數,y3表示壓限獲得的目標分貝值,y4表示反歸一化獲得的幅度參數中的一個參數,n表示所述固定成分文本音頻的量化位數。
7.如權利要求2所述的方法,其特征在于,所述根據所述處理后的幅度參數進行濾波處理獲得所述頻譜參數,包括:
對所述處理后的幅度參數進行頻譜包絡參數的提取,并對提取的頻譜包絡參數進行濾波操作;
對濾波后的頻譜包絡參數進行梅爾倒譜或者線譜對參數的提取;
將提取的所述梅爾倒譜或者線譜對參數作為所述頻譜參數。
8.如權利要求1~7任一所述的方法,其特征在于,所述在合成語音時,基于待合成語音中的固定成分文本的基頻參數和頻譜參數合成語音之后,所述方法還包括:
采用如下公式對合成的語音的音頻序列的每一個點進行規整處理:
其中,ytts表示預設音頻序列,Ynat表示合成的語音的音頻序列,y′nat表示規整處理后的音頻序列中的每一個點,ynat表示規整處理前的音頻序列中的每一個點。
9.一種語音合成的裝置,其特征在于,包括:
提取單元,用于從固定成分文本的錄音中提取固定成分文本音頻的基頻參數和幅度參數;
頻譜獲取單元,用于根據所述幅度參數進行音頻壓限和濾波處理,獲得固定成分文本音頻的頻譜參數;
合成單元,用于在合成語音時,基于待合成語音中的固定成分文本的基頻參數和頻譜參數合成語音。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發展有限公司,未經北京搜狗科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610849422.5/1.html,轉載請聲明來源鉆瓜專利網。





