[發明專利]一種基于微分聲門波模型的語音變調變嗓音方法有效

申請號：	201810083797.4	申請日：	2018-01-29
公開（公告）號：	CN108281150B	公開（公告）日：	2020-11-17
發明（設計）人：	周林燦;申炎仃;黃昭鳴;孫海霞	申請（專利權）人：	上海泰億格康復醫療科技股份有限公司
主分類號：	G10L19/04	分類號：	G10L19/04;G10L19/087;G10L19/18;G10L19/26;G10L21/013;G10L25/45
代理公司：	杭州君度專利代理事務所(特殊普通合伙) 33240	代理人：	朱月芬
地址：	200438 上海市***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于微分聲門模型語音變調嗓音方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于微分聲門波模型的語音變調變嗓音方法，其特征在于，該方法具體包括以下步驟：

Step1：采集的語音信號記為S，采樣頻率記為fs，對S進行預處理，包括：去除直流分量、預濾波、預加重、歸一化一系列處理，得到預處理后的信號S1；其中預加重系數k1范圍為-1.0k1-0.90；預濾波器為帶通濾波器記為lvboqi1，主要參數為：通帶頻率范圍60Hz～2000Hz，阻帶范圍55Hz～3400Hz；

Step2：對S1加窗分幀后得S2；其中窗函數為矩形窗，分幀參數為：分段時長初步取tms，t范圍10～30，精確值為t×fs；幀長、幀移、幀疊分別記為wlen、inc、overlap，wlen＝t×fs，inc＝wlen×k2，k2范圍為1/5～1/2，幀疊overlap＝wlen-inc，總幀數fn＝fix((N-wlen)/inc)+1，其中N為信號的長度，fix為取整；

Step3：對S2逐幀進行靜音幀、清音幀和濁音幀的判別；判別步驟如下：

Step3.1：逐幀計算短時平均能量，記為amp_i；

Step3.2：逐幀計算短時平均過零率，記為zcr_i；

Step3.3：設置短時平均能量較高的閾值ampth1和較低的閾值ampth2；

Step3.4：設置短時平均過零率的閾值zcrth；

Step3.5：短時平均能量和短時平均過零率雙門限法進行判別：當amp_iampth1，該幀為濁音幀；當amp_iampth2，該幀為靜音幀；當ampth2amp_iampth1，若zcr_izcrth，該幀為清音幀，若zcr_izcrth，該幀為清音幀；

Step4：基音周期估計：提取基音頻率f0_i和基音周期T0_i，根據基音改變參數計算新的基音頻率Nf0_i和基音周期NT0_i，下標i＝1～fn，fn為總幀數；基因周期的估計步驟如下：

Step4.1：將預處理后的信號S1通過帶通濾波器記為lvboqi2得S31，濾波器的主要通帶頻率范圍為60Hz～500Hz，阻帶范圍為20Hz～2000Hz，通帶波紋為x1dB，范圍1≦x1≦5，阻帶衰減為x2dB，30≦x2≦60；

Step4.2：對S31按wlen和inc加矩形窗分幀，得S32；

Step4.3：對S32中的濁音幀加漢明窗，用三電平削波法削波、互相關函數法求取基音周期T0_i和基音頻率f0_i；

Step4.4：對超出基頻范圍f0_i記為0，對應的T0_i記為0；處理后的T0_i和f0_i進行平滑處理得穩定的基音頻率Dfreq和基音周期Dpitch；

Step4.5：新的基音頻率Dfreqm＝Dfreq×rate，基音周期Dpitchm＝Dpitch/rate，其中rate指新的基音頻率是原基音頻率的倍數；

Step5：依據言語產生的源濾波器模型理論，通過線性預測分析技術和逆濾波技術來估計殘差信號e_i和聲道模型參數；具體步驟如下：

Step5.1：對分幀后的語音信號S2加漢明窗得S21；

Step5.2：對S21逐幀估計聲道模型參數：先用1階LPC分析估計聲門脈沖對語音信號頻譜的傾斜效應，通過逆濾波得到消除傾斜效應后的信號S22，再對S22進行高階LPC分析，得到聲道傳遞系數ar_i和增益Gain_i；

Step5.3：對殘差信號e_i的估計：使S21通過ar_i構成的逆濾波器即得e_i；

Step6：按照變調和變嗓音的要求逐幀合成新的激勵NG_i：靜音幀的激勵按隨機噪聲合成，清音幀的激勵按高斯白噪聲合成，濁音幀的激勵按LF模型的積分函數即微分聲門波函數，改變同一時間內的基音周期個數來實現變調，改變微分聲門波模型中關于聲門開合速度的參數，實現嗓音模擬效果，在新的基音周期基礎上合成；合成步驟如下：

Step6.1：將e_i通過濾波器lvboqi2，得微分聲門波信號LF_i；

Step6.2：從LF_i提取單周期信號LF0_i

Step6.3：對LF0_i進行數值積分得聲門波信號G0_i；

Step6.4：計算聲門波模型函數表達式G；

微分聲門波模型函數表達式為當0tte，LF＝E0×exp(-k1×t)×sin(wg×t)，當tettc，LF＝-Ee×(exp(-k2×(t-te)))；則對微分聲門波模型函數積分可得微分聲門波模型函數表達式，即當0t≦te，G＝-(E0×exp(-k1×t)×cos(t×wg))/t，當tet≦tc，G＝(Ee×exp(-k2×(t-te)))/k2+C；其中，C為常數使得函數圖像在te處連續；E0為G0_i的正的最大值；Ee為G0_i的負的最大值的絕對值；wg＝pi/tp；te為Ee對應的時刻；tp為微分聲門波為0的時刻；tc＝Dpitchm_i/fs；k1＝|real(log(Ee/(E0×sin(wg×te))))/te)|，real為取實部；k2＝abs(Ee×(wg^2+k1^2)/(E0×(exp(k1×te)×(k1×sin(wg×te)-wg×cos(wg×te))+wg)))；

Step6.5：運用微分聲門波模型對G0_i擬合，得到擬合的聲門激勵信號GG_i；

Step6.6：對GG_i變調處理得到基音頻率改變的激勵信號；

Step6.7：考慮到激勵幀與幀間的連續性，引入一變量np，初始值為0，第i幀的激勵序列記為E_i(1：wlen)，有效序列即與下一幀不重疊的序列為E_i(1：inc)，單個周期聲門脈沖序列長度為n0，np為不足一周期的長度，下一幀激勵應接在np后，故下一幀激勵序列為E_i+1(np+1：np+wlen)，有效序列為E_i+1(np+1：np+inc)；為方便合成，幀激勵取E_i(np+1：np+wlen)，合成語音幀通過疊加得到相位連續的語音信號；

Step7：將新的激勵NG_i通過聲道模型系統函數構成的濾波器，合成各幀語音s0_i；

Step8：對各幀語音信號s0_i疊加，得到相位連續的、變調變嗓音合成語音SS。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于上海泰億格康復醫療科技股份有限公司，未經上海泰億格康復醫療科技股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201810083797.4/1.html，轉載請聲明來源鉆瓜專利網。