[發明專利]一種基于微分聲門波模型的語音變調變嗓音方法有效
| 申請號: | 201810083797.4 | 申請日: | 2018-01-29 |
| 公開(公告)號: | CN108281150B | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 周林燦;申炎仃;黃昭鳴;孫海霞 | 申請(專利權)人: | 上海泰億格康復醫療科技股份有限公司 |
| 主分類號: | G10L19/04 | 分類號: | G10L19/04;G10L19/087;G10L19/18;G10L19/26;G10L21/013;G10L25/45 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 200438 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 微分 聲門 模型 語音 變調 嗓音 方法 | ||
1.一種基于微分聲門波模型的語音變調變嗓音方法,其特征在于,該方法具體包括以下步驟:
Step1:采集的語音信號記為S,采樣頻率記為fs,對S進行預處理,包括:去除直流分量、預濾波、預加重、歸一化一系列處理,得到預處理后的信號S1;其中預加重系數k1范圍為-1.0k1-0.90;預濾波器為帶通濾波器記為lvboqi1,主要參數為:通帶頻率范圍60Hz~2000Hz,阻帶范圍55Hz~3400Hz;
Step2:對S1加窗分幀后得S2;其中窗函數為矩形窗,分幀參數為:分段時長初步取tms,t范圍10~30,精確值為t×fs;幀長、幀移、幀疊分別記為wlen、inc、overlap,wlen=t×fs,inc=wlen×k2,k2范圍為1/5~1/2,幀疊overlap=wlen-inc,總幀數fn=fix((N-wlen)/inc)+1,其中N為信號的長度,fix為取整;
Step3:對S2逐幀進行靜音幀、清音幀和濁音幀的判別;判別步驟如下:
Step3.1:逐幀計算短時平均能量,記為ampi;
Step3.2:逐幀計算短時平均過零率,記為zcri;
Step3.3:設置短時平均能量較高的閾值ampth1和較低的閾值ampth2;
Step3.4:設置短時平均過零率的閾值zcrth;
Step3.5:短時平均能量和短時平均過零率雙門限法進行判別:當ampiampth1,該幀為濁音幀;當ampiampth2,該幀為靜音幀;當ampth2ampiampth1,若zcrizcrth,該幀為清音幀,若zcrizcrth,該幀為清音幀;
Step4:基音周期估計:提取基音頻率f0i和基音周期T0i,根據基音改變參數計算新的基音頻率Nf0i和基音周期NT0i,下標i=1~fn,fn為總幀數;基因周期的估計步驟如下:
Step4.1:將預處理后的信號S1通過帶通濾波器記為lvboqi2得S31,濾波器的主要通帶頻率范圍為60Hz~500Hz,阻帶范圍為20Hz~2000Hz,通帶波紋為x1dB,范圍1≦x1≦5,阻帶衰減為x2dB,30≦x2≦60;
Step4.2:對S31按wlen和inc加矩形窗分幀,得S32;
Step4.3:對S32中的濁音幀加漢明窗,用三電平削波法削波、互相關函數法求取基音周期T0i和基音頻率f0i;
Step4.4:對超出基頻范圍f0i記為0,對應的T0i記為0;處理后的T0i和f0i進行平滑處理得穩定的基音頻率Dfreq和基音周期Dpitch;
Step4.5:新的基音頻率Dfreqm=Dfreq×rate,基音周期Dpitchm=Dpitch/rate,其中rate指新的基音頻率是原基音頻率的倍數;
Step5:依據言語產生的源濾波器模型理論,通過線性預測分析技術和逆濾波技術來估計殘差信號ei和聲道模型參數;具體步驟如下:
Step5.1:對分幀后的語音信號S2加漢明窗得S21;
Step5.2:對S21逐幀估計聲道模型參數:先用1階LPC分析估計聲門脈沖對語音信號頻譜的傾斜效應,通過逆濾波得到消除傾斜效應后的信號S22,再對S22進行高階LPC分析,得到聲道傳遞系數ari和增益Gaini;
Step5.3:對殘差信號ei的估計:使S21通過ari構成的逆濾波器即得ei;
Step6:按照變調和變嗓音的要求逐幀合成新的激勵NGi:靜音幀的激勵按隨機噪聲合成,清音幀的激勵按高斯白噪聲合成,濁音幀的激勵按LF模型的積分函數即微分聲門波函數,改變同一時間內的基音周期個數來實現變調,改變微分聲門波模型中關于聲門開合速度的參數,實現嗓音模擬效果,在新的基音周期基礎上合成;合成步驟如下:
Step6.1:將ei通過濾波器lvboqi2,得微分聲門波信號LFi;
Step6.2:從LFi提取單周期信號LF0i
Step6.3:對LF0i進行數值積分得聲門波信號G0i;
Step6.4:計算聲門波模型函數表達式G;
微分聲門波模型函數表達式為當0tte,LF=E0×exp(-k1×t)×sin(wg×t),當tettc,LF=-Ee×(exp(-k2×(t-te)));則對微分聲門波模型函數積分可得微分聲門波模型函數表達式,即當0t≦te,G=-(E0×exp(-k1×t)×cos(t×wg))/t,當tet≦tc,G=(Ee×exp(-k2×(t-te)))/k2+C;其中,C為常數使得函數圖像在te處連續;E0為G0i的正的最大值;Ee為G0i的負的最大值的絕對值;wg=pi/tp;te為Ee對應的時刻;tp為微分聲門波為0的時刻;tc=Dpitchmi/fs;k1=|real(log(Ee/(E0×sin(wg×te))))/te)|,real為取實部;k2=abs(Ee×(wg^2+k1^2)/(E0×(exp(k1×te)×(k1×sin(wg×te)-wg×cos(wg×te))+wg)));
Step6.5:運用微分聲門波模型對G0i擬合,得到擬合的聲門激勵信號GGi;
Step6.6:對GGi變調處理得到基音頻率改變的激勵信號;
Step6.7:考慮到激勵幀與幀間的連續性,引入一變量np,初始值為0,第i幀的激勵序列記為Ei(1:wlen),有效序列即與下一幀不重疊的序列為Ei(1:inc),單個周期聲門脈沖序列長度為n0,np為不足一周期的長度,下一幀激勵應接在np后,故下一幀激勵序列為Ei+1(np+1:np+wlen),有效序列為Ei+1(np+1:np+inc);為方便合成,幀激勵取Ei(np+1:np+wlen),合成語音幀通過疊加得到相位連續的語音信號;
Step7:將新的激勵NGi通過聲道模型系統函數構成的濾波器,合成各幀語音s0i;
Step8:對各幀語音信號s0i疊加,得到相位連續的、變調變嗓音合成語音SS。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海泰億格康復醫療科技股份有限公司,未經上海泰億格康復醫療科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810083797.4/1.html,轉載請聲明來源鉆瓜專利網。





