[發(fā)明專利]一種基于微分聲門波模型的語音變調(diào)變嗓音方法有效
| 申請?zhí)枺?/td> | 201810083797.4 | 申請日: | 2018-01-29 |
| 公開(公告)號: | CN108281150B | 公開(公告)日: | 2020-11-17 |
| 發(fā)明(設(shè)計(jì))人: | 周林燦;申炎仃;黃昭鳴;孫海霞 | 申請(專利權(quán))人: | 上海泰億格康復(fù)醫(yī)療科技股份有限公司 |
| 主分類號: | G10L19/04 | 分類號: | G10L19/04;G10L19/087;G10L19/18;G10L19/26;G10L21/013;G10L25/45 |
| 代理公司: | 杭州君度專利代理事務(wù)所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 200438 上海市*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 微分 聲門 模型 語音 變調(diào) 嗓音 方法 | ||
本發(fā)明公開了一種基于微分聲門波模型的語音變調(diào)變嗓音方法,本發(fā)明采用線性預(yù)測編碼技術(shù)和微分聲門波相結(jié)合的方法合成變調(diào)語音,將語音信號通過LPC逆濾波器得到的殘差信號即為聲門信號的一階差分,用LF模型對其進(jìn)行更細(xì)致的模擬得到高質(zhì)量的聲門激勵信號,從而合成高質(zhì)量的變調(diào)語音。本發(fā)明簡單、有效、快速,通過te/tc和tp/tc能靈活控制嗓音源,具有廣泛的實(shí)用價(jià)值。
技術(shù)領(lǐng)域
本發(fā)明屬于語音合成技術(shù)領(lǐng)域,涉及一種語音變調(diào)方法,尤其是涉及一種基于微分聲門波模型的語音變調(diào)、變嗓音方法。
背景技術(shù)
隨著信息技術(shù)的發(fā)展,傳統(tǒng)的音視頻素材已無法滿足人們的需求,融合語言學(xué)、信號處理技術(shù)、計(jì)算機(jī)科學(xué)等多領(lǐng)域的語音合成技術(shù)應(yīng)運(yùn)而生。其中的語音變調(diào)不變速技術(shù)具有廣闊的應(yīng)用市場,如保護(hù)說話人隱私,提供某種娛樂效果,幫助語言功能不完善或受損的患者進(jìn)行語音恢復(fù),用作如語音郵件、廣播電臺變聲熱線、多媒體音效處理、軍事保密通信等,可廣泛應(yīng)用于民用,商用,醫(yī)用和軍用等多個領(lǐng)域。
語音變調(diào)不變速指改變語音基音頻率的大小,同時(shí)保持語速和語義不變,即保持短時(shí)頻譜包絡(luò)和時(shí)間過程基本不變。語音變調(diào)不變速算法中,基于線性預(yù)測的方法具有簡單、完全自動的分析步驟,合成器結(jié)構(gòu)簡單,硬件實(shí)現(xiàn)容易等優(yōu)點(diǎn),但嗓音源序列采用簡單的脈沖和噪聲激勵模型,合成語音有嚴(yán)重的機(jī)器聲和噪聲。對嗓音源序列建模擬合生成更為細(xì)致精確的嗓音源序列以合成高質(zhì)量的語音,是近年來的研究熱點(diǎn)及難點(diǎn)。
申請?zhí)枮?00810222508.0的中國專利公開了一種語音變調(diào)方法及裝置,能夠?qū)崿F(xiàn)語音的自適應(yīng)變調(diào)。但用戶人群不同,需求也不同,由于該種變調(diào)方式無法通過手工設(shè)置升降調(diào)的幅度,因此不適應(yīng)于希望按照自己的需求來固定地改變音調(diào)的用戶。申請?zhí)枮?01610573399.1的中國專利公開了一種穩(wěn)定音色的音樂語音變調(diào)方法,通過語音信號的倒譜序列導(dǎo)出頻譜包絡(luò),從中分離出語音信號的激勵分量,再計(jì)算經(jīng)變調(diào)處理后的激勵分量,并與頻譜包絡(luò)重新合成音調(diào)改變但音色穩(wěn)定的音樂語音信號。該方法同樣無法實(shí)現(xiàn)對嗓音源的靈活控制。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)的不足,提出了一種基于微分聲門波模型的語音變調(diào)變嗓音方法。
本發(fā)明采用線性預(yù)測編碼(LPC)技術(shù)和微分聲門波(LF)相結(jié)合的方法合成變調(diào)語音,將語音信號通過LPC逆濾波器得到的殘差信號即為聲門信號的一階差分,用LF模型對其進(jìn)行更細(xì)致的模擬得到高質(zhì)量的聲門激勵信號,從而合成高質(zhì)量的變調(diào)語音。LPC是目前最簡單、最重要、最有效、最流行的語音分析技術(shù)之一,普遍應(yīng)用于語音信號處理的各個方面,具有低速率傳輸和儲存語音、計(jì)算簡單快速,能夠極為精確地估計(jì)語音參數(shù)等優(yōu)點(diǎn)。LF模型通過對嗓音源參數(shù)的靈活控制,可以合成不同音色的語音,且模型參數(shù)具有明確的物理意義,屬發(fā)音器官合成語音法范疇,是語音合成技術(shù)發(fā)展的潮流之一。
本發(fā)明的目的就是提供一種更為簡單、有效、快速的、能夠靈活改變嗓音源參數(shù)的語音變調(diào)、變嗓音的方法。本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn):一種基于微分聲門波模型的語音變調(diào)變嗓音方法,該方法包括:
Step1:數(shù)字語音信號記為S,采樣頻率記為fs,對S進(jìn)行預(yù)處理,包括:去除直流分量、預(yù)濾波、預(yù)加重、歸一化一系列處理,得到預(yù)處理后的信號S1;其中預(yù)加重系數(shù)k1范圍為-1.0k1-0.90;預(yù)濾波器為帶通濾波器記為lvboqi1,通帶頻率范圍60Hz~2000Hz,阻帶范圍55Hz~3400Hz;
Step2:對S1加窗分幀后得S2;
窗函數(shù)為矩形窗,分幀參數(shù)為:分段時(shí)長初步取tms,t范圍10~30,精確值為t×fs左右2的整次冪;幀長、幀移、幀疊分別記為wlen、inc、overlap,wlen=t×fs左右2的整次冪,inc=wlen×k2,k2范圍為1/5~1/2,幀疊overlap=wlen-inc,總幀數(shù)fn=fix((N-wlen)/inc)+1,其中N為信號的長度,fix為取整;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海泰億格康復(fù)醫(yī)療科技股份有限公司,未經(jīng)上海泰億格康復(fù)醫(yī)療科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810083797.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





