[發(fā)明專利]基于Mel-KSVD稀疏表示的自適應(yīng)內(nèi)插加權(quán)譜模型的語音轉(zhuǎn)換及重構(gòu)方法有效
| 申請?zhí)枺?/td> | 201310211046.3 | 申請日: | 2013-05-29 |
| 公開(公告)號: | CN103345920A | 公開(公告)日: | 2013-10-09 |
| 發(fā)明(設(shè)計)人: | 湯一彬;沈媛;朱昌平;周浩;高遠(yuǎn);單鳴雷;姚澄 | 申請(專利權(quán))人: | 河海大學(xué)常州校區(qū) |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L21/047 |
| 代理公司: | 南京縱橫知識產(chǎn)權(quán)代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 213022 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 mel ksvd 稀疏 表示 自適應(yīng) 內(nèi)插 加權(quán) 模型 語音 轉(zhuǎn)換 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于語音信號處理領(lǐng)域,涉及一種語音轉(zhuǎn)換和重構(gòu)模型,特別涉及一種基于Mel-KSVD稀疏表示的自適應(yīng)內(nèi)插加權(quán)譜模型的語音轉(zhuǎn)換及重構(gòu)方法。?
背景技術(shù)
語音參數(shù)化和重構(gòu)是一個重要且具有一定挑戰(zhàn)性的問題,其對應(yīng)的語音分析-合成系統(tǒng)被廣泛用于各種領(lǐng)域,如語音編碼、轉(zhuǎn)換等。?
在H.Kawahara等人在1999年4月發(fā)表的“基于自適應(yīng)內(nèi)插加權(quán)譜模型的語音轉(zhuǎn)換及重構(gòu)方法”文獻(xiàn)中表明,基于自適應(yīng)內(nèi)插加權(quán)譜的語音轉(zhuǎn)換及重構(gòu)模型,拋棄了傳統(tǒng)語音模型中聲門、聲道的構(gòu)造,直接提取語音的功率譜,獲得了高質(zhì)量的語音合成效果。其逐漸成為目前主流的語音分析合成模型,廣泛應(yīng)用在語音合成、語音轉(zhuǎn)換等各方面。其采用以VOCODER為原型的源濾波器的思想來表征語音信號,把語音信號看作激勵信號通過時變線性濾波器后輸出的結(jié)果。在分析得到各幀的語音功率譜后,對該功率譜進(jìn)行時頻域上的平滑處理,同時在時間軸和頻率軸上進(jìn)行過采樣,保證合成階段對語音的高質(zhì)量重構(gòu)。?
近幾年來,稀疏表示理論得到了很快的發(fā)展,并應(yīng)用于諸多領(lǐng)域,如:圖像降噪、盲源分離、語音增強(qiáng)等。上述的應(yīng)用都是為了獲得稀?疏域的相關(guān)稀疏系數(shù),來表征語音信號的內(nèi)在特征。STRAIGHT模型本身也存在一些缺陷。經(jīng)過STRAIGHT模型提取出的平滑功率譜包絡(luò)參數(shù)具有相當(dāng)?shù)娜哂嘈畔ⅲ撃P椭档酶M(jìn)一步的完善。但是,學(xué)者們很少關(guān)注STRAIGHT模型的改進(jìn),因此,如何將STRAIGHT模型與稀疏表示理論相結(jié)合,進(jìn)一步壓縮模型參數(shù),成為制約該模型進(jìn)一步應(yīng)用和發(fā)展的一個重要問題。?
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述問題,提供一種基于Mel-KSVD稀疏表示的自適應(yīng)內(nèi)插加權(quán)譜模型的語音轉(zhuǎn)換及重構(gòu)方法,實現(xiàn)在保持合成語音質(zhì)量基本不變的同時,將STRAIGHT模型與稀疏表示理論相結(jié)合,使模型輸出參數(shù)得到進(jìn)一步的壓縮,減少參數(shù)的傳遞的個數(shù),減小STRAIGHT模型計算量,從而提高語音的合成質(zhì)量。?
本發(fā)明的技術(shù)方案從以下方面考慮:STRAIGHT模型是一種基于功率譜的語音模型。其平滑功率譜參數(shù)為一種經(jīng)過時頻域補(bǔ)償后的功率譜,具有一定的冗余信息。因此可通過Mel-KSVD的方法壓縮模型的輸出參數(shù),對其進(jìn)行稀疏表示,根據(jù)得到的稀疏系數(shù)合成語音并最終達(dá)到減少參數(shù)的傳遞的個數(shù),減小STRAIGHT模型計算量的目的。?
本發(fā)明的技術(shù)方案如下:?
基于Mel-KSVD稀疏表示的自適應(yīng)內(nèi)插加權(quán)譜模型的語音轉(zhuǎn)換及重構(gòu)方法,其特征在于,利用Mel-KSVD的方法對經(jīng)過STRAIGHT分析模型提取的平滑功率譜參數(shù)進(jìn)行稀疏表示,包含以下步驟:?
(1)輸入待合成語音信號,將語音信號通過STRAIGHT分析模型?提取平滑譜:首先采用時頻補(bǔ)償法提取功率譜,接著再對功率譜進(jìn)行低頻帶補(bǔ)償和過平滑補(bǔ)償,最后對功率譜的無音幀進(jìn)行處理,以得到平滑功率譜,平滑功率譜的參數(shù)構(gòu)成一數(shù)據(jù)矩陣,設(shè)為Y=[y1,...,yM];?
(2)提取出的平滑功率譜參數(shù)通過美爾濾波器后進(jìn)行字典的訓(xùn)練,再利用Mel-KSVD算法對式:約束條件為?進(jìn)行參數(shù)D和X的優(yōu)化求解,?
其中M為美爾濾波器組的系數(shù)矩陣,Y=[y1,...,yM]表示功率譜參數(shù)矩陣,D=[d1,...,dK]為目標(biāo)訓(xùn)練字典,di表示字典的一個原子,xk為yk在D上投影的稀疏矢量,X=[x1,...,xM],||·||F為Frobenius范數(shù),||·||0為0范數(shù);?
(3)利用優(yōu)化出的目標(biāo)訓(xùn)練字典和通過美爾濾波器和Mel-KSVD算法對STRAIGHT分析模型得到的待合成語音的平滑譜參數(shù)進(jìn)行稀疏表示得到的稀疏矢量xk,并將得到的稀疏系數(shù)矩陣X=[x1,...,xM]通過STRAIGHT合成模型進(jìn)行語音的合成;通過對功率譜參數(shù)矩陣進(jìn)行估計來進(jìn)行語音的合成,估計矩陣為求解公式為k=1,2,...,M。?
進(jìn)一步的技術(shù)方案包括:?
步驟(2)所述的算法對式約束條件為?進(jìn)行D和X的優(yōu)化求解,按如下步驟進(jìn)行:?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河海大學(xué)常州校區(qū),未經(jīng)河海大學(xué)常州校區(qū)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310211046.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
- 包含生物表面活性劑的皮膚護(hù)理化妝料和皮膚粗糙改善劑
- 一種語音信號的MFCC系數(shù)提取方法、裝置及一種Mel濾波方法
- MFCC特征的提取方法及裝置
- 一種用于語音識別系統(tǒng)的中心子帶模型自適應(yīng)方法
- 面向哭聲檢測系統(tǒng)的Mel能量聲紋特征提取方法
- Fe(II)置換MEL型沸石及包含其的氣體吸附劑
- 一種雙金屬MEL分子篩及其制備方法和應(yīng)用
- 一種類神經(jīng)酰胺發(fā)酵提取物的檢測方法及其應(yīng)用
- 車輛外后視鏡鏡片調(diào)節(jié)電機(jī)噪音檢測方法、系統(tǒng)及介質(zhì)
- 共表達(dá)Apoptin與MEL基因的重組腺病毒及構(gòu)建方法和應(yīng)用
- 基于區(qū)域劃分和字典學(xué)習(xí)的自然圖像去噪方法
- 基于Mel-KSVD稀疏表示的自適應(yīng)內(nèi)插加權(quán)譜模型的語音轉(zhuǎn)換及重構(gòu)方法
- 基于KSVD訓(xùn)練字典的SAR圖像混合模型擬合方法
- 一種基于噪聲預(yù)測的圖像去噪方法
- 基于KSVD的多描述編碼、解碼方法及系統(tǒng)
- 一種基于標(biāo)簽一致字典學(xué)習(xí)的雷達(dá)目標(biāo)識別方法
- 一種基于KSVD字典學(xué)習(xí)的滾動軸承故障特征提取方法
- 基于ERT系統(tǒng)的重建圖像質(zhì)量評價方法
- 基于改進(jìn)KSVD算法的表面肌電信號壓縮重構(gòu)方法
- 基于快速正交字典的稀疏表征正則化疊前AVO反演方法





