[發(fā)明專利]基于自組織特征映射網(wǎng)絡(luò)聚類和徑向基網(wǎng)絡(luò)的語(yǔ)音轉(zhuǎn)換法無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 201210038874.7 | 申請(qǐng)日: | 2012-02-21 |
| 公開(kāi)(公告)號(hào): | CN102568476A | 公開(kāi)(公告)日: | 2012-07-11 |
| 發(fā)明(設(shè)計(jì))人: | 解偉超;張玲華 | 申請(qǐng)(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號(hào): | G10L15/02 | 分類號(hào): | G10L15/02;G10L15/26;G10L19/02 |
| 代理公司: | 南京經(jīng)緯專利商標(biāo)代理有限公司 32200 | 代理人: | 艾中蘭 |
| 地址: | 210003 *** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 組織 特征 映射 網(wǎng)絡(luò) 徑向 語(yǔ)音 轉(zhuǎn)換法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音轉(zhuǎn)換技術(shù),特別涉及基于自組織特征映射網(wǎng)絡(luò)聚類和徑向基網(wǎng)絡(luò)的語(yǔ)音轉(zhuǎn)換方法,屬于語(yǔ)音信號(hào)處理技術(shù)領(lǐng)域。
背景技術(shù)
語(yǔ)音轉(zhuǎn)換是語(yǔ)音信號(hào)處理領(lǐng)域近年來(lái)新興的研究分支,是在說(shuō)話人識(shí)別和語(yǔ)音合成的研究基礎(chǔ)上進(jìn)行的,同時(shí)也是這兩個(gè)分支內(nèi)涵的豐富和延拓,但是又不完全隸屬于說(shuō)話人識(shí)別和語(yǔ)音合成的范疇。
語(yǔ)音轉(zhuǎn)換的目標(biāo)是在保證其中的語(yǔ)義信息保持不變的條件下,改變?cè)凑f(shuō)話人語(yǔ)音中的個(gè)性特征信息,使之具有目標(biāo)說(shuō)話人的個(gè)性特征,從而使轉(zhuǎn)換后的語(yǔ)音聽(tīng)起來(lái)就像是目標(biāo)說(shuō)話人的聲音。
語(yǔ)音轉(zhuǎn)換的實(shí)現(xiàn)可以分為訓(xùn)練階段和轉(zhuǎn)換階段。在訓(xùn)練階段,系統(tǒng)對(duì)源說(shuō)話人和目標(biāo)說(shuō)話人進(jìn)行訓(xùn)練,分析他們的參數(shù),建立轉(zhuǎn)換規(guī)則。在轉(zhuǎn)換階段,先對(duì)源語(yǔ)音進(jìn)行分析并提取語(yǔ)音特征,再根據(jù)由訓(xùn)練階段得到的語(yǔ)音轉(zhuǎn)換規(guī)則進(jìn)行轉(zhuǎn)換得到目標(biāo)語(yǔ)音特征。
語(yǔ)音轉(zhuǎn)換的關(guān)鍵問(wèn)題在于說(shuō)話人個(gè)性特征的提取以及轉(zhuǎn)換規(guī)則的建立,經(jīng)過(guò)近二十年的發(fā)展,涌現(xiàn)出大量的研究成果,目前對(duì)語(yǔ)音特征參數(shù)的研究主要包括頻譜包絡(luò)參數(shù)和基音頻率。語(yǔ)音轉(zhuǎn)換中目前對(duì)頻譜包絡(luò)參數(shù)的轉(zhuǎn)換方法有基于線性預(yù)測(cè)編碼模型(Linear?Prediction?Coding,LPC),高斯混合模型(Gaussian?Mixture?Model,GMM),諧波加噪聲模型(Harmonic?plus?Noise?Model,HNM)等,但是這些方法在建立轉(zhuǎn)換規(guī)則時(shí)直接將提取參數(shù)進(jìn)行訓(xùn)練,建立起統(tǒng)一的一個(gè)轉(zhuǎn)換規(guī)則,這樣由于語(yǔ)音信號(hào)的時(shí)變和非平穩(wěn)特性,而且訓(xùn)練數(shù)據(jù)數(shù)量的巨大,使得唯一的一個(gè)轉(zhuǎn)換規(guī)則不能準(zhǔn)確的描述源語(yǔ)音的特征參數(shù)與目標(biāo)語(yǔ)音的特征參數(shù)之間的映射關(guān)系,必然引起失真;(1、Zad-Issa,M.R,Kabal,P.Smoothing?the?Evolution?ofthe?Spectral?Parameters?in?Linear?Prediction?of?Speech?using?Target?Matching.ICASSP,1997:vol.3,1699-1702.2、Daojian?Zeng,Yibiao?Yu.Voice?Conversion?using?structrued?Gaussian?Mixture?Model.ICSP,2010:541-544.3、Hu?H.T,Yu?C,Lin?C.H.HNM?parameter?transform?for?voice?conversion?using?a?HMM-WDLT?framework.ICIMA,2010:vol.2,282-287.)語(yǔ)音轉(zhuǎn)換中目前對(duì)基音頻率的轉(zhuǎn)換方法有均值轉(zhuǎn)換法、高斯模型法等,但是這些轉(zhuǎn)換方法都是將頻譜包絡(luò)參數(shù)與基音頻率分開(kāi)進(jìn)行轉(zhuǎn)換,兩者轉(zhuǎn)換之間沒(méi)有聯(lián)系,但是頻譜包絡(luò)參數(shù)與基音頻率都來(lái)自與同一語(yǔ)音信號(hào),越來(lái)越多的研究表明兩者之間有著密切的聯(lián)系,因此傳統(tǒng)的分別對(duì)以上兩種參數(shù)進(jìn)行轉(zhuǎn)換的方法會(huì)必然影響合成語(yǔ)音的質(zhì)量。(1、Lee?K.S,Doh?W,Youn?D.H?Voice?conversion?using?low?dimensional?vector?mapping.IEICE?Transaction?Information&System,2002,E85(D):1297-1305.2、L.M.Arslan.Speaker?Transformation?Algorithm?using?Segmental?Codebooks(STASC).Speech?Communication,Jul.1999:vol.28,no.3,pp.211-226.)
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種結(jié)合語(yǔ)音時(shí)域特點(diǎn)和說(shuō)話人個(gè)性特征在平行文本的條件下的語(yǔ)音轉(zhuǎn)換方法,得到一種更加準(zhǔn)確的轉(zhuǎn)換規(guī)則,使得轉(zhuǎn)換語(yǔ)音中的說(shuō)話人個(gè)性特征增強(qiáng)并且提高轉(zhuǎn)換語(yǔ)音的聽(tīng)覺(jué)質(zhì)量。
為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用了如下技術(shù)方案:
一種基于自組織特征映射網(wǎng)絡(luò)聚類和徑向基網(wǎng)絡(luò)的語(yǔ)音轉(zhuǎn)換法,具體步驟如下:
第一步,預(yù)處理,清濁音判決與特征參數(shù)提取,即對(duì)輸入語(yǔ)音信號(hào)進(jìn)行預(yù)加重、分幀和加窗處理后,計(jì)算每一幀的短時(shí)能量和平均過(guò)零率,完成清濁音的判決,再利用STRAIGHT(Speech?Transformation?and?Representation?using?Adaptive?Interpolation?of?weiGHTed?spectrum)模型提取出每一個(gè)濁音幀的LSF(Linear?Spectral?Frequency,線性譜頻率)參數(shù)和基音頻率;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210038874.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。





