[發(fā)明專利]語音轉(zhuǎn)換方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 200710163066.2 | 申請日: | 2007-09-29 |
| 公開(公告)號: | CN101399044A | 公開(公告)日: | 2009-04-01 |
| 發(fā)明(設(shè)計)人: | 雙志偉;孟繁平;秦勇;施勤 | 申請(專利權(quán))人: | 國際商業(yè)機器公司 |
| 主分類號: | G10L21/00 | 分類號: | G10L21/00;G10L13/00;G10L13/02;G10L13/08 |
| 代理公司: | 北京市金杜律師事務(wù)所 | 代理人: | 王茂華;趙林琳 |
| 地址: | 美國紐*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 轉(zhuǎn)換 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及聲音處理方法和系統(tǒng),尤其涉及對人類語音進(jìn)行轉(zhuǎn)換的方法和系統(tǒng)。?
背景技術(shù)
語音轉(zhuǎn)換是轉(zhuǎn)換源說話者的語音以使其聽起來類似于目標(biāo)說話者的語音。當(dāng)前,語音轉(zhuǎn)換可具有多種用途。一個重要的應(yīng)用是為不同的公司構(gòu)建定制的文本至語音系統(tǒng),其中通過修改原始說話者的語音語料可以快速且便宜地創(chuàng)建具有一個公司喜好的語音的TTS系統(tǒng)。語音轉(zhuǎn)換也可以用于生成具體的角色語音并在語音到語音翻譯時保持說話者的一致性,這種經(jīng)過轉(zhuǎn)換的語音可用于電影制作、在線游戲、語言聊天、多媒體消息服務(wù)等各種應(yīng)用中。通常存在兩個對于轉(zhuǎn)換的語音的標(biāo)準(zhǔn)來評估語音轉(zhuǎn)換系統(tǒng)的性能。轉(zhuǎn)換語音的質(zhì)量以及與目標(biāo)說話者的相似度。當(dāng)前技術(shù)水平下的語音轉(zhuǎn)換技術(shù),通常在質(zhì)量和相似度之間找到一個較好的平衡點。同時,不同的應(yīng)用會對質(zhì)量和相似度有不同的側(cè)重。但通常而言,較好的語音質(zhì)量是語音轉(zhuǎn)換技術(shù)被實際應(yīng)用的一個重要條件。?
頻譜轉(zhuǎn)換是語音轉(zhuǎn)換系統(tǒng)的關(guān)鍵組成部分。最流行的兩種頻譜轉(zhuǎn)換方法是碼本映射(例如參見Abe,M.,S.Nakamura,K.Shikano,H.Kuwabara的“Voice?Conversion?through?Vector?Quantization,”Proc.ICASSP,Seattle,WA,U.S.A.,1998,pp.655-658)和高斯混合模型(GMM)轉(zhuǎn)換算法(例如參見Stylianou,Y.等人的“ContinuousProbabilistic?Transform?for?Voice?Conversion,”IEEE?Transactions?onSpeech?and?Audio?Processing,v.6,no.2,March?1998,pp.131-142;以及Kain,A.B.的“High?Resolution?Voice?Transformation,”Ph.D.thesis,?Oregon?Health?and?Science?University,October?2001)。然而,盡管最近已對這兩種方法進(jìn)行了改進(jìn),但其中引入的質(zhì)量下降卻仍然很嚴(yán)重(例如參見Shuang,Z.W.,Z.X.Wang,Z.H.Ling,and?R.H.Wang,“A?Novel?Voice?Conversion?System?Based?on?Codebook?Mapping?withPhoneme-Tied?Weighting,”Proc.ICSLP,Jeju,Korea,2004)。相比較地,另一種頻譜轉(zhuǎn)換方法——頻率彎曲可以帶來了較少的質(zhì)量下降(例如參見Eichner,M.,M.Wolff和R.Hoffmann的“VoiceCharacteristic?Conversion?for?TTS?Using?Reverse?VTLN,”Pro.ICASSP,Montreal,PQ,Canada,2004)。為了尋找良好的頻率彎曲函數(shù),已經(jīng)進(jìn)行了很多工作。例如,由Eide,E.和H.Gish在“A?ParametricApproach?to?Vocal?Tract?Length?Normalization,”ICAS?SP?1996,Atlanta,USA,1996中提出了一種方法,其中彎曲函數(shù)是基于每一個說話者的第三共振峰的中值。一些研究者通過基于屬于相同音素的共振峰生成彎曲函數(shù)擴展了此方法。然而,共振峰頻率和其與聲道長度(VTL)的關(guān)系不僅依賴于說話者的聲道形狀和其所發(fā)出的不同音素,而且高度依賴于上下文,同一個說話者的共振峰可能隨著上下文而發(fā)生很大變化。同一申請人的中國專利申請公開號CN101004911A公開了一種通過映射源說話者和目標(biāo)說話者的共振峰參數(shù)生成頻率彎曲函數(shù)的新方案,其中增加了對準(zhǔn)和選擇過程,以保證選擇的映射共振峰可以很好地代表說話者之間發(fā)音的不同之處。此方案僅需要非常小量的生成彎曲函數(shù)的訓(xùn)練數(shù)據(jù),可以極大地方便其應(yīng)用,而且可以獲得高質(zhì)量的轉(zhuǎn)換語音,同時成功地使轉(zhuǎn)換語音與目標(biāo)說話者相似。雖然如此,利用該方案進(jìn)行的語音轉(zhuǎn)換,聽眾仍然能夠察覺到轉(zhuǎn)換的語音和目標(biāo)說話者之間的差別。這樣的差異是由具體的頻譜差異引起的,它不能通過純粹的頻譜彎曲解決。?
在聲音處理技術(shù)中,還存在其它的語音技術(shù),例如文本到語音(TTS)技術(shù)。最流行的TTS技術(shù)被稱為拼接式TTS,在其中需要首先記錄語料說話者的語音數(shù)據(jù)庫,然后通過單元選擇拼接說話者的語音數(shù)據(jù)段以合成新的語音數(shù)據(jù)。在很多商業(yè)的TTS系統(tǒng)中,語?音數(shù)據(jù)庫包含數(shù)小時的記錄。最小的拼接段,即單元,可以是音節(jié)、音素,甚至是10ms的語音數(shù)據(jù)幀。?
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機器公司,未經(jīng)國際商業(yè)機器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710163066.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 圖像轉(zhuǎn)換設(shè)備、圖像轉(zhuǎn)換電路及圖像轉(zhuǎn)換方法
- 數(shù)模轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 轉(zhuǎn)換設(shè)備和轉(zhuǎn)換方法
- 占空比轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 通信轉(zhuǎn)換方法、轉(zhuǎn)換裝置及轉(zhuǎn)換系統(tǒng)
- 模數(shù)轉(zhuǎn)換和模數(shù)轉(zhuǎn)換方法
- 轉(zhuǎn)換模塊以及轉(zhuǎn)換電路
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件和熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊





