[發(fā)明專利]一種非平行文本條件下的語音轉(zhuǎn)換方法有效
| 申請?zhí)枺?/td> | 201010520107.0 | 申請日: | 2010-10-27 |
| 公開(公告)號: | CN102063899A | 公開(公告)日: | 2011-05-18 |
| 發(fā)明(設(shè)計)人: | 李燕萍;張玲華 | 申請(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L15/06 |
| 代理公司: | 南京經(jīng)緯專利商標(biāo)代理有限公司 32200 | 代理人: | 許方 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 平行 文本 條件下 語音 轉(zhuǎn)換 方法 | ||
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音轉(zhuǎn)換技術(shù),尤其是一種非平行文本條件下的語音轉(zhuǎn)換方法,屬于語音信號處理技術(shù)領(lǐng)域。
背景技術(shù):
語音轉(zhuǎn)換是語音信號處理領(lǐng)域近年來新興的研究分支,是在說話人識別和語音合成的研究基礎(chǔ)上進行的,同時也是這兩個分支內(nèi)涵的豐富和延拓。
語音轉(zhuǎn)換的目標(biāo)是改變源說話人語音中的個性特征信息,使之具有目標(biāo)說話人的個性特征,從而使轉(zhuǎn)換后的語音聽起來就像是目標(biāo)說話人的聲音,而其中的語義信息保持不變。
語音轉(zhuǎn)換的關(guān)鍵問題在于說話人個性特征的提取以及轉(zhuǎn)換模型的建立,經(jīng)過近二十年的發(fā)展,涌現(xiàn)出大量的研究成果,但這些方法大多要求訓(xùn)練語音是平行文本,即源說話人和目標(biāo)說話人的語音在語音內(nèi)容,語音時長方面都必須相同,因此在訓(xùn)練之前一般需要先采用動態(tài)時間規(guī)整算法對源說話人和目標(biāo)說話人的語音進行強制對齊,這樣必然會引入失真;并且從實際應(yīng)用的角度考慮,要求大量的平行訓(xùn)練文本很不方便,甚至不可滿足,例如在跨語種的語音轉(zhuǎn)換中,源和目標(biāo)說話人的語音存在語種的不同,根本不可能獲得平行文本。無論從方便高效的角度分析,還是從經(jīng)濟實用方面考慮,非平行文本條件下語音轉(zhuǎn)換方法的研究都具有極大的實際意義和應(yīng)用價值。
目前非平行文本條件下的語音轉(zhuǎn)換算法主要有兩種,基于語音聚類的方法和基于參數(shù)自適應(yīng)的方法。基于語音聚類的方法,是通過對語音幀之間距離的度量或者在音素信息的指導(dǎo)下選擇相對應(yīng)的語音單元進行轉(zhuǎn)換,其本質(zhì)是一定條件下將非平行文本轉(zhuǎn)化為平行文本進行處理。這類方法原理簡單,但需要對語音文本內(nèi)容進行預(yù)提取,預(yù)提取的結(jié)果會直接影響語音的轉(zhuǎn)換質(zhì)量;(1.Meng?Zhang,?Jiaohua?Tao,?Jani?Nurminen.?Phoneme?cluster?based?state?mapping?for?text-independent?voice?conversion.?ICASSP,?2009:?4281-4284.?2.?Helenca?Duxans,?Daniel?Erro,?Javier?Perez.?Voice?conversion?of?non-aligned?data?using?unit?selection.?TC-Star?Workshop?on?Speech?to?Speech?Translation,?2006:?237-242.)基于參數(shù)自適應(yīng)的方法,是采用語音識別中的說話人歸一化或自適應(yīng)方法對轉(zhuǎn)換模型的參數(shù)進行處理,其本質(zhì)是使得預(yù)先建立的模型向基于目標(biāo)說話人的模型進行轉(zhuǎn)化。這類方法能夠合理利用預(yù)存儲的說話人信息,但自適應(yīng)過程會引起頻譜的平滑,導(dǎo)致轉(zhuǎn)換語音中的說話人個性信息不強。(1.?Yamato?Ohtani.?Techniques?for?improving?voice?conversion?based?on?eigenvoices.?Doctoral?Thesis,?Nara?Institute?of?Science?and?Technology,?March?31,?2010.?2.?D.?Sundermann,?H.Ney,?H.?Hoge.?VTLN-based?cross-language?voice?conversion.?ASRU?2003:?676-681.)。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種結(jié)合漢語語言結(jié)構(gòu)特點和說話人自適應(yīng)思想的非平行文本條件下的語音轉(zhuǎn)換方法,達(dá)到增強轉(zhuǎn)換語音中的說話人個性特征的同時提高轉(zhuǎn)換語音的聽覺質(zhì)量。
本發(fā)明為實現(xiàn)上述發(fā)明目的采用如下技術(shù)方案:
一種非平行文本條件下的語音轉(zhuǎn)換方法,包括訓(xùn)練階段和轉(zhuǎn)換階段,其中所述訓(xùn)練階段包括如下步驟:
步驟A,語音信號預(yù)處理步驟:分別對輸入語音信號依次進行預(yù)加重、分幀和加窗處理,所述輸入語音信號分別包括目標(biāo)說話人、源說話人、參考目標(biāo)說話人的語音信號;
步驟B,元音幀提取步驟:根據(jù)頻域能量分布特征,分別判定經(jīng)步驟A預(yù)處理后的目標(biāo)說話人、源說話人、參考目標(biāo)說話人的語音信號中元音的位置,分別提取目標(biāo)說話人、源說話人、參考目標(biāo)說話人的語音信號中的元音幀;
步驟C,元音幀的音素分類,對步驟B提取到的目標(biāo)說話人、源說話人、參考目標(biāo)說話人的元音幀,根據(jù)漢語元音映射表分別進行音素分類;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010520107.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





