[發(fā)明專利]自動進行語音轉(zhuǎn)換的方法和裝置無效
| 申請?zhí)枺?/td> | 200710139735.2 | 申請日: | 2007-07-30 |
| 公開(公告)號: | CN101359473A | 公開(公告)日: | 2009-02-04 |
| 發(fā)明(設計)人: | 施琴;秦勇;劉義;雙志偉 | 申請(專利權)人: | 國際商業(yè)機器公司 |
| 主分類號: | G10L13/04 | 分類號: | G10L13/04;G10L21/06 |
| 代理公司: | 北京市中咨律師事務所 | 代理人: | 于靜;楊曉光 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自動 進行 語音 轉(zhuǎn)換 方法 裝置 | ||
技術領域
本發(fā)明涉及語音轉(zhuǎn)換的領域,并且本發(fā)明特別涉及將文字信息進行語音合成和音色轉(zhuǎn)換的方法和裝置。
背景技術
當人們觀看一段影音文件(如外文電影)時,語言不通經(jīng)常構成一個顯著的閱讀障礙。現(xiàn)有的影片發(fā)行商們可以在相對較短的時間內(nèi)將外文字幕(如英文)翻譯成本地文字字幕(如中文),并且同步發(fā)行帶有本地文字字幕的電影供觀眾欣賞。然而閱讀字幕仍然會影響大部分觀眾的觀看感受,因為觀眾的視線需要在字幕和畫面之間不斷的快速切換,尤其對于兒童、老人、視力有障礙或閱讀有障礙的人群,閱讀字幕所帶來的負面影響尤為突出。為了照顧其它地區(qū)的觀眾市場,影音文件的發(fā)行商們可以聘請配音演員對影音文件賦予中文配音。然而這一過程往往需要較長的時間,并且需要花費大量的人力成本。
語音合成技術(TTS?Text?to?Speech)可以將文字信息轉(zhuǎn)換成語音信息。美國專利US5970459提供了一種利用TTS技術將電影字幕轉(zhuǎn)換成本地語音的方法。該方法分析原始語音數(shù)據(jù)和原始說話人的嘴型(shape?of?lip),先將文字信息利用TTS技術轉(zhuǎn)換成語音信息,然后按照嘴型的運動對這些語音信息進行同步,從而形成電影的配音效果。然而該方案并沒有使用音色轉(zhuǎn)換技術,無法使合成的聲音與電影原聲音色相近,最終的配音效果與原聲的聲音特征相差很遠。
音色轉(zhuǎn)換技術可以把原始說話人的聲音轉(zhuǎn)換成目標說話人的聲音。現(xiàn)有技術中經(jīng)常利用頻率彎曲的方法將原始說話人的聲音頻譜轉(zhuǎn)換成目標說話人的聲音頻譜,從而按照目標說話人的聲音特征,包括聲音的語速、語調(diào),制造出相應的聲音數(shù)據(jù)。頻率彎曲(frequency?wrapping)技術是一種用于補償不同說話者之間的聲音頻譜的差異的方法,它廣泛應用于語音識別和語音轉(zhuǎn)換領域。按照頻率彎曲技術,給定一個聲音的一頻譜截面,該方法通過施加一頻率彎曲函數(shù)來生成一新的頻譜截面,使一個說話人的聲音聽起來象另一個說話人的聲音。
在現(xiàn)有技術中已提出了許多用于發(fā)現(xiàn)性能良好的頻率彎曲函數(shù)的自動訓練方法。一種方法是最大似然線性回歸。該方法的描述可參見:L.F.Uebel,和P.C.Woodland的“An?investigation?into?vocal?tract?lengthnormalization,”EUROSPEECH’99,Budapest,Hungary,1999,第2527-2530頁。然而,這種方法需要大量的訓練數(shù)據(jù),這限制了它在很多應用場合中的使用。
另一種方法是利用共振峰映射技術進行聲音的轉(zhuǎn)換,該方法的描述可參見:Zhiwei?Shuang,Raimo?Bakis,Yong?Qin的“Voice?Conversion?Basedon?Mapping?Formants”in?Workshop?on?Speech?to?Speech?Translation,Barcellona,June?2006。具體而言,該方法根據(jù)源說話人和目標說話人之間的共振峰(formant)的關系來獲得頻率彎曲函數(shù)。共振峰是指在發(fā)音時由于聲道本身的共振而在聲音頻譜中形成的聲音強度較大的若干頻率區(qū)域。共振峰與聲道的形狀有關,因此每一個人的共振峰通常是不同的。而不同說話人的共振峰可用于表示不同說話人之間的聲學差異。并且該方法還利用基頻調(diào)整技術使得僅僅利用少量的訓練數(shù)據(jù)就能夠進行聲音的頻率彎曲。然而該方法所未能解決的問題是如果原始說話人與目標說話人之間的聲音相差很遠,由于頻率彎曲所帶來的音質(zhì)損傷就會急劇增加從而損壞輸出聲音的質(zhì)量。
實際上在衡量音色轉(zhuǎn)換的優(yōu)略時,存在兩種指標,其一是被轉(zhuǎn)換的聲音的質(zhì)量、其二是被轉(zhuǎn)換的聲音與目標說話人的相似程度。現(xiàn)有技術中二者常常處于相互牽制的狀態(tài),很難同時滿足。也就是說即便將現(xiàn)有的音色轉(zhuǎn)換技術應用于美國專利US5970459中的配音方法時也難以形成很好的配音效果。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術的上述問題,本發(fā)明提出了一種能夠顯著改進音色轉(zhuǎn)換的質(zhì)量,并保證轉(zhuǎn)換的聲音相似度的方法和裝置。本發(fā)明在語音合成庫中設置有若干標準說話人,根據(jù)不同的角色,本發(fā)明選用不同的標準說話人的聲音進行語音合成,所述被選中的標準說話人的聲音與原始角色之間已經(jīng)存在一定程度的相似性。然后本發(fā)明將這種與原始聲音具有一定程度相似性的標準語音進一步進行音色轉(zhuǎn)換,以精確模仿原始說話人的聲音,從而使得轉(zhuǎn)換后的聲音在保證相似度的同時,更加接近原始的語音特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業(yè)機器公司,未經(jīng)國際商業(yè)機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710139735.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:用于自行車變速器的控制裝置
- 下一篇:植物中類胡蘿卜素的增強
- 圖像轉(zhuǎn)換設備、圖像轉(zhuǎn)換電路及圖像轉(zhuǎn)換方法
- 數(shù)模轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 轉(zhuǎn)換設備和轉(zhuǎn)換方法
- 占空比轉(zhuǎn)換電路及轉(zhuǎn)換方法
- 通信轉(zhuǎn)換方法、轉(zhuǎn)換裝置及轉(zhuǎn)換系統(tǒng)
- 模數(shù)轉(zhuǎn)換和模數(shù)轉(zhuǎn)換方法
- 轉(zhuǎn)換模塊以及轉(zhuǎn)換電路
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件和熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊
- 熱電轉(zhuǎn)換材料、熱電轉(zhuǎn)換元件及熱電轉(zhuǎn)換模塊





