[發(fā)明專(zhuān)利]基于HMM的雙語(yǔ)(普通話(huà)-英語(yǔ))TTS技術(shù)有效
| 申請(qǐng)?zhí)枺?/td> | 201110291213.0 | 申請(qǐng)日: | 2008-08-19 |
| 公開(kāi)(公告)號(hào): | CN102360543A | 公開(kāi)(公告)日: | 2012-02-22 |
| 發(fā)明(設(shè)計(jì))人: | Y·錢(qián);F·K-P·宋 | 申請(qǐng)(專(zhuān)利權(quán))人: | 微軟公司 |
| 主分類(lèi)號(hào): | G10L13/06 | 分類(lèi)號(hào): | G10L13/06 |
| 代理公司: | 上海專(zhuān)利商標(biāo)事務(wù)所有限公司 31100 | 代理人: | 蔡悅;錢(qián)靜芳 |
| 地址: | 美國(guó)華*** | 國(guó)省代碼: | 美國(guó);US |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 hmm 雙語(yǔ) 普通話(huà) 英語(yǔ) tts 技術(shù) | ||
本申請(qǐng)是國(guó)際申請(qǐng)?zhí)枮镻CT/US2008/073563,國(guó)際申請(qǐng)日為2008年8月19日,進(jìn)入中國(guó)國(guó)家階段的申請(qǐng)?zhí)枮?00880103469.0,名稱(chēng)為“基于HMM的雙語(yǔ)(普通話(huà)-英語(yǔ))TTS技術(shù)”的發(fā)明專(zhuān)利申請(qǐng)的分案申請(qǐng)。
背景
雖然文本-語(yǔ)音(TTS)合成質(zhì)量近年來(lái)已極大地提高,但各種電信應(yīng)用程序(例如,信息詢(xún)問(wèn)、預(yù)約和預(yù)定、以及電子郵件閱讀)要求比現(xiàn)有TTS系統(tǒng)所能夠提供的更高的合成質(zhì)量。具體而言,隨著全球化及其伴隨的語(yǔ)言混合,這些應(yīng)用程序能夠從其中一個(gè)引擎能夠合成多種語(yǔ)言或甚至混合語(yǔ)言的多語(yǔ)言TTS系統(tǒng)中受益。大多數(shù)常規(guī)TTS系統(tǒng)只能夠處理單一語(yǔ)言,其中語(yǔ)音數(shù)據(jù)庫(kù)中的句子由單個(gè)說(shuō)母語(yǔ)的人來(lái)發(fā)音。盡管多語(yǔ)言文本可通過(guò)在每一種語(yǔ)言改變時(shí)切換語(yǔ)音或引擎來(lái)正確地閱讀,但其中語(yǔ)言改變?cè)诰渥觾?nèi)作為單詞或短語(yǔ)發(fā)生的代碼切換文本實(shí)際上是不可行的。此外,隨著移動(dòng)電話(huà)或嵌入式設(shè)備的廣泛使用,語(yǔ)音合成器的覆蓋區(qū)域成為基于這些設(shè)備的關(guān)于應(yīng)用程序的因素。
對(duì)多語(yǔ)言TTS系統(tǒng)的研究表明音素覆蓋可通過(guò)收集多語(yǔ)言語(yǔ)音數(shù)據(jù)來(lái)實(shí)現(xiàn),但語(yǔ)言專(zhuān)用信息(例如,專(zhuān)用文本分析)也是必需的。已經(jīng)在多語(yǔ)言或語(yǔ)言無(wú)關(guān)語(yǔ)音識(shí)別和合成中嘗試了使用最小音素庫(kù)存來(lái)覆蓋受影響的語(yǔ)言的所有音素的全局音素集。這一方法采用按音素相似性的音素共享,該音素相似性通過(guò)數(shù)據(jù)驅(qū)動(dòng)聚類(lèi)方法或者由國(guó)際音標(biāo)字母表(IPA)定義的音節(jié)特征來(lái)測(cè)量。存在對(duì)TTS系統(tǒng)的小覆蓋區(qū)域方面的強(qiáng)烈興趣,注意基于隱馬爾可夫模型的語(yǔ)音合成往往更有希望。某些隱馬爾可夫模型(HMM)合成器可具有相對(duì)較小的覆蓋區(qū)域(例如,≤2MB),這使其適用于嵌入式系統(tǒng)。具體而言,這些HMM合成器已經(jīng)成功地應(yīng)用于許多單語(yǔ)的語(yǔ)音合成,例如,英語(yǔ)、日語(yǔ)和普通話(huà)。這一HMM方法已經(jīng)出于多語(yǔ)言的目的而應(yīng)用,其中首先通過(guò)使用來(lái)自若干說(shuō)不同語(yǔ)言的說(shuō)話(huà)者的混合語(yǔ)音來(lái)訓(xùn)練平均語(yǔ)音并且然后使該平均語(yǔ)音對(duì)特定說(shuō)話(huà)者自適應(yīng)。因此,該特定說(shuō)話(huà)者能夠說(shuō)包含在訓(xùn)練數(shù)據(jù)中的所有語(yǔ)言。
通過(guò)全球化,嵌在普通話(huà)發(fā)言中的英語(yǔ)單詞或短語(yǔ)在中國(guó)的學(xué)生和受過(guò)教育的人中正在變得越來(lái)越普遍地使用。然而,普通話(huà)和英語(yǔ)屬于不同的語(yǔ)系;這些語(yǔ)言是高度無(wú)關(guān)的,這表現(xiàn)在基于對(duì)其IPA符號(hào)的檢查,能夠一起共享的音素很少。
常規(guī)上,基于由雙語(yǔ)說(shuō)話(huà)者說(shuō)出的預(yù)先記錄的普通話(huà)和英語(yǔ)句子來(lái)構(gòu)建雙語(yǔ)(普通話(huà)-英語(yǔ))TTS,其中該系統(tǒng)的單元選擇模塊是跨這兩種語(yǔ)言共享的,而來(lái)自這兩種不同語(yǔ)言的音素彼此不共享。這一方法具有某些缺點(diǎn)。這一系統(tǒng)的覆蓋區(qū)域太大,即,大約是單一語(yǔ)言系統(tǒng)的大小的兩倍。實(shí)際上,找到足夠數(shù)量的專(zhuān)業(yè)雙語(yǔ)說(shuō)話(huà)者來(lái)為各種應(yīng)用程序構(gòu)建多個(gè)雙語(yǔ)音型也不容易。
此處所討論的各種示例性技術(shù)涉及多語(yǔ)言TTS系統(tǒng)。與每一種語(yǔ)言需要單獨(dú)的TTS系統(tǒng)的現(xiàn)有技術(shù)相比,這些技術(shù)能夠減小TTS系統(tǒng)的覆蓋區(qū)域。
概述
一種用于基于一種或多種語(yǔ)言的文本來(lái)生成語(yǔ)音的示例性方法,該方法包括提供兩種或更多語(yǔ)言的音素集、訓(xùn)練包括跨語(yǔ)言狀態(tài)級(jí)共享的多語(yǔ)言HMM、接收該多語(yǔ)言HMM的語(yǔ)言中的一種或多種語(yǔ)言的文本、以及至少部分地基于該多語(yǔ)言HMM來(lái)生成對(duì)應(yīng)于所接收到的文本的語(yǔ)音。其他示例性技術(shù)包括第一語(yǔ)言的決策樹(shù)和第二語(yǔ)言的決策樹(shù)之間的映射和可任選地反方向的映射、以及對(duì)多語(yǔ)言文本-語(yǔ)音系統(tǒng)的Kullback-Leibler散度分析。
附圖簡(jiǎn)述
參考附圖描述了非限制性的和非窮盡的實(shí)施例,其中除非另外指定,否則在各個(gè)視圖中相同的附圖標(biāo)記指示相同的部分。
圖1是包括語(yǔ)音-文本(STT)和文本-語(yǔ)音(TTS)的文本和語(yǔ)音方法的圖示。
圖2是用于英語(yǔ)的TTS方法和系統(tǒng)以及用于普通話(huà)的TTS方法和系統(tǒng)的圖示。
圖3是示例性多語(yǔ)言TTS方法和系統(tǒng)的圖示。
圖4是確定英語(yǔ)和普通話(huà)的共享音素的示例性方法的圖示。
圖5是使用KLD來(lái)確定共享在英語(yǔ)音素和普通話(huà)音素之間是否切實(shí)可行的示例性技術(shù)的圖示。
圖6是用于確定共享在英語(yǔ)子音素和普通話(huà)子音素之間是否切實(shí)可行的示例性方法的圖示。
圖7是用于確定共享在英語(yǔ)復(fù)雜音素和普通話(huà)音素對(duì)之間是否切實(shí)可行的示例性方法的圖示。
圖8是用于上下文無(wú)關(guān)狀態(tài)共享的示例性技術(shù)的圖示。
圖9是用于上下文相關(guān)狀態(tài)共享的示例性技術(shù)的圖示。
圖10是用于語(yǔ)音合成的示例性技術(shù)的圖示。
圖11是基線系統(tǒng)以及用于英語(yǔ)和普通話(huà)的兩個(gè)示例性系統(tǒng)的圖示。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于微軟公司,未經(jīng)微軟公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110291213.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G10L 語(yǔ)音分析或合成;語(yǔ)音識(shí)別;音頻分析或處理
G10L13-00 語(yǔ)音合成;文本-語(yǔ)音合成系統(tǒng)
G10L13-02 .產(chǎn)生合成語(yǔ)音的方法;語(yǔ)音合成設(shè)備
G10L13-06 .語(yǔ)音合成設(shè)備中使用的基本語(yǔ)音單位;級(jí)聯(lián)規(guī)則
G10L13-08 .文本分析或文本以外的語(yǔ)音合成參數(shù)的產(chǎn)生,例如語(yǔ)義圖翻譯為音素、韻律產(chǎn)生、重音或聲調(diào)測(cè)定
G10L13-04 ..語(yǔ)音合成系統(tǒng)的零部件,例如合成設(shè)備結(jié)構(gòu)或存儲(chǔ)器管理
- 聲音識(shí)別系統(tǒng)
- 基于DTW與HMM證據(jù)融合的特種車(chē)?guó)Q笛聲識(shí)別方法
- 基于HMM的小區(qū)切換決策算法及裝置
- 基于隱馬爾克夫模型的食品安全風(fēng)險(xiǎn)預(yù)測(cè)方法
- 基于云端的設(shè)備及其操作方法
- 一種基于變分BP-HMM的人的行為軌跡識(shí)別方法
- 一種基于分層隱馬爾科夫模型的定位方法
- 基于連續(xù)混合高斯HMM模型的地名語(yǔ)音信號(hào)識(shí)別方法
- 病癥評(píng)估方法、終端設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 一種基于HMM的刷單預(yù)測(cè)系統(tǒng)及方法
- 訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法和裝置、雙語(yǔ)詞對(duì)齊方法和裝置
- 雙語(yǔ)詞對(duì)齊方法和裝置、訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法和裝置
- 一種從互聯(lián)網(wǎng)上自動(dòng)提取雙語(yǔ)翻譯詞典的方法
- 一種語(yǔ)料劃分領(lǐng)域的方法和裝置
- 一種雙語(yǔ)新聞聚合方法及系統(tǒng)
- 語(yǔ)料質(zhì)量評(píng)估模型生成方法和雙語(yǔ)句對(duì)互譯質(zhì)量評(píng)估方法
- 雙語(yǔ)詞庫(kù)的自動(dòng)更新方法、裝置與電子設(shè)備
- 信息處理方法、裝置及存儲(chǔ)介質(zhì)
- 基于專(zhuān)利數(shù)據(jù)的半自動(dòng)化翻譯雙語(yǔ)模板的構(gòu)建方法及系統(tǒng)
- 雙語(yǔ)語(yǔ)料篩選方法、裝置及存儲(chǔ)介質(zhì)
- 一種計(jì)算機(jī)多方言背景的漢語(yǔ)普通話(huà)語(yǔ)音識(shí)別的建模方法
- 漢語(yǔ)普通話(huà)信息ASCⅡ體系碼
- 標(biāo)準(zhǔn)語(yǔ)音錄入的對(duì)應(yīng)庫(kù)
- 新型漢語(yǔ)普通話(huà)信息ASCII體系碼
- 漢語(yǔ)普通話(huà)信息ASCII自然語(yǔ)言理解碼
- 非普通話(huà)與普通話(huà)互譯方法、裝置和設(shè)備
- 一種漢語(yǔ)普通話(huà)信息編碼方法及系統(tǒng)
- 一種機(jī)器人漢語(yǔ)普通話(huà)任務(wù)ASCII碼編碼方法及系統(tǒng)
- 聲學(xué)模型生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 語(yǔ)音識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)





