[發(fā)明專利]混合語音合成器、方法和使用無效
| 申請?zhí)枺?/td> | 200680010398.0 | 申請日: | 2006-03-28 |
| 公開(公告)號: | CN101156196A | 公開(公告)日: | 2008-04-02 |
| 發(fā)明(設(shè)計(jì))人: | 加里·馬普;尼山特·錢達(dá) | 申請(專利權(quán))人: | 萊塞克技術(shù)公司 |
| 主分類號: | G10L13/00 | 分類號: | G10L13/00;G01L13/02 |
| 代理公司: | 中國國際貿(mào)易促進(jìn)委員會專利商標(biāo)事務(wù)所 | 代理人: | 吳麗麗 |
| 地址: | 美國馬*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 混合 語音 合成器 方法 使用 | ||
相關(guān)申請的交叉引用
本專利申請要求2005年3月28提交的共同所有的美國臨時(shí)專利申請?zhí)?0/665,821的權(quán)益,該專利申請整體以引用的方式被包含在本文中。
技術(shù)領(lǐng)域
本發(fā)明涉及新穎的文本到語音合成器、語音合成方法和具體實(shí)現(xiàn)語音合成器或方法的產(chǎn)品,包括話音識別系統(tǒng)。本發(fā)明的方法和系統(tǒng)適用于例如在個(gè)人計(jì)算機(jī)和其它計(jì)算機(jī)化的設(shè)備上的計(jì)算機(jī)實(shí)施方案,本發(fā)明還包括這樣的計(jì)算機(jī)化的系統(tǒng)和方法。
背景技術(shù)
理論上描述了三種不同的語音合成器,即,發(fā)音的、共振峰的和級聯(lián)的語音合成器。共振峰和級聯(lián)語音合成器已被開發(fā)用于商業(yè)用途。
共振峰語音合成器是早期的、高度數(shù)學(xué)的語音合成器。共振峰語音合成技術(shù)是基于利用與講話人聲道有關(guān)的參數(shù),諸如基波頻率、聲道的長度和直徑、空氣壓力參數(shù)等等的聲學(xué)模型。基于共振峰的語音合成器可能是快速和低成本的,但所生成的聲音對于人耳來說聽上去不令人滿意。它通常聽起來不真實(shí)并且機(jī)械冰冷,或者是單調(diào)的。
合成單個(gè)單詞的發(fā)音需要對應(yīng)于輔音和元音的發(fā)音的聲音,以使該單詞可識別。然而,各個(gè)單詞具有多種發(fā)音的方式,諸如正式或非正式發(fā)音。許多字典不單提供對于單詞的意義的導(dǎo)引,而且還提供發(fā)音的導(dǎo)引。然而,在句子中的每個(gè)單詞按照字典對于單詞的音標(biāo)注釋進(jìn)行發(fā)音導(dǎo)致對于人耳是怪異的無吸引力的單調(diào)的語音。
為了解決這個(gè)問題,在本發(fā)明之前,許多市場上銷售的合成器利用級聯(lián)語音合成方法。在國際音標(biāo)字母表(IPA)字典中的基本語音單位(例如單音素、雙音素和三音素)被從個(gè)體的發(fā)音中記錄,然后被“級聯(lián)”或鏈接在一起形成合成的語音。雖然輸出的級聯(lián)語音的質(zhì)量可能優(yōu)于共振峰語音的質(zhì)量,但在許多情形下,由于可能是由在相鄰的語音單位之間的不完美合并造成的被稱為“雜散信號(glitch)”的問題,聽起來的感覺仍舊是不滿意的。
級聯(lián)合成器的其它重大缺點(diǎn)是對于大語音單位數(shù)據(jù)庫和高計(jì)算能力的要求。在某些情形下,利用所有單詞和有時(shí)是記錄語音的詞組的級聯(lián)合成可以使得話音標(biāo)識特征更清晰。無論如何,當(dāng)收聽使用較長的預(yù)先記錄的單位“合成”的語音的句子和段落時(shí),語音仍舊是韻律很差的。“韻律”可被理解為牽涉到語言的步調(diào)、節(jié)律和音調(diào)方面。它也可以看作為包括正確說出的語言的質(zhì)量,這些質(zhì)量將人的語音與通常單調(diào)的傳統(tǒng)的級聯(lián)和共振峰機(jī)器語音區(qū)別開。
在語音合成器中采用的已知的文本歸一化器和文本分析器是逐個(gè)單詞地進(jìn)行的,在級聯(lián)合成的情形下,有時(shí)是逐個(gè)詞組進(jìn)行的。逐個(gè)單詞的方法,即使帶有各個(gè)單詞重音,很快變?yōu)楦杏X像機(jī)器發(fā)出的。級聯(lián)方法雖然具有某些改進(jìn)的話音質(zhì)量,但很快變?yōu)橹貜?fù)的,并且雜散信號可導(dǎo)致幅度和音調(diào)的誤對準(zhǔn)。
人類話音的自然悅耳可以在語音中表示為韻律,它的單元包括語音的發(fā)音節(jié)律和音調(diào)和響度的改變。傳統(tǒng)的共振峰語音合成器不能產(chǎn)生韻律與要發(fā)音的文本相關(guān)并與收聽人的收聽原因相關(guān)的高質(zhì)量合成語音。這樣的韻律的例子是記者的、有說服力的、辯論的、人類興趣的韻律等等。
自然語音在音調(diào)、節(jié)律、幅度和發(fā)音速率方面有變化。韻律模式是與周圍語境有關(guān)的,即與以前的和將來的單詞和句子有關(guān)。已知的語音合成器沒有滿意地考慮到這些因素。Addison等人共同擁有的美國專利No.6,865,533和6,847,931公開和要求保護(hù)采用有表現(xiàn)力的分析的方法和系統(tǒng)。
以上的背景技術(shù)的說明可包括對于本發(fā)明以前的現(xiàn)有技術(shù)來說是未知的、但由本發(fā)明提供的觀點(diǎn)、發(fā)現(xiàn)、理解或公開內(nèi)容或公開內(nèi)容的相關(guān)性。本發(fā)明的某些這樣的貢獻(xiàn)在這里被具體地指出,而本發(fā)明的其它這樣的貢獻(xiàn)將從它們的上下文明白。僅僅因?yàn)槲墨I(xiàn)可能已在這里引述,不允許可能與本發(fā)明的領(lǐng)域非常不同的文獻(xiàn)的領(lǐng)域類似于本發(fā)明的領(lǐng)域。
發(fā)明內(nèi)容
因此,需要一種資源節(jié)省的和可以從輸入文本生成高質(zhì)量語音的語音合成器和合成器方法。還需要一種可以提供自然節(jié)律和可以容易地生成具有一個(gè)或多個(gè)韻律的合成語音的語音合成器和合成器方法。
因此,本發(fā)明一方面提供用于從文本合成語音的新穎的語音合成器。語音合成器可包括文本分析器,用來分析要被合成的文本,得出可表現(xiàn)為音素的文本元素。合成器還可包括音素?cái)?shù)據(jù)庫,包含對于表現(xiàn)文本元素有用的聲音呈現(xiàn)的音素;和語音合成單元,用來組裝來自音素?cái)?shù)據(jù)庫的音素和生成組裝的音素作為用于信號。所選擇的音素可以相應(yīng)于各個(gè)文本元素。希望地,語音合成單元能夠連接相鄰的音素,以提供連續(xù)的語音信號。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于萊塞克技術(shù)公司,未經(jīng)萊塞克技術(shù)公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200680010398.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





