[發明專利]用于建模語音頻譜的系統和方法無效
| 申請號: | 200780041119.1 | 申請日: | 2007-09-26 |
| 公開(公告)號: | CN101536087A | 公開(公告)日: | 2009-09-16 |
| 發明(設計)人: | J·尼爾米南;S·伊瑪南 | 申請(專利權)人: | 諾基亞公司 |
| 主分類號: | G10L19/08 | 分類號: | G10L19/08;G10L19/02;G10L19/06 |
| 代理公司: | 北京市金杜律師事務所 | 代理人: | 吳立明 |
| 地址: | 芬蘭*** | 國省代碼: | 芬蘭;FI |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 建模 語音 頻譜 系統 方法 | ||
技術領域
本發明總體涉及語音處理。更特別地,本發明涉及諸如語音編 碼、話音轉換和文本到語音合成的語音處理應用。
背景技術
本部分意在提供在權利要求書中陳述的本發明的背景或上下 文。本文的描述可包括將被貫徹的概念,但前面被表達和貫徹的內 容并非是必須的。因而,除非在本文指出,在此部分所描述的并非 是在該申請中的說明書和權利要求書的現有技術,以及并非通過包 含于此部分內而承認其為現有技術。
許多語音模型依賴于基于線性預測(LP)的方法,其中使用 LP系數對聲道(vocal?tract)進行建模。繼而,使用進一步的技術對 激勵信號(即,LP殘差(residual))建模。下面是一些傳統技術。 第一,可將激勵建模為周期性脈沖(在話音語音(voiced?speech)期 間)或者噪聲(在非話音語音(unvoiced?speech)期間)。然而,由 于話音/非話音硬決策,限制了可獲得的質量。第二,可使用激勵頻 譜對激勵建模,其將在時變的截止頻率之下的激勵頻譜認為是話音 的,而將在該頻率之上的激勵頻譜認為是非話音的。這種頻帶切分 方法能夠在語音信號的許多部分上令人滿意地執行,但是問題依然 出現,尤其是在具有混合的聲音和噪聲語音的頻譜的情況下。第三, 可使用多帶激勵(MBE,multiband?excitation)模型。在此模型中, 頻譜可包括若干話音的頻帶和非話音的頻帶(多達諧波的數量)。 對于每個頻帶執行單獨的話音/非話音決策。盡管在一些情況下是相 當可接受的,但是MBE模型的性能關于對多個頻帶的話音/非話音 硬決策依然具有受限的質量。第四,在波形內插(WI,waveform interpolation)語音編碼中,將激勵建模為慢漸變波形(SEW,slowly evolving?waveform)和快漸變波形(REW,rapidly?evolving waveform)。SEW對應于話音的貢獻,而REW代表非話音的分布。 不幸的是,由于高復雜度和對于獲得SEW和REW的完美分割不總 是可行,此模型受到損害。
因此,希望提供一種改進的用于建模語音頻譜的系統和方法, 以解決上面提出的許多問題。
發明內容
本發明的多種實施方式提供了用于以話音的和非話音的貢獻 二者能夠共存于某頻率的方式來建模語音的系統和方法。為將復雜 度保持在適中的程度,使用三組頻譜帶(或者高達三種不同類型的 頻帶)。在一個特定實施方式中,最低頻帶或頻帶組完全是話音的, 中間頻帶或頻帶組包含話音的和非話音的貢獻兩者,而最高頻帶或 頻帶組是完全非話音的。此種實現在需要的場合提供了高的建模精 度,并且也以低計算負載支持較簡單的情況。可使用本發明的實施 方式用于語音編碼和其它語音處理應用,諸如文本到語音合成和話 音轉換。
本發明的多種實施方式在語音建模,尤其在較弱的話音語音的 情況下,提供了高精度,與此同時,僅承受適中的計算負載。多種 實施方式相對于傳統裝置也提供了在精度和復雜度之間的改進的平 衡。
當結合附圖而考慮時,從下文的詳細描述中,本發明的這些和 其它優點和特征,連同其操作的方式和組織將變得明顯,其中貫穿 下文描述的若干附圖,相同的單元具有相同的數字。
附圖說明
圖1是示出了可以如何實現多種實施方式的流程圖;
圖2是可在本發明的實現中使用的移動電話的透視圖;以及
圖3是對圖2移動電話的電話電路的示意性展現。
具體實施方式
本發明的多種實施方式提供了用于以話音的和非話音的貢獻 二者能夠共存于某頻率的方式來建模語音的系統和方法。為將復雜 度保持在適中的程度,使用三個頻譜帶集合(或者高達三種不同類 型的頻帶)。在一個特定實施方式中,最低頻帶或頻帶組完全是話 音的,中間頻帶或頻帶組包含話音的和非話音的貢獻兩者,而最高 頻帶或頻帶組是完全非話音的。此種實現在需要的場合提供了高的 建模精度,并且也以低計算負載支持較簡單的情況。可使用本發明 的實施方式用于語音編碼和其它語音處理應用,諸如文本到語音合 成和語音轉換。
本發明的多種實施方式在語音建模,尤其在較弱的話音語音的 情況下,提供了高精度,與此同時,僅承受適中的計算負載。多種 實施方式相對于傳統裝置也提供了在精度和復雜度之間的改進的平 衡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于諾基亞公司,未經諾基亞公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200780041119.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:中壓電路斷路器
- 下一篇:預報集裝箱密度的系統和方法





