[發(fā)明專利]語音合成方法和裝置無效
| 申請?zhí)枺?/td> | 200810215486.5 | 申請日: | 2008-08-15 |
| 公開(公告)號: | CN101369423A | 公開(公告)日: | 2009-02-18 |
| 發(fā)明(設(shè)計)人: | 森中亮;田村正統(tǒng);籠島岳彥 | 申請(專利權(quán))人: | 株式會社東芝 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/04 |
| 代理公司: | 北京市中咨律師事務(wù)所 | 代理人: | 楊曉光;劉薇 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 合成 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及使用諸如音素序列、基音和音素時長的信息生成合成語音信號的語音合成方法和裝置。
背景技術(shù)
根據(jù)任意的句子人工地生成語音信號被稱為“文本語音合成”。通常,文本語音合成包括三個步驟:語言處理、韻律處理和語音合成。
首先,語言處理部從語形和語義上分析輸入文本。其次,韻律處理部基于分析結(jié)果處理文本的重音和語調(diào),并輸出音素序列/韻律信息(基頻、音段時長、功率)。第三,語音合成部基于音素序列/韻律信息合成語音信號。這樣,可實(shí)現(xiàn)文本語音合成。
下面說明合成任意音素符號序列的合成器的原理。假設(shè)元音用“V”表示,輔音用“C”表示。諸如CV、CVC、和VCV的基本單元的特征參數(shù)(語音單元)被事先存儲。通過控制基音和時長來拼接語音單元,從而合成語音。在該方法中,合成語音的質(zhì)量大大取決于所存儲的語音單元。
作為這樣的語音合成方法的一種,通過以輸入音素序列/韻律信息為目標(biāo),對每個合成單元(每一段)選擇多個語音單元。通過融合多個語音單元生成新的語音單元,并通過拼接新的語音單元來合成語音。以下,該方法稱為多單元選擇融合方法。例如,該方法在JP-A?No.2005-164749(公開號)中公開。
在多單元選擇融合方法中,首先,基于輸入音素/韻律信息(目標(biāo)),從以前存儲的大量語音單元中選擇語音單元。作為單元選擇方法,合成語音與目標(biāo)之間的失真度被定義為成本函數(shù),選擇語音單元以使成本函數(shù)的值變得最小。例如,表示目標(biāo)語音與每個語音單元之間的韻律/音素環(huán)境的差的目標(biāo)失真和通過拼接語音單元而發(fā)生的拼接失真在數(shù)字上被估計為成本。用于語音合成的語音單元基于成本來選擇,并使用特定的方法融合,即,將語音單元的基音波形進(jìn)行平均,或者使用語音段的質(zhì)心。結(jié)果,可穩(wěn)定地獲得合成語音,同時抑制編輯/拼接語音單元中的質(zhì)量的下降。
此外,作為生成具有高質(zhì)量的語音單元的方法,所存儲的語音單元使用共振峰頻率表示。例如,該方法在日本專利No.3732793中公開。在該方法中,共振峰的波形(以下稱為“共振峰波形”)通過將窗函數(shù)與具有共振峰頻率的正弦曲線相乘來表示。語音波形通過將每個共振峰波形相加來表示。
然而,在多單元選擇融合方法的語音合成中,語音單元的波形被直接融合。由此,合成語音的頻譜變得不清楚,并且合成語音的質(zhì)量下降。該問題是由于融合具有不同共振峰頻率的語音單元而產(chǎn)生的。結(jié)果,融合語音單元的共振峰不清楚并且質(zhì)量下降。
發(fā)明內(nèi)容
本發(fā)明旨在一種用于以相對于多單元選擇融合方法高質(zhì)量地生成合成語音的語音合成方法和裝置。
根據(jù)本發(fā)明的一個方面,提供一種合成語音的方法,包括:將與目標(biāo)語音對應(yīng)的音素序列分割成多個段;對于每個段,從存儲具有至少一個幀的語音單元的語音單元存儲器中選擇多個語音單元,所述多個語音單元具有與目標(biāo)語音一致或相似的韻律特征;對于多個語音單元的每個幀生成具有至少一個共振峰頻率的共振峰參數(shù);根據(jù)多個語音單元的每個幀的共振峰參數(shù)生成每個幀的融合共振峰參數(shù);根據(jù)每個幀的融合共振峰參數(shù)生成每個段的融合語音單元;以及通過拼接每個段的融合語音單元來生成合成語音。
根據(jù)本發(fā)明的另一個方面,還提供了一種用于合成語音的裝置,包括:分割部,用于將與目標(biāo)語音對應(yīng)的音素序列分割成多個段;語音單元存儲器,用于存儲具有至少一個幀的語音單元;語音單元選擇部,用于對于每個段從語音單元存儲器中選擇多個語音單元,所述多個語音單元具有與目標(biāo)語音一致或相似的韻律特征;共振峰參數(shù)生成部,用于對于多個語音單元的每個幀生成具有至少一個共振峰頻率的共振峰參數(shù);融合共振峰參數(shù)生成部,用于根據(jù)多個語音單元的每個幀的共振峰參數(shù)生成每個幀的融合共振峰參數(shù);融合語音單元生成部,用于根據(jù)每個幀的融合共振峰參數(shù)生成每個段的融合語音單元;以及合成部,用于通過拼接每個段的融合語音單元來生成合成語音。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于株式會社東芝,未經(jīng)株式會社東芝許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810215486.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





