[發(fā)明專利]語音合成方法和裝置無效
| 申請?zhí)枺?/td> | 200810215486.5 | 申請日: | 2008-08-15 |
| 公開(公告)號: | CN101369423A | 公開(公告)日: | 2009-02-18 |
| 發(fā)明(設(shè)計)人: | 森中亮;田村正統(tǒng);籠島岳彥 | 申請(專利權(quán))人: | 株式會社東芝 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/04 |
| 代理公司: | 北京市中咨律師事務(wù)所 | 代理人: | 楊曉光;劉薇 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語音 合成 方法 裝置 | ||
1.一種合成語音的方法,包括:
將與目標語音對應(yīng)的音素序列分割成多個段;
對于每個段,從存儲具有至少一個幀的語音單元的語音單元存儲器中選擇多個語音單元,所述多個語音單元具有與所述目標語音一致或相似的韻律特征;
對于所述多個語音單元的每個幀,生成具有至少一個共振峰頻率的共振峰參數(shù);
根據(jù)所述多個語音單元的每個幀的共振峰參數(shù),生成每個幀的融合共振峰參數(shù);
根據(jù)每個幀的融合共振峰參數(shù),生成每個段的融合語音單元;以及
通過拼接每個段的融合語音單元來生成合成語音。
2.根據(jù)權(quán)利要求1所述的方法,其中,生成共振峰參數(shù)包括:從存儲分別與每個語音單元對應(yīng)的共振峰參數(shù)的共振峰參數(shù)存儲器中提取所述多個語音單元的每一個的共振峰參數(shù)。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述共振峰參數(shù)存儲器對應(yīng)地存儲所述共振峰參數(shù)的每一個、用于識別語音單元的語音單元號碼和用于識別所述語音單元中的幀的幀號碼。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述共振峰參數(shù)包括共振峰頻率和表示所述語音單元的共振峰的形狀的形狀參數(shù)。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述共振峰參數(shù)存儲器存儲與相同的語音單元號碼對應(yīng)的多個共振峰參數(shù),所述多個共振峰參數(shù)的每一個對應(yīng)于所述幀號碼。
6.根據(jù)權(quán)利要求4所述的方法,其中,所述形狀參數(shù)至少包括窗函數(shù)、相位和功率。
7.根據(jù)權(quán)利要求4所述的方法,其中,所述形狀參數(shù)至少包括功率和共振峰帶寬。
8.根據(jù)權(quán)利要求1所述的方法,其中,生成共振峰參數(shù)包括:如果所述多個語音單元的每一個中的幀的個數(shù)不同,則使所述多個語音單元的每一個的幀的個數(shù)相等;以及通過相同的幀位置對應(yīng)所述多個語音單元中的每個幀。
9.根據(jù)權(quán)利要求1所述的方法,其中,生成融合共振峰參數(shù)包括:如果所述多個語音單元的相對應(yīng)的幀中的共振峰參數(shù)的共振峰頻率的個數(shù)不同,則對應(yīng)所述相對應(yīng)的幀中的共振峰參數(shù)的每個共振峰頻率,以使所述相對應(yīng)幀中的共振峰參數(shù)的共振峰頻率的個數(shù)相等。
10.根據(jù)權(quán)利要求9所述的方法,其中,對應(yīng)每個共振峰頻率包括:
估計相對應(yīng)的幀中的兩個之間的共振峰參數(shù)的每個共振峰頻率的相似度;以及
對應(yīng)兩個相對應(yīng)的幀中具有高于閾值的相似度的兩個共振峰頻率。
11.根據(jù)權(quán)利要求10所述的方法,其中,對應(yīng)兩個共振峰頻率包括:
如果所述相似度不高于所述閾值,則生成具有零功率和與所述兩個共振峰頻率的一個相同的共振峰頻率的虛擬共振峰;以及
將所述虛擬共振峰與所述兩個共振峰頻率的一個相對應(yīng)。
12.根據(jù)權(quán)利要求6所述的方法,其中,生成融合語音單元包括:
根據(jù)所述多個語音單元的每一個的共振峰參數(shù)所包含的共振峰頻率、相位和功率生成正弦波;
通過將所述窗函數(shù)與所述正弦波相乘來生成所述多個語音單元的每一個的共振峰波形;
通過將所述多個語音單元的每一個的共振峰波形相加來生成每個幀的基音波形;以及
通過疊加每個幀的基音波形來生成融合語音單元。
13.根據(jù)權(quán)利要求1所述的方法,其中,生成融合共振峰參數(shù)包括:平滑每個幀的共振峰參數(shù)所包含的共振峰參數(shù)的變化。
14.根據(jù)權(quán)利要求1所述的方法,其中,選擇包括:
估計所述目標語音和使用所述多個語音單元生成的合成語音之間的失真度;以及
對于每個段,選擇所述多個語音單元以使所述失真度變得最小。
15.一種合成語音的裝置,包括:
分割部,用于將與目標語音對應(yīng)的音素序列分割成多個段;
語音單元存儲器,用于存儲具有至少一個幀的語音單元;
語音單元選擇部,用于對于每個段從所述語音單元存儲器中選擇多個語音單元,所述多個語音單元具有與所述目標語音一致或相似的韻律特征;
共振峰參數(shù)生成部,用于對于所述多個語音單元的每個幀生成具有至少一個共振峰頻率的共振峰參數(shù);
融合共振峰參數(shù)生成部,用于根據(jù)所述多個語音單元的每個幀的共振峰參數(shù)生成每個幀的融合共振峰參數(shù);
融合語音單元生成部,用于根據(jù)每個幀的融合共振峰參數(shù)生成每個段的融合語音單元;以及
合成部,用于通過拼接每個段的融合語音單元來生成合成語音。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于株式會社東芝,未經(jīng)株式會社東芝許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810215486.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類





