[發明專利]語音合成設備有效
| 申請號: | 201210179123.7 | 申請日: | 2012-06-01 |
| 公開(公告)號: | CN102810310A | 公開(公告)日: | 2012-12-05 |
| 發明(設計)人: | 才野慶二郎 | 申請(專利權)人: | 雅馬哈株式會社 |
| 主分類號: | G10L13/04 | 分類號: | G10L13/04 |
| 代理公司: | 北京天昊聯合知識產權代理有限公司 11112 | 代理人: | 陳源;張天舒 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 合成 設備 | ||
1.一種用于使用多個語音段數據合成語音信號的設備,每個語音段數據表示含有至少兩個對應于不同音素的音素片段的語音段,所述設備包括:
語音段調整部分,其根據第一語音段和第二語音段來形成目標片段以便將第一語音段和第二語音段相互連接,使得所述目標片段由與輔音音素對應的第一語音段的后部音素片段和與所述輔音音素對應的第二語音段的前部音素片段形成,并且所述語音段調整部分執行用于將所述目標片段擴展到目標時間長度以形成調整片段的擴展處理,使得以比所述目標片段的前部分和后部分的擴展率高的擴展率來擴展所述目標片段的中間部分,從而產生具有所述目標時間長度并且與所述輔音音素對應的調整片段的合成語音段數據;以及
語音合成部分,其根據由所述語音段調整部分產生的合成語音段數據來產生語音信號。
2.根據權利要求1的設備,
其中每個語音段數據包括與排列在時間軸上的多個幀對應的多個單位數據,并且
其中,在所述目標片段對應于濁輔音音素的情況下,所述語音段調整部分將所述目標片段擴展成所述調整片段,使得所述調整片段包含與所述目標片段的前部分對應的單位數據的時間序列、通過對與所述目標片段的中心點對應的單位數據進行重復而得到的多個重復單位數據的時間序列、以及與所述目標片段的后部分對應的多個單位數據的時間序列。
3.根據權利要求2的設備,
其中所述濁輔音音素的幀的單位數據包括對語音頻譜的包絡線中的形狀的特性進行指示的包絡數據和對該語音的頻譜進行表示的頻譜數據,并且
其中所述語音段調整部分產生與所述目標片段的中心點對應的單位數據,使得產生的單位數據包括通過對所述目標片段的中心點前后的單位數據的包絡數據進行內插而得到的包絡數據以及恰在該中心點前后的單位數據的頻譜數據。
4.根據權利要求1的設備,
其中所述語音段數據包括與排列在時間軸上的多個幀對應的多個單位數據,
其中在所述目標片段對應于清輔音音素的情況下,所述語音段調整部分順序地選擇所述目標片段的每個幀的單位數據來作為所述調整片段的每個幀的單位數據,以產生合成語音段數據,并且
其中隨著所述調整片段中的時間流逝對所述目標片段中與所述調整片段中的每個幀對應的每個幀進行改變所采用的速度從所述調整片段的前部分到中心點是減小的,而從所述調整片段的中心點到后部分是增大的。
5.根據權利要求4的設備,
其中清音的幀的單位數據包括了表示清音頻譜的頻譜數據,并且
其中所述語音段調整部分產生所述調整片段的幀的單位數據,使得所產生的單位數據包括了含有預定噪聲成分的頻譜的頻譜數據,其中根據由所述目標片段中的幀的單位數據的頻譜數據所表示的頻譜的包絡線對所述預定噪聲成分進行了調整。
6.根據權利要求1的設備,其中所述語音段調整部分在所述目標片段的輔音音素屬于包括摩擦音和半元音的一種類型的情況下執行所述擴展處理,并且在所述目標片段的輔音音素屬于包括爆破音、塞擦音、鼻音和流音的另一種類型的情況下執行另一擴展處理,所述另一擴展處理用于在所述目標片段中的第一語音段的后部音素片段與第二語音段的前部音素片段之間插入中間片段。
7.根據權利要求6的設備,其中在所述目標片段的輔音音素是爆破音或塞擦音的情況下,所述語音段調整部分在第一語音段的后部音素片段與第二語音段的前部音素片段之間插入無聲片段來作為中間片段。
8.根據權利要求6的設備,其中在所述目標片段的輔音音素是鼻音或流音的情況下,所述語音段調整部分插入包含了對從第一語音段的后部音素片段或第二語音段的前部音素片段中選擇的一個幀進行的重復的中間片段。
9.根據權利要求8的設備,其中所述語音段調整部分插入包含了對第一語音段的后部音素的最后幀進行的重復的中間片段。
10.根據權利要求8的設備,其中所述語音段調整部分插入包含了對第二語音段的前部音素片段的最前幀進行的重復的中間片段。
11.一種使用多個語音段數據合成語音信號的方法,每個語音段數據表示含有至少兩個對應于不同音素的音素片段的語音段,所述方法包括:
根據第一語音段和第二語音段來形成目標片段以便將第一語音段和第二語音段相互連接,使得所述目標片段由與輔音音素對應的第一語音段的后部音素片段和與所述輔音音素對應的第二語音段的前部音素片段形成;
執行用于將所述目標片段擴展到目標時間長度以形成調整片段的擴展處理,使得以比所述目標片段的前部分和后部分的擴展率高的擴展率來擴展所述目標片段的中間部分,從而產生具有所述目標時間長度并且與所述輔音音素對應的調整片段的合成語音段數據;以及
根據所述合成語音段數據來產生語音信號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于雅馬哈株式會社,未經雅馬哈株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210179123.7/1.html,轉載請聲明來源鉆瓜專利網。





