[發明專利]文本到語音的系統無效
| 申請號: | 201310110148.6 | 申請日: | 2013-04-01 |
| 公開(公告)號: | CN103366733A | 公開(公告)日: | 2013-10-23 |
| 發明(設計)人: | 赤嶺政巳;L-M·哈維爾;W·V·P·梁;C·K·康;G·M·J·弗朗西斯;K·K·馬里 | 申請(專利權)人: | 株式會社東芝 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08 |
| 代理公司: | 北京市中咨律師事務所 11247 | 代理人: | 劉薇;楊曉光 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 語音 系統 | ||
1.一種文本到語音的方法,其被配置為輸出具有所選擇的說話者聲音和所選擇的說話者屬性的語音,所述方法包括:
輸入文本;
將所輸入的文本劃分成聲學單元序列;
選擇用于所輸入的文本的說話者;
選擇用于所輸入的文本的說話者屬性;
使用聲學模型,將所述聲學單元序列轉換成語音向量序列;
輸出所述語音向量序列,作為具有所選擇的說話者聲音和所選擇的說話者屬性的音頻;
其中,所述聲學模型包括與說話者聲音有關的第一組參數和與說話者屬性有關的第二組參數,其中,所述第一組參數和所述第二組參數沒有重疊;
其中,選擇說話者聲音包括:從所述第一組參數中選擇給出所述說話者聲音的參數;選擇說話者屬性包括:從所述第二組參數中選擇給出所選擇的說話者屬性的參數。
2.如權利要求1所述的方法,其中,有與不同的說話者屬性有關的多組參數,并且所述多組參數沒有重疊。
3.如權利要求1所述的方法,其中,所述聲學模型包括概率分布函數,其將所述聲學單元與所述語音向量序列相關,并且所述第一組參數和所述第二組參數的選擇修改所述概率分布。
4.如權利要求3所述的方法,其中,所述第二組參數與添加到所述第一組參數中的至少某些參數上的偏移量有關。
5.如權利要求3所述的方法,其中,所述說話者聲音和所述說話者屬性的控制通過所述概率分布的均值的加權和實現,并且所述第一組參數和所述第二組參數的選擇控制所使用的權重。
6.如權利要求5所述的方法,其中,所述第一組參數和所述第二組參數以聚類提供,每個聚類包括至少一個子聚類,對于每個子聚類獲得權重。
7.如權利要求1所述的方法,其中,所述第一組參數和所述第二組參數是連續的,以使得所述說話者聲音能夠在連續的范圍上變化,并且所述聲音屬性能夠在連續的范圍上變化。
8.如權利要求1所述的方法,其中,所述第一組參數和所述第二組參數的值使用音頻、文本、外部代理或其任意組合定義。
9.如權利要求4所述的方法,其中,所述方法被配置為通過將從第一說話者的語音中獲取的第二參數添加到第二說話者的語音上來將語音屬性從第一說話者移植到第二說話者。
10.如權利要求9所述的方法,其中,所述第二參數通過以下步驟獲取:
從用將要被移植的屬性說話的第一說話者接收語音數據;
識別最接近于所述第二說話者的語音數據的所述第一說話者的語音數據;
確定從用將要被移植的屬性說話的第一說話者獲得的語音數據與最接近于所述第二說話者的語音數據的所述第一說話者的語音數據之間的差異;以及
根據所述差異確定所述第二參數。
11.如權利要求10所述的方法,其中,所述差異在將所述聲學單元與所述語音向量序列相關的所述概率分布的均值之間確定。
12.如權利要求10所述的方法,其中,所述第二參數被確定為所述差異的函數,所述函數是線性函數。
13.如權利要求11所述的方法,其中,識別最接近于所述第二說話者的語音數據的所述第一說話者的語音數據包括:最小化取決于所述第一說話者的語音數據的概率分布和所述第二說話者的語音數據的概率分布的距離函數。
14.如權利要求13所述的方法,其中,所述距離函數是歐氏距離、巴氏距離或KL距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社東芝,未經株式會社東芝許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310110148.6/1.html,轉載請聲明來源鉆瓜專利網。





