[發(fā)明專利]文本到語音的方法和系統(tǒng)無效
| 申請?zhí)枺?/td> | 201310081220.7 | 申請日: | 2013-03-14 |
| 公開(公告)號: | CN103310784A | 公開(公告)日: | 2013-09-18 |
| 發(fā)明(設(shè)計)人: | 赤嶺政巳;L-M·哈維爾;W·V·P·梁;C·K·康;G·M·J·弗朗西斯;K·K·馬里;C·B·哈 | 申請(專利權(quán))人: | 株式會社東芝 |
| 主分類號: | G10L13/027 | 分類號: | G10L13/027;G10L13/04 |
| 代理公司: | 北京市中咨律師事務(wù)所 11247 | 代理人: | 劉薇;楊曉光 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 語音 方法 系統(tǒng) | ||
1.一種文本到語音的方法,用于模擬多個不同的聲音特性,所述方法包括:
輸入文本;
將所輸入的文本劃分成聲學(xué)單元序列;
選擇用于所輸入的文本的聲音特性;
使用聲學(xué)模型,將所述聲學(xué)單元序列轉(zhuǎn)換成語音向量序列,其中所述模型具有多個模型參數(shù),其描述將聲學(xué)單元與語音向量相關(guān)的概率分布;以及
輸出所述語音向量序列,作為具有所選擇的聲音特性的音頻;
其中,在所選擇的聲音特性中每個概率分布的預(yù)定類型的參數(shù)被表示為相同類型的參數(shù)的加權(quán)和,其中所使用的權(quán)重是依賴聲音特性的,以使得將所述聲學(xué)單元序列轉(zhuǎn)換成語音向量序列包括獲取用于所選擇的聲音特性的聲音特性依賴權(quán)重,其中,所述參數(shù)在聚類中提供,每個聚類包括至少一個子聚類,其中對于每個聚類,獲取所述聲音特性依賴權(quán)重,以使得每個子聚類有一個權(quán)重。
2.如權(quán)利要求1所述的文本到語音的方法,其中,每個子聚類包括至少一個決策樹,所述決策樹基于與語言差異、語音差異或韻律差異中的至少一個有關(guān)的問題。
3.如權(quán)利要求2所述的文本到語音的方法,其中,所述聚類的決策樹之間的結(jié)構(gòu)有差異。
4.如權(quán)利要求1所述的文本到語音的方法,其中,所述多個聲音特性從不同的說話者聲音、不同的說話者風格、不同的說話者情緒或者不同的口音的至少一個中選擇。
5.如權(quán)利要求1所述的文本到語音的方法,其中,所述概率分布從高斯分布、泊松分布、伽馬分布、學(xué)生t分布或拉普拉斯分布中選擇。
6.如權(quán)利要求1所述的文本到語音的方法,其中,選擇聲音特性包括:提供輸入以允許所述權(quán)重通過所述輸入選擇。
7.如權(quán)利要求1所述的文本到語音的方法,其中,選擇聲音特性包括:根據(jù)將要被輸出的文本預(yù)測應(yīng)當被使用的權(quán)重。
8.如權(quán)利要求1所述的文本到語音的方法,其中,選擇聲音特性包括:根據(jù)有關(guān)說話者的類型的外部信息預(yù)測應(yīng)當被使用的權(quán)重。
9.如權(quán)利要求1所述的文本到語音的方法,其中,選擇聲音特性包括:接收包含聲音的音頻輸入,以及改變所述權(quán)重以模擬所述音頻輸入的所述聲音的聲音特性。
10.如權(quán)利要求1所述的文本到語音的方法,其中,選擇聲音特性包括:從預(yù)先存儲的多組權(quán)重中隨機選擇一組權(quán)重,其中,每組權(quán)重包括用于所有子聚類的權(quán)重。
11.如權(quán)利要求1所述的文本到語音的方法,其中,選擇聲音特性包括:接收包括多個值的輸入,以及將所述多個值映射到所述權(quán)重。
12.如權(quán)利要求11所述的文本到語音的方法,其中,所述多個值占用n維值空間,所述權(quán)重占用w維權(quán)重空間,其中n和w是整數(shù)且w大于n,以使得所述變換將輸入值變換到更高維度空間。
13.如權(quán)利要求12所述的文本到語音的方法,其中,所述多個值直接表示可識別的說話者特性。
14.一種使文本到語音的系統(tǒng)適配在音頻文件中提供的聲音特性的方法,所述文本到語音的系統(tǒng)包括:
處理器,其被配置為:
接收文本輸入;
將所輸入的文本劃分成聲學(xué)單元序列;
選擇用于所輸入的文本的聲音特性;
使用聲學(xué)模型,將所述聲學(xué)單元序列轉(zhuǎn)換成語音向量序列,其中,所述模型具有多個模型參數(shù),其描述將聲學(xué)單元與語音向量相關(guān)的概率分布;以及
輸出所述語音向量序列,作為具有所選擇的聲音特性的音頻;
其中,在所選擇的聲音特性中每個概率分布的預(yù)定類型的參數(shù)被表示為相同類型的參數(shù)的加權(quán)和,其中,所使用的權(quán)重是依賴聲音特性的,以使得將所述聲學(xué)單元序列轉(zhuǎn)換成語音向量序列包括獲取用于所選擇的聲音特性的聲音特性依賴權(quán)重,其中,所述參數(shù)在聚類中提供,每個聚類包括至少一個子聚類,其中,對于每個聚類,獲取所述聲音特性依賴權(quán)重,以使得每個子聚類有一個權(quán)重;
所述方法包括:
接收新的輸入音頻文件;
計算應(yīng)用于所述聚類的權(quán)重,以使所生成的語音與新的音頻文件之間的相似性最大。
15.如權(quán)利要求14所述的方法,還包括:
使用來自所述新的音頻文件的數(shù)據(jù)創(chuàng)建新的聚類;以及
計算應(yīng)用于包括所述新的聚類的聚類的權(quán)重,以使所生成的語音與所述新的音頻文件之間的相似性最大。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于株式會社東芝,未經(jīng)株式會社東芝許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310081220.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種蔬菜用中藥殺蟲劑
- 下一篇:一種植物澆水器
- 同類專利
- 專利分類





