[發(fā)明專利]一種混合語言語音合成方法及裝置有效
| 申請?zhí)枺?/td> | 201710582572.9 | 申請日: | 2017-07-17 |
| 公開(公告)號: | CN107481713B | 公開(公告)日: | 2020-06-02 |
| 發(fā)明(設計)人: | 王東;張之勇 | 申請(專利權)人: | 清華大學;北京孚睿星辰智能科技有限責任公司 |
| 主分類號: | G10L13/02 | 分類號: | G10L13/02;G10L13/04;G10L15/07 |
| 代理公司: | 北京路浩知識產(chǎn)權代理有限公司 11002 | 代理人: | 王瑩;曹杰 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 混合 語言 語音 合成 方法 裝置 | ||
1.一種混合語言語音合成方法,其特征在于,包括:
獲取待合成文本,并提取所述待合成文本的語言學特征向量;
獲取特定說話人的語音數(shù)據(jù),并根據(jù)所述特定說話人的語音數(shù)據(jù)提取所述特定說話人的說話人向量;
將所述待合成文本的語言學特征向量和所述特定說話人的說話人向量進行拼接,獲得所述待合成文本的語音合成輸入向量;
根據(jù)所述待合成文本的語音合成輸入向量和預先建立的混合語言語音合成模型,獲得所述待合成文本的特定說話人的合成語音;
所述混合語言語音合成模型建立的步驟包括:
獲取預設數(shù)量的多個說話人的混合語言語音數(shù)據(jù)以及相應的混合語言文本;
根據(jù)所述多個說話人的混合語言語音數(shù)據(jù)分別提取所述多個說話人的語音學特征向量和所述多個說話人的說話人向量;
根據(jù)所述混合語言文本提取所述混合語言文本的語言學特征向量;
將所述混合語言文本的語言學特征向量和所述多個說話人的說話人向量進行拼接,獲得模型訓練輸入向量;
根據(jù)所述模型訓練輸入向量和所述多個說話人的語音學特征向量,構建所述混合語言語音合成模型。
2.根據(jù)權利要求1所述的方法,其特征在于,所述多個說話人包括同種語言的不同說話人和不同語言的不同說話人。
3.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)所述模型訓練輸入向量和所述多個說話人的語音學特征向量,構建所述混合語言語音合成模型包括:
采用遞歸神經(jīng)網(wǎng)絡模型,根據(jù)所述模型訓練輸入向量和所述多個說話人的語音學特征向量,構建所述混合語言語音合成模型。
4.根據(jù)權利要求1所述的方法,其特征在于,所述提取所述特定說話人的說話人向量包括:
采用辨別矢量模型、卷積神經(jīng)網(wǎng)絡模型或者循環(huán)神經(jīng)網(wǎng)絡模型,提取所述特定說話人的說話人向量。
5.一種混合語言語音合成裝置,其特征在于,包括:
第一提取單元,用于獲取待合成文本,并提取所述待合成文本的語言學特征向量;
第二提取單元,用于獲取特定說話人的語音數(shù)據(jù),并根據(jù)所述特定說話人的語音數(shù)據(jù)提取所述特定說話人的說話人向量;
拼接單元,用于將所述待合成文本的語言學特征向量和所述特定說話人的說話人向量進行拼接,獲得所述待合成文本的語音合成輸入向量;
合成單元,用于根據(jù)所述待合成文本的語音合成輸入向量和預先建立的混合語言語音合成模型,獲得所述待合成文本的特定說話人的合成語音;
獲取單元,用于獲取預設數(shù)量的多個說話人的混合語言語音數(shù)據(jù)以及相應的混合語言文本;
第三提取單元,用于根據(jù)所述多個說話人的混合語言語音數(shù)據(jù)分別提取所述多個說話人的語音學特征向量和所述多個說話人的說話人向量;
第四提取單元,用于根據(jù)所述混合語言文本提取所述混合語言文本的語言學特征向量;
獲得單元,用于將所述混合語言文本的語言學特征向量和所述多個說話人的說話人向量進行拼接,獲得模型訓練輸入向量;
構建單元,用于根據(jù)所述模型訓練輸入向量和所述多個說話人的語音學特征向量,構建所述混合語言語音合成模型。
6.根據(jù)權利要求5所述的裝置,其特征在于,所述多個說話人包括同種語言的不同說話人和不同語言的不同說話人。
7.一種電子設備,其特征在于,包括:處理器、存儲器和通信總線,其中:
所述處理器和所述存儲器通過所述通信總線完成相互間的通信;
所述存儲器存儲有可被所述處理器執(zhí)行的程序指令,所述處理器調(diào)用所述程序指令能夠執(zhí)行如權利要求1至4任一項所述的方法。
8.一種非暫態(tài)計算機可讀存儲介質(zhì),其特征在于,所述非暫態(tài)計算機可讀存儲介質(zhì)存儲計算機指令,所述計算機指令使所述計算機執(zhí)行如權利要求1至4任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學;北京孚睿星辰智能科技有限責任公司,未經(jīng)清華大學;北京孚睿星辰智能科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710582572.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:消聲器
- 下一篇:一種紙質(zhì)文本音頻化與播放系統(tǒng)





