[發明專利]將文本轉換為語音的系統及其存儲介質在審
| 申請號: | 202110055085.3 | 申請日: | 2018-03-29 |
| 公開(公告)號: | CN112767915A | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | S.本吉奧;Y.王;Z.楊;Z.陳;Y.吳;I.阿吉奧米詹納基斯;R.J.韋斯;N.杰特里;R.M.里夫金;R.A.J.克拉克;Q.V.勒;R.J.瑞安;Y.肖 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L13/04;G10L25/18;G10L25/30 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 周亞榮;鄧聰惠 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 轉換 語音 系統 及其 存儲 介質 | ||
1.一種計算機實現的方法,所述方法用于使用包括序列到序列遞歸神經網絡的文本到語音轉換系統從特定自然語言的字符序列生成所述特定自然語言的所述字符序列的言語表達的譜圖,其中,所述序列到序列遞歸神經網絡包括編碼器神經網絡和基于注意力的解碼器遞歸神經網絡,所述方法包括:
在所述編碼器神經網絡處接收所述特定自然語言的所述字符序列;
使用所述編碼器神經網絡處理所述字符序列以生成序列中的每個字符的相應編碼表示;
接收解碼器輸入序列;
對于所述解碼器輸入序列中的每個解碼器輸入,使用所述基于注意力的解碼器神經網絡處理該解碼器輸入和所述編碼表示以生成所述譜圖的多個幀;以及
從所述特定自然語言的所述字符序列的言語表達的所述譜圖生成波形。
2.根據權利要求1所述的方法,其中,所述編碼器神經網絡包括編碼器預網神經網絡以及編碼器CBHG神經網絡,并且
其中,使用所述文本到語音轉換系統的所述編碼器神經網絡處理所述字符序列以生成序列中的每個字符的相應編碼表示包括:
使用所述編碼器預網神經網絡接收序列中的每個字符的相應嵌入,
使用所述編碼器預網神經網絡處理所述序列中的每個字符的所述相應嵌入以生成該字符的相應變換的嵌入,以及
使用所述編碼器CBHG神經網絡處理所述序列中的每個字符的相應變換的嵌入以生成該字符的相應編碼表示。
3.根據權利要求2所述的方法,其中,所述編碼器CBHG神經網絡包括1-D卷積濾波器組,隨后是高速通道網絡,并且隨后是雙向遞歸神經網絡。
4.根據權利要求3所述的方法,其中,所述雙向遞歸神經網絡是門控遞歸單元神經網絡。
5.根據權利要求3所述的方法,其中,所述編碼器CBHG包括所述變換的嵌入和所述1-D卷積濾波器組的輸出之間的殘差連接。
6.根據權利要求3所述的方法,其中,所述1-D卷積濾波器組包括沿時間層、步幅為1的最大池化。
7.根據權利要求1所述的方法,其中,所述序列中的第一解碼器輸入是預定初始幀。
8.根據權利要求1所述的方法,其中,所述譜圖是壓縮譜圖。
9.根據權利要求8所述的方法,其中,所述壓縮譜圖是梅爾尺度譜圖。
10.根據權利要求8所述的方法,還包括:
處理所述壓縮譜圖以生成波形合成器輸入;以及
使用所述文本到語音轉換系統的波形合成器處理所述波形合成器輸入以生成所述特定自然語言的輸入的字符序列的所述言語表達的所述波形。
11.根據權利要求1所述的方法,還包括:
使用所述波形生成語音,并且
提供生成的語音用于回放。
12.根據權利要求10所述的方法,其中,所述波形合成器是可訓練譜圖到波形逆變器。
13.根據權利要求10所述的方法,其中,所述波形合成器是聲音合成器。
14.根據權利要求10所述的方法,其中,所述波形合成器輸入是所述特定自然語言的輸入的字符序列的所述言語表達的線性尺度譜圖。
15.一個或多個存儲指令的非暫時性計算機存儲介質,所述指令在被一個或多個計算機執行時,使得所述一個或多個計算機執行根據權利要求1至14中的任意一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110055085.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種汽油切割機
- 下一篇:一種醫疔護理用方便起臥的病床





