[發明專利]將文本轉換為語音的系統及其存儲介質在審
| 申請號: | 202110055085.3 | 申請日: | 2018-03-29 |
| 公開(公告)號: | CN112767915A | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | S.本吉奧;Y.王;Z.楊;Z.陳;Y.吳;I.阿吉奧米詹納基斯;R.J.韋斯;N.杰特里;R.M.里夫金;R.A.J.克拉克;Q.V.勒;R.J.瑞安;Y.肖 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G10L13/08 | 分類號: | G10L13/08;G10L13/04;G10L25/18;G10L25/30 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 周亞榮;鄧聰惠 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 轉換 語音 系統 及其 存儲 介質 | ||
本公開涉及將文本轉換為語音的系統及其存儲介質。用于從文本生成語音的方法、系統和裝置,包括編碼在計算機存儲介質上的計算機程序。系統之一包括一個或多個計算機和存儲指令的一個或多個存儲設備,當指令被一個或多個計算機執行時,使得一個或多個計算機實施:序列到序列遞歸神經網絡,其被配置為:接收以特定自然語言的字符序列,并處理該字符序列以生成以特定自然語言的字符序列的言語表達的譜圖;以及子系統,其被配置為:接收以特定自然語言的字符序列,并將該字符序列作為輸入提供給序列到序列遞歸神經網絡,以獲得以特定自然語言的字符序列的言語表達的譜圖作為輸出。
分案說明
本申請屬于申請日為2018年3月29日的中國發明專利申請201880021978.2的分案申請。
相關申請的交叉引用
本申請是于2017年3月29日提交的希臘專利申請第20170100126號的非臨時申請,并要求其優先權,該申請的全部內容通過引用結合于此。
技術領域
本說明書涉及使用神經網絡將文本轉換為語音。
背景技術
神經網絡是機器學習模型,它采用非線性單元的一層或多層來預測接收輸入的輸出。一些神經網絡除了輸出層之外還包括一個或多個隱藏層。每個隱藏層的輸出被用作網絡中下一層(即下一隱藏層或輸出層)的輸入。網絡的每一層根據相應參數集的當前值從接收輸入生成輸出。
一些神經網絡是遞歸神經網絡。遞歸神經網絡是接收輸入序列并從輸入序列生成輸出序列的神經網絡。具體地,遞歸神經網絡可以在計算在當前時間步(time step)中的輸出時使用來自前一時間步的網絡的一些或全部內部狀態。遞歸神經網絡的一個示例是包括一個或多個長短期(long short term,LSTM)存儲器塊的LSTM神經網絡。每個LSTM存儲器塊可以包括一個或多個單元,每個單元包括輸入門、遺忘門和輸出門,其允許單元存儲單元的先前狀態,例如,用于在生成電流激活時使用或被提供給LSTM神經網絡的其他組件。
發明內容
本說明書描述了在一個或多個位置的一個或多個計算機上實施為將文本轉換為語音的計算機程序的系統。
一般而言,一個創新方面可以體現在一種系統,該系統包括一個或多個計算機和存儲指令的一個或多個存儲設備,當由一個或多個計算機執行該指令時,使得一個或多個計算機實施:序列到序列遞歸神經網絡,其被配置為:接收以特定自然語言的字符序列,并處理字符序列以生成以特定自然語言的字符序列的言語表達的譜圖;以及子系統,被配置為:接收以特定自然語言的字符序列,并將該字符序列作為輸入提供給序列到序列遞歸神經網絡,以獲得以特定自然語言的字符序列的言語表達的譜圖作為輸出。子系統還可以被配置為使用以特定自然語言的輸入的字符序列的言語表達的譜圖來生成語音;并且提供生成的語音用于回放。
本說明書中描述的主題可以在特定實施例中實施,以便實現一個或多個以下優點。通過在幀級(frame level)生成語音,本說明書中描述的系統可以比其他系統更快地從文本生成語音,同時生成具有相當的質量或甚至更好質量的語音。另外,如下文將更詳細解釋的,本文描述的系統可以減小模型大小、訓練時間和推理時間,并且還可以顯著提高收斂速度。本說明書中描述的系統可以生成高質量的語音,而不需要手動設計的語言特征或復雜組件,例如,不需要隱馬爾可夫模型(Hidden Markov Model,HMM)對準器,從而降低復雜性并使用更少的計算資源,同時仍然生成高質量的語音。
本說明書主題的一個或多個實施例的細節在附圖和以下描述中闡述。從說明書、附圖和權利要求書中,主題的其他特征、方面和優點將變得顯而易見。
附圖說明
圖1示出了示例文本到語音轉換系統。
圖2示出了示例CBHG神經網絡。
圖3是用于將字符序列轉換為語音的示例過程的流程圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110055085.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種汽油切割機
- 下一篇:一種醫疔護理用方便起臥的病床





