[發明專利]通過使用能量分值來訓練語音合成神經網絡在審
| 申請號: | 202110631060.3 | 申請日: | 2021-06-07 |
| 公開(公告)號: | CN113313183A | 公開(公告)日: | 2021-08-27 |
| 發明(設計)人: | 蒂姆·薩利曼斯;阿列克謝·阿萊克謝耶維奇·格里岑科 | 申請(專利權)人: | 谷歌有限責任公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 周亞榮;鄧聰惠 |
| 地址: | 美國加利*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 通過 使用 能量 分值 訓練 語音 合成 神經網絡 | ||
本公開涉及通過使用能量分值來訓練語音合成神經網絡。方法、系統和裝置,包括被編碼在計算機存儲介質上的計算機程序,用于訓練生成性神經網絡,以通過使用能量分值而將條件文本輸入轉換為音頻輸出。
相關申請的交叉引用
本申請要求于2020年6月5日提交的美國臨時申請No. 63/035,553的優先權。該在先申請的公開內容被認為是本申請的公開 內容的一部分,并且通過引用并入本申請的公開內容中。
技術領域
本申請與訓練神經網絡有關。
背景技術
神經網絡是其中采用一個或多個非線性單元層來針對所接收的輸 入而預測輸出的機器學習模型。除了輸出層之外,一些神經網絡還包 括一個或多個隱藏層。每個隱藏層的輸出被用作在所述網絡中的一個 或多個其他層(即一個或多個其他隱藏層、輸出層、或兩者)的輸入。 所述網絡的每個層根據相應參數集的當前值,由所接收的輸入來生成 輸出。
發明內容
本說明書描述了一種被實施為在一個或多個位置中的一臺或多臺 計算機上計算機程序的系統,該系統訓練被配置為生成輸出音頻數據 的神經網絡。
在一些實施方式中,輸出音頻數據是包括在輸出時間步序列的每 一個處的音頻波樣本的輸出音頻示例。在給定時間步處的音頻樣本可 以是音頻波的幅度值,也可以是壓縮或壓擴的幅度值。
在一些其他實施方式中,輸出音頻數據是用于表示音頻示例的頻 譜圖。在這些實施方式中,在推斷時,系統可以處理所生成的頻譜圖 以生成相應的音頻示例。例如,系統可以通過對生成的頻譜圖應用逆 頻譜圖變換,將生成的頻譜圖線性地投影到波形空間。
本說明書中描述的主題可以在特定實施例中實施,以便實現以下 優點中的一個或多個。
一些現有的語音合成系統依賴于對抗訓練,即訓練系統并行地訓 練語音合成神經網絡和一個或多個鑒別器。這些生成性對抗網絡可能 難以訓練,并且需要許多訓練時期(epoch)才能收斂。使用能量分值 來確定參數更新,如本說明書中所述,允許了系統實現穩定訓練和快 速收斂。
本說明書中描述的前饋生成性神經網絡可以比依賴自回歸生成性 神經網絡(例如WaveNet)的現有技術更快地生成輸出示例,這對于 其中快速批量推理很重要的應用來說很重要。自回歸神經網絡通過在 每個輸出時間步執行前向傳遞,來生成跨多個輸出時間步的輸出示例。 在給定的輸出時間步,自回歸神經網絡生成新的輸出樣本,以被包含 在以已被生成的輸出樣本為條件的輸出示例中。這會消耗大量計算資 源并花費大量時間。另一方面,前饋生成性神經網絡可以在單次前向 傳遞中生成輸出示例,同時保持生成的輸出示例的高質量。相對于有 多少時間被自回歸神經網絡所消耗,這大大減少了生成所述輸出示例 所需的時間和計算資源量。
其他現有技術依賴于可逆前饋神經網絡,該網絡通過使用概率密 度來蒸餾(distilling)自回歸模型而被訓練(例如Parallel WaveNet)。 以這種方式訓練允許可逆前饋神經網絡生成聽起來逼真(realistic)并 且對應于輸入文本的語音信號,而無需對數據中發生的每個可能的變 化進行建模。如在本說明書中描述的前饋生成性神經網絡還可以生成 忠實于輸入文本的逼真音頻樣本,而無需對所述音頻數據的數據分布 進行顯式建模,但在模型大小和訓練時間兩方面都可以更有效地做到 這一點,并且不需要可逆前饋神經網絡的蒸餾和可逆性要求。
在附圖和以下描述中闡述了本說明書的主題的一個或多個實施例 的細節。本主題的其他特征、方面和優點根據說明書、附圖和權利要 求將變得顯而易見。
附圖說明
圖1是用于訓練生成性神經網絡的示例性訓練系統的圖。
圖2是示出所述訓練過程的圖。
圖3是用于訓練生成性神經網絡的示例性過程的流程圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌有限責任公司,未經谷歌有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110631060.3/2.html,轉載請聲明來源鉆瓜專利網。





