[發明專利]使用神經網絡生成音頻在審
| 申請號: | 202011082855.5 | 申請日: | 2017-09-06 |
| 公開(公告)號: | CN112289342A | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | A.G.A.范登奧德;S.E.L.迪爾曼;N.E.卡爾赫布倫納;K.西蒙延;O.文雅爾斯 | 申請(專利權)人: | 淵慧科技有限公司 |
| 主分類號: | G10L25/30 | 分類號: | G10L25/30;G10L13/06;G06N3/04 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 金玉潔 |
| 地址: | 英國*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 神經網絡 生成 音頻 | ||
1.一種用于訓練具有多個參數的神經網絡系統的方法,所述方法包括:
獲得音頻數據的訓練序列,所述音頻數據的訓練序列包括在多個時間步中的每一個處的相應音頻樣本,
使用所述神經網絡系統的卷積子網絡處理所述音頻數據的訓練序列,所述卷積子網絡包括一個或多個音頻處理卷積神經網絡層,其中所述卷積子網絡被配置為對于多個時間步中的每一個:
接收包括所述音頻數據的訓練序列中所述時間步之前的每個時間步處的相應音頻樣本的音頻數據的當前序列,以及
處理音頻數據的當前序列以生成所述時間步的替代表示;
使用所述神經網絡系統的輸出層處理所述多個時間步的替代表示,其中所述輸出層被配置為對于多個時間步中的每一個:
接收所述時間步的替代表示,以及
處理所述時間步的替代表示以生成定義所述時間步的多個可能的音頻樣本上的分數分布的輸出;和
對于所述多個時間步中的每一個,基于(i)所述時間步的多個可能的音頻樣本上的分數分布和(ii)所述音頻數據的訓練序列中所述時間步處的所述音頻樣本訓練所述神經網絡系統的所述多個參數。
2.根據權利要求1所述的方法,其中,所述神經網絡系統的卷積子網絡與處理每個其它時間步的音頻數據的當前序列實質并行地處理每個時間步的音頻數據的當前序列。
3.根據權利要求1所述的方法,其中訓練所述神經網絡系統的多個參數包括使用基于反向傳播技術訓練所述神經網絡系統的多個參數。
4.根據權利要求1所述的方法,
其中所述多個時間步中的每一個與音頻波形中的相應時間對應,在所述多個時間步中的每一個處的相應音頻樣本是在對應時間處的音頻波形的幅度值,以及所述多個時間步中的每一個的相應分數分布包括多個可能的幅度值上的分數分布。
5.根據權利要求1所述的方法,其中所述多個時間步中的每一個與音頻波形中的相應時間對應,在所述多個時間步中的每一個處的相應音頻樣本是在對應時間處的音頻波形的壓縮表示,并且所述多個時間步中的每一個的相應分數分布包括在多個可能的壓縮值上的分數分布。
6.根據權利要求1所述的方法,其中所述多個時間步中的每一個對應于音頻波形中的相應時間,在所述多個時間步中的每一個處的相應音頻樣本是在對應時間處的音頻波形的縮擴表示,并且所述多個時間步中的每一個的相應分數分布包括在多個可能的縮擴值上的分數分布。
7.根據權利要求1所述的方法,其中所述音頻處理卷積神經網絡層是因果卷積神經網絡層。
8.根據權利要求1所述的方法,其中所述音頻處理卷積神經網絡層包括一個或多個擴張卷積神經網絡層。
9.根據權利要求1所述的方法,其中所述音頻處理卷積神經網絡層包括擴張卷積神經網絡層的多個塊,其中每個塊包括具有增大的擴張因子的多個擴張卷積神經網絡層。
10.根據權利要求1所述的方法,其中所述音頻處理卷積神經網絡層中的一個或多個具有門控激活單元。
11.根據權利要求1所述的方法,其中,在所述多個時間步中的每一個處,基于提供給所述神經網絡系統的附加輸入調節所述替代表示。
12.根據權利要求11所述的方法,其中所述附加輸入包括文本段的特征,并且其中所述音頻數據的訓練序列表示所述文本段的言語表達。
13.根據權利要求12所述的方法,其中,所述附加輸入還包括語調模式值。
14.根據權利要求11所述的方法,其中,所述附加輸入包括以下中的一個或多個:說話者標識信息、語言標識信息和說話風格信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淵慧科技有限公司,未經淵慧科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011082855.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種層疊澆筑式混凝土樁及其澆筑工藝
- 下一篇:一種改性塑料制備工藝





