[發明專利]一種基于seq2seq網絡的歌詞對齊方法及系統有效
| 申請號: | 202010059082.2 | 申請日: | 2020-01-19 |
| 公開(公告)號: | CN111259188B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 尹學淵;劉鑫忠;江天宇 | 申請(專利權)人: | 成都潛在人工智能科技有限公司 |
| 主分類號: | G06F16/61 | 分類號: | G06F16/61;G06F16/68;G06F16/683;G06N3/0442;G06N3/0464;G06N3/0455;G06N3/047;G06N3/048;G06N3/08;G10L25/45 |
| 代理公司: | 成都睿道專利代理事務所(普通合伙) 51217 | 代理人: | 賀理興 |
| 地址: | 610000 四川省成都市高新區*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 seq2seq 網絡 歌詞 對齊 方法 系統 | ||
1.一種基于seq2seq網絡的歌詞對齊方法,其特征在于:包括如下步驟:
S1:數據預處理,對歌詞進行處理得到歌詞向量,對音頻進行處理得到起止時間與歌詞起止時間相對應的人聲頻譜圖;
S2:數據預測,采用seq2seq網絡模型對歌詞向量和對應的頻譜圖進行處理,得到輸入歌詞的注意力矩陣;seq2seq網絡模型是訓練好的模型;seq2seq網絡模型首先經過訓練,得到對應風格的歌曲的模型;所述的seq2seq網絡模型包括編碼模塊和注意力模塊,編碼模塊將輸入的歌詞向量進行編碼后得到hidden?state?H,大小為(hid_dim,n_lyrics);編碼模塊將頻譜圖的每一幀進行編碼后得到hidden?state?s,大小為(hid_dim,1),所有幀的向量維度是(hid_dim,n_frame);歌詞編碼輸入(hid_dim,n_lyrics)和每一幀頻譜圖的頻譜編碼輸入(hid_dim,1)共同輸入注意力模塊,注意力模塊對歌詞編碼輸入和頻譜編碼輸入進行處理得到形狀為(n_frame,n_lyrics)的輸入歌詞注意力矩陣;其中,hidden?state?H表示神經網絡中的隱狀態;
S3:將注意力矩陣整合解析為字符級別的對齊結果,得到歌詞每個字的開始時間以及結束時間。
2.根據權利要求1所述的基于seq2seq網絡的歌詞對齊方法,其特征在于:所述的對歌詞進行處理具體包括:按句將歌詞文件做字符映射,形成每句歌詞的歌詞向量;
所述的對音頻進行處理得到起止時間與歌詞起止時間相對應的人聲頻譜圖具體包括:
S101:將原始音頻解碼為wave格式,并歸一化至-1~1;
S102:將wave格式的音頻通過平均得到單聲道的音頻;
S103:將單聲道音頻降采樣至8000~44100之間;
S104:從降采樣后的單聲道音頻中分離出人聲波形;
S105:從歌詞文件中提取每一句歌詞的開始時間以及結束時間;
S106:根據歌詞的開始時間以及結束時間對人聲波形進行切段;
S107:將切段結果進行短時傅立葉變換得到人聲頻譜圖。
3.根據權利要求2所述的基于seq2seq網絡的歌詞對齊方法,其特征在于:所述的短時傅立葉變換的步幅為256,窗口大小為1024,所述的人聲頻譜圖為80通道的人聲頻譜圖。
4.根據權利要求1所述的基于seq2seq網絡的歌詞對齊方法,其特征在于:所述的注意力模塊對歌詞編碼輸入和頻譜編碼輸入進行處理具體包括:旋轉歌詞編碼輸入為(n_lyrics,hid_dim)與頻譜編碼輸入做點乘得到大小為(n_lyrics,1)的分數;對分數做softmax得到一個和為1的權重,用于對分數加權;將歌詞編碼輸入與加權后的分數做點乘得到一個大小為(hid_dim,1)的向量,將頻譜編碼的所有輸入計算的向量集合得到注意力矩陣。
5.根據權利要求1所述的基于seq2seq網絡的歌詞對齊方法,其特征在于:所述的編碼模塊的卷積數量為3,卷積核的大小為5,編碼模塊得到的向量長度為512;所述的注意力模塊的神經元數量為1024,學習率為1e-3。
6.根據權利要求1所述的基于seq2seq網絡的歌詞對齊方法,其特征在于:所述的將注意力矩陣整合解析為字符級別的對齊結果具體包括:
S301:從注意力矩陣中獲取每個字對應的子矩陣;
S302:獲取每個子矩陣中首行和尾行的最大值的索引;
S303:獲取上述最大值的索引對應的時間點,作為每個字各自演唱的開始時間和結束時間。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都潛在人工智能科技有限公司,未經成都潛在人工智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010059082.2/1.html,轉載請聲明來源鉆瓜專利網。





