[發明專利]一種基于seq2seq網絡的歌詞對齊方法及系統有效
| 申請號: | 202010059082.2 | 申請日: | 2020-01-19 |
| 公開(公告)號: | CN111259188B | 公開(公告)日: | 2023-07-25 |
| 發明(設計)人: | 尹學淵;劉鑫忠;江天宇 | 申請(專利權)人: | 成都潛在人工智能科技有限公司 |
| 主分類號: | G06F16/61 | 分類號: | G06F16/61;G06F16/68;G06F16/683;G06N3/0442;G06N3/0464;G06N3/0455;G06N3/047;G06N3/048;G06N3/08;G10L25/45 |
| 代理公司: | 成都睿道專利代理事務所(普通合伙) 51217 | 代理人: | 賀理興 |
| 地址: | 610000 四川省成都市高新區*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 seq2seq 網絡 歌詞 對齊 方法 系統 | ||
本發明公開了一種基于seq2seq網絡的歌詞對齊方法及系統,方法包括:對歌詞進行處理得到歌詞向量,對音頻進行處理得到起止時間與歌詞對應的人聲頻譜圖;采用seq2seq網絡模型對歌詞向量和對應的頻譜圖進行處理,得到輸入歌詞的注意力矩陣;將注意力矩陣整合解析為字符級別的對齊結果,得到歌詞每個字的開始時間和結束時間。系統包括數據處理模塊對歌詞進行處理得到歌詞向量,對音頻進行處理得到起止時間與歌詞對應的人聲頻譜圖;數據預測模塊采用網絡模型對歌詞向量和對應的頻譜圖進行處理,得到輸入歌詞的注意力矩陣;對齊結果解析模塊用于將注意力矩陣整合解析為字符級別的對齊結果,得到歌詞每個字的開始時間和結束時間。
技術領域
本發明屬于音頻信息處理技術領域,具體地說,涉及一種基于seq2seq網絡的歌詞對齊方法及系統。
背景技術
音樂在人們的生活中發揮著不可替代的作用,不同的音樂能夠帶給人不同的體驗,舒緩的音樂有助于睡眠,快節奏的音樂能夠讓人興奮等等。音樂的組成包括樂曲和歌詞。歌詞能夠傳達歌曲的內容與思想,同樣的樂曲配上不同的歌詞后表達的意思可能就大相徑庭。對于觀眾而言,歌詞能夠幫助理解歌曲的意思,同時,對于喜愛唱歌的觀眾,歌詞能夠便于觀眾閱讀并進行歌曲學習。若歌詞與樂曲不同步不僅影響觀眾的欣賞體驗,同時還干擾觀眾在學習歌曲時對音準的把握。特別是對于喜歡看著歌詞聽曲的觀眾,欣賞體驗感非常不佳。
傳統的歌詞對齊方式多是采用人工憑聽覺確定歌詞在歌曲中的位置,不同的人員對同一首歌曲的時間確認會存在較大差別,同時人工方法工作量大,成本高,耗時長。隨著計算機技術的發展,涌現了一些基于計算機技術的對齊方法。例如申請號為201910650229.2的發明專利公開了一種基于語譜圖識別的歌詞時間戳生成方法,包括:步驟S1:利用音頻空間位置差異分離人聲與伴奏;步驟S2:根據響度與BPM對處理后的音頻作基于行的時間分割;步驟S3:將上述分割后的音頻轉化為語譜圖,并利用圖像識別對其進行基于單字的時間分割,得到所需的歌詞時間戳。采用本發明的技術方案,將原始音頻進行人聲提取,并結合Adaboost模型對其語譜圖進行識別,能有效提高對齊準確性,并大大降低人工對齊的成本。在該方案中,利用音頻空間位置差異分離人聲與伴奏不能將背景音樂與人聲分離干凈,不能較好提取人聲信號。同時采用圖像識別技術來進行基于單字的時間分割,但是在語譜圖上字與字之間很可能是連在一起的,不能夠通過圖像識別確定兩個字之間的分界線。因此,該方法并不能夠很好的將歌詞的每個字都進行對齊。
發明內容
針對現有技術中上述的不足,本發明提供一種基于seq2seq網絡的歌詞對齊方法及系統,該方法應用seq2seq網絡模型的中間結果注意力矩陣來解析成歌詞對齊結果,可以對多種流派的流行歌曲進行字符級別的歌詞對齊操作,準確率高,且識別速度快,極大的降低人工成本,節省時間,提升歌詞對齊效率。該系統應用該對齊方法,系統識別速度快,應用簡單,且對用戶沒有音樂知識儲備要求,適用用戶廣。
為了達到上述目的,本發明采用的解決方案是:一種基于seq2seq網絡的歌詞對齊方法,包括如下步驟:
S1:數據預處理,對歌詞進行處理得到歌詞向量:按句將歌詞文件做字符映射,形成每句歌詞的歌詞向量;對音頻進行處理得到起止時間與歌詞起止時間相對應的人聲頻譜圖,具體包括:
S101:將原始音頻解碼為wave格式,并歸一化至-1~1;
S102:將wave格式的音頻通過平均得到單聲道的音頻;
S103:將單聲道音頻降采樣至8000~44100之間;
S104:從降采樣后的單聲道音頻中分離出人聲波形;
S105:從歌詞文件中提取每一句歌詞的開始時間以及結束時間;
S106:根據歌詞的開始時間以及結束時間對人聲波形進行切段,將人生波形切成開始時間以及結束時間與每一句歌詞對應的片段;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都潛在人工智能科技有限公司,未經成都潛在人工智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010059082.2/2.html,轉載請聲明來源鉆瓜專利網。





