[發明專利]節拍檢測方法、裝置、電子設備和存儲介質在審
| 申請號: | 202110095426.X | 申請日: | 2021-01-25 |
| 公開(公告)號: | CN112908288A | 公開(公告)日: | 2021-06-04 |
| 發明(設計)人: | 崔凡;張晨 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G10H1/40 | 分類號: | G10H1/40;G06N3/04;G06N3/08 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 曾世驍;蘇銀虹 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 節拍 檢測 方法 裝置 電子設備 存儲 介質 | ||
本公開提供了一種節拍檢測方法、裝置、電子設備和存儲介質,所述方法的訓練節拍預測方法包括:從訓練樣本數據集獲取具有大幅度節拍變化的多個訓練樣本數據;提取所述多個訓練樣本數據的頻域特征,將提取的頻域特征輸入節拍預測模型并獲得所述多個訓練樣本數據的節拍概率預測值;通過目標損失函數計算所述多個訓練樣本數據的節拍概率預測值與所述多個訓練樣本數據的節拍標注之間的偏差,并根據偏差調整節拍預測模型的參數。
技術領域
本公開涉及音視頻技術領域,尤其涉及一種檢測音樂節拍的節拍檢測方法、裝置、電子設備和存儲介質。
背景技術
節拍是音樂中表示固定單位時值和強弱規律的組織形式,節拍檢測是音樂信息檢索領域的重要任務之一。節拍檢測算法通過分析音頻數據來自動識別節拍位置。準確的節拍檢測算法可以被應用于很多方面,如視頻制作、游戲、音樂風格轉變等。近些年來,深度學習的發展使得各個領域有了更多的可能性去解決之前難以處理的問題。在算力和數據的支撐下,越來越多的基于神經網絡的算法應用到具體的產業中。對于節拍檢測算法,深度學習可以被應用于兩個方面:第一個方面是利用深度神經網絡對數據提取深層特征;第二個方面是利用深度學習挖掘數據序列之間的相關性。相比與相關技術的節拍檢測算法,基于深度學習的節拍檢測方法依賴于更少的先驗知識和人工設定的參數,在不同類型的音樂種類上都取得了較大的效果提升。
但是,深度學習需要大量的數據支持,現有的節拍檢測數據庫相對有限,且節拍檢測的標注因為人工主觀的差異會有一些偏差,這就導致了相關技術的基于深度學習的節拍檢測算法的幾個問題:一是對數據庫中大量存在的音樂類型擬合的較好,但是對于標注較少的音樂類型擬合的不好;一些算法為了讓算法能適應于不同類型音樂,一般使用多個模型進行建模,導致算法復雜度增加。二是節拍檢測的數據不像簡單的分類問題,存在數據比例不匹配、重復數據太多和數據標注有偏差的問題,導致訓練難以收斂到最優點。
發明內容
本公開提供一種訓練節拍預測模型的方法以及一種使用該方法訓練的節拍預測模型來預測節拍的方法。
根據本公開的第一方面,提供了一種用于訓練節拍預測模型的方法,其特征在于,包括:從訓練樣本數據集獲取具有大幅度節拍變化的多個訓練樣本數據;提取所述多個訓練樣本數據的頻域特征,將提取的頻域特征輸入節拍預測模型并獲得所述多個訓練樣本數據的節拍概率預測值;通過目標損失函數計算所述多個訓練樣本數據的節拍概率預測值與所述多個訓練樣本數據的節拍標注之間的偏差,并根據偏差調整節拍預測模型的參數。
根據本公開的第一方面,所述多個訓練樣本數據中的每個訓練樣本數據是通過對訓練樣本數據集中的至少兩個訓練樣本數據進行拼接而形成的拼接樣本數據,其中,被拼接的至少兩個訓練樣本數據的每分鐘節拍數BPM之間的差大于閾值。
根據本公開的第一方面,在被拼接之前,對被拼接的至少兩個訓練樣本數據的音量和/或倍速進行調整,并且在調整之后從所述至少兩個訓練樣本數據中的每個訓練樣本數據隨機選擇部分數據進行拼接以形成所述拼接樣本數據。
根據本公開的第一方面,訓練樣本數據集中的預定比例的訓練樣本數據被選擇用于拼接生成所述拼接樣本數據。
根據本公開的第一方面,所述根據偏差調整節拍預測模型的參數包括:根據目標損失函數計算與多個訓練樣本數據中的每個訓練樣本數據對應的損失值;根據損失值對所述多個訓練樣本數據中的每個訓練樣本數據分配權重;使用分配了權重的所述多個訓練樣本數據中的每個訓練樣本數據對節拍預測模型的參數進行調整。
根據本公開的第一方面,所述對每個訓練樣本數據的分配權重包括:對與所述多個訓練樣本數據中的每個訓練樣本數據對應的損失值進行排序;剔除排序在前預定范圍和排序在后預定范圍內的損失值所對應的訓練樣本數據;對剔除后的剩余訓練樣本數據中的部分訓練樣本數據賦予高于其他訓練樣本數據的權重。
根據本公開的第一方面,所述對節拍預測模型的參數進行調整使用梯度下降算法來調整節拍預測模型的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110095426.X/2.html,轉載請聲明來源鉆瓜專利網。





