[發明專利]一種音頻文件樂器含量識別向量表示方法及裝置在審
| 申請號: | 202210750836.8 | 申請日: | 2022-06-28 |
| 公開(公告)號: | CN115064184A | 公開(公告)日: | 2022-09-16 |
| 發明(設計)人: | 夏妍;林鋒 | 申請(專利權)人: | 鎂佳(北京)科技有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/30;G06K9/62 |
| 代理公司: | 北京三聚陽光知識產權代理有限公司 11250 | 代理人: | 胡曉靜 |
| 地址: | 100102 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 音頻文件 樂器 含量 識別 向量 表示 方法 裝置 | ||
本發明提供了一種音頻文件樂器含量識別向量表示方法及裝置,其中,音頻文件樂器含量識別向量表示方法包括:將待識別音頻文件劃分為若干音頻數據;將每一音頻數據輸入樂器識別模型,得到每一音頻數據中各樂器的出現概率;在當前音頻數據中第一樂器的出現概率超過預設值時,判定所述當前音頻數據中存在所述第一樂器;分別統計包含每一樂器對應音頻數據的個數;計算各樂器在所述待識別音頻文件中的含量;將各樂器在待識別音頻文件中的含量進行匯總,得到待識別音頻文件的樂器含量向量。在對音頻文件中多種樂器的準確識別的同時,更好地評估樂器含量對音頻文件的影響以及更好地對音頻文件進行分析、分類和推薦,滿足用戶的多種需求。
技術領域
本發明涉及多媒體音頻識別領域,具體涉及一種音頻文件樂器含量識別向量表示方法及裝置。
背景技術
隨著數字格式音樂文件的急速增加,用戶越來越傾向于播放音樂軟件或者硬件能夠根據用戶的播放歷史,找到用戶喜愛的音樂特點,自動推薦出自己喜歡的歌曲。一首歌曲中往往包含有多種樂器,每種樂器音色不同、占整首歌的比例不同,對應歌曲想表達的感情也不盡相同。為了更好地對音樂文件進行推薦,需要對音頻文件中樂器進行更加準確地識別,現有技術雖然可以判斷樂器是否在音頻文件中出現,但很少考慮到樂器含量在音頻文件中的作用。
發明內容
因此,本發明要解決的技術問題在于克服現有技術中的無法準確對歌曲中多種樂器進行準確識別,同時忽略不同樂器在歌曲中所占比重對歌曲影響的缺陷,從而提供一種音頻文件樂器含量識別向量表示方法及裝置。
根據第一方面,本發明實施例提供了一種音頻文件樂器含量識別向量表示方法,所述方法包括:
將待識別音頻文件劃分為若干音頻數據;
將每一音頻數據輸入樂器識別模型,得到每一音頻數據中各樂器的出現概率;
依次判斷每一音頻數據中各樂器的出現概率是否超過預設值;
在當前音頻數據中第一樂器的出現概率超過預設值時,判定所述當前音頻數據中存在所述第一樂器;
分別統計包含每一樂器對應音頻數據的個數;
基于每一樂器對應音頻數據的個數及音頻數據的總數,計算各樂器在所述待識別音頻文件中的含量;
將各樂器在所述待識別音頻文件中的含量進行匯總,得到所述待識別音頻文件的樂器含量向量表示結果。
可選地,所述將待識別音頻文件劃分為若干音頻數據,包括:
對所述待識別音頻文件進行劃分,得到所述待識別音頻文件的若干中間音頻數據;
對每一中間音頻數據進行梅爾標度處理,得到各所述中間音頻數據的梅爾譜圖數據。
可選地,所述將每一音頻數據輸入樂器識別模型,得到每一音頻數據中各樂器的出現概率,包括:
基于樂器識別模型,獲取各所述中間音頻數據的梅爾譜圖數據對應的特征向量;
基于所述樂器識別模型和特征向量,計算得到每一音頻數據中各樂器的出現概率。
可選地,所述樂器識別模型包括不同樂器對應的分類模型,所述基于所述樂器識別模型和特征向量,計算得到每一音頻數據中各樂器的出現概率,包括:
將當前中間音頻數據的梅爾譜圖數據對應的特征向量分別輸入至不同樂器對應的分類模型中,得到當前音頻數據中不同樂器的出現概率。
可選地,計算各樂器在所述待識別音頻文件中的含量的公式如下:
其中,f為當前樂器在所述待識別音頻文件中的含量,s為當前樂器對應音頻數據的個數,N為音頻數據的總數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鎂佳(北京)科技有限公司,未經鎂佳(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210750836.8/2.html,轉載請聲明來源鉆瓜專利網。





