[發明專利]音樂情感識別方法及裝置、存儲介質和電子設備在審
| 申請號: | 202010750419.4 | 申請日: | 2020-07-30 |
| 公開(公告)號: | CN111858943A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 趙劍;劉華平;梁曉晶;段振宇 | 申請(專利權)人: | 杭州網易云音樂科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/279;G06F40/30;G10L15/26;G10L25/63;G10L25/03 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 王輝;闞梓瑄 |
| 地址: | 310052 浙江省杭州市蕭山區錢江世*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音樂 情感 識別 方法 裝置 存儲 介質 電子設備 | ||
1.一種音樂情感識別方法,其特征在于,包括:
獲取待識別音樂文件對應的頻譜矩陣和文本向量矩陣,將所述頻譜矩陣和文本向量矩陣輸入多模態網絡模型;其中,所述多模態網絡模型包括并行的音頻處理網絡、文本處理網絡,以及分類層;
通過所述音頻處理網絡對所述頻譜特征矩陣進行特征提取以獲取音頻模態特征,以及通過所述文本處理網絡對所述文本向量矩陣進行特征提取以獲取文本模態特征;
通過所述分類層將所述音頻模態特征和所述文本模態特征映射至預設的情感類別標簽,以獲取所述待識別音樂文件對應的情感分類結果。
2.根據權利要求1所述的方法,其特征在于,所述獲取待識別音樂文件對應的頻譜矩陣和文本向量矩陣,包括:
獲取待識別音樂文件對應的音頻數據及對應的文本數據,并對音頻數據及文本數據分別進行預處理,以獲取對應的頻譜矩陣和文本向量矩陣。
3.根據權利要求2所述的方法,其特征在于,所述頻譜矩陣為梅爾頻譜矩陣;對所述音頻數據進行預處理以獲取對應的頻譜矩陣,包括:
對所述音頻數據進行語音端點檢測,以篩選非靜默分幀音頻數據;
根據篩選的所述非靜默分幀音頻數據構建所述梅爾頻譜矩陣。
4.根據權利要求2所述的方法,其特征在于,對所述文本數據進行預處理以獲取所述文本向量矩陣,包括:
對所述文本數據進行分詞處理,并根據分詞結果構建目標大小的所述文本向量矩陣。
5.根據權利要求1所述的方法,其特征在于,所述通過所述音頻處理網絡對所述頻譜特征矩陣進行特征提取以獲取音頻模態特征,包括:
利用第一卷積層對所述頻譜特征矩陣進行卷積,以獲取第一維度頻譜特征;
利用第一最大池化層對所述第一維度頻譜特征進行降維處理;
利用連續設置的多個卷積層對降維處理后的所述第一維度頻譜特征依次進行特征提取,以獲取目標維度頻譜特征;
利用第二最大池化層對所述目標維度頻譜特征進行降維處理,以獲取所述音頻模態特征。
6.根據權利要求5所述的方法,其特征在于,所述利用第一最大池化層對所述第一維度頻譜特征進行降維處理時,所述方法還包括:
利用防過擬合處理層對所述降維處理后的第一維度頻譜特征進行正則化處理;或者
利用防過擬合處理層對所述第一維度頻譜特征進行正則化處理,再將正則化處理后的第一維度頻譜特征輸入所述第一最大池化層,以進行降維處理;
其中,所述防過擬合處理層包括連續設置的兩個Dropout層。
7.根據權利要求1所述的方法,其特征在于,所述通過所述文本處理網絡對所述文本向量矩陣進行特征提取以獲取文本模態特征,包括:
利用一維卷積層對所述文本向量矩陣進行特征提取,以獲取第一文本特征;
通過最大池化層對所述第一文本特征進行降維處理;
利用長短期記憶網絡層對降維處理后的所述第一文本特征進行處理,以獲取所述文本模態特征。
8.一種音樂情感識別裝置,其特征在于,包括:
數據獲取模塊,用于獲取待識別音樂文件對應的頻譜矩陣和文本向量矩陣,將所述頻譜矩陣和文本向量矩陣輸入多模態網絡模型;其中,所述多模態網絡模型包括并行的音頻處理網絡、文本處理網絡,以及分類層;
特征提取模塊,用于通過所述音頻處理網絡對所述頻譜特征矩陣進行特征提取以獲取音頻模態特征,以及通過所述文本處理網絡對所述文本向量矩陣進行特征提取以獲取文本模態特征;
分類結果輸出模塊,用于通過所述分類層將所述音頻模態特征和所述文本模態特征映射至預設的情感類別標簽,以獲取所述待識別音樂文件對應的情感分類結果。
9.一種存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1~7中任一項所述的音樂情感識別方法。
10.一種電子設備,其特征在于,包括:
處理器;以及
存儲器,用于存儲所述處理器的可執行指令;
其中,所述處理器配置為經由執行所述可執行指令來執行權利要求1~7中任一項所述的音樂情感識別方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州網易云音樂科技有限公司,未經杭州網易云音樂科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010750419.4/1.html,轉載請聲明來源鉆瓜專利網。





