[發(fā)明專利]音樂情感識別方法及裝置、存儲介質(zhì)和電子設(shè)備在審
| 申請?zhí)枺?/td> | 202010750419.4 | 申請日: | 2020-07-30 |
| 公開(公告)號: | CN111858943A | 公開(公告)日: | 2020-10-30 |
| 發(fā)明(設(shè)計)人: | 趙劍;劉華平;梁曉晶;段振宇 | 申請(專利權(quán))人: | 杭州網(wǎng)易云音樂科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/279;G06F40/30;G10L15/26;G10L25/63;G10L25/03 |
| 代理公司: | 北京律智知識產(chǎn)權(quán)代理有限公司 11438 | 代理人: | 王輝;闞梓瑄 |
| 地址: | 310052 浙江省杭州市蕭山區(qū)錢江世*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音樂 情感 識別 方法 裝置 存儲 介質(zhì) 電子設(shè)備 | ||
本發(fā)明的實施方式涉及計算機技術(shù)領(lǐng)域,更具體地,本發(fā)明的實施方式涉及音樂情感識別方法及裝置,存儲介質(zhì)和電子設(shè)備。所述方法包括獲取待識別音樂文件對應的頻譜矩陣和文本向量矩陣,將所述頻譜矩陣和文本向量矩陣輸入多模態(tài)網(wǎng)絡(luò)模型;其中,所述多模態(tài)網(wǎng)絡(luò)模型包括并行的音頻處理網(wǎng)絡(luò)、文本處理網(wǎng)絡(luò),以及分類層;通過所述音頻處理網(wǎng)絡(luò)對所述頻譜特征矩陣進行特征提取以獲取音頻模態(tài)特征,以及通過所述文本處理網(wǎng)絡(luò)對所述文本向量矩陣進行特征提取以獲取文本模態(tài)特征;通過所述分類層將所述音頻模態(tài)特征和所述文本模態(tài)特征映射至預設(shè)的情感類別標簽,以獲取所述待識別音樂文件對應的情感分類結(jié)果。本公開能夠提高音樂情感識別的準確率。
技術(shù)領(lǐng)域
本發(fā)明的實施方式涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,更具體地,本發(fā)明的實施方式涉及音樂情感識別方法及裝置,存儲介質(zhì)和電子設(shè)備。
背景技術(shù)
本部分旨在為權(quán)利要求中陳述的本發(fā)明的實施方式提供背景或上下文,此處的描述不因為包括在本部分中就承認是現(xiàn)有技術(shù)。
音樂與情感有著非常密切的聯(lián)系,通過旋律,或者旋律和歌詞來表達情感信息。音樂情感識別(Music Emotion Recognition,MER)技術(shù)是利用計算機分析和處理音樂特征,研究音樂特征空間與情感空間的映射關(guān)系,實現(xiàn)對音樂所表達情感的認知過程。
發(fā)明內(nèi)容
在一些技術(shù)中,可以利用基于單模態(tài)深度學習的音樂情感識別方法,能夠利用音頻信息或者歌詞信息訓練音樂情感識別模型。但其方案僅使用了音樂的音頻或歌詞信息,而忽略另一方面對情感表達的影響,導致情感識別不夠精準。另外,基于多模態(tài)的音樂情感識別方法,在模型訓練時需要大量的標注樣本。但人工標注音樂情感數(shù)據(jù)集成本高,且耗時嚴重;標注樣本量少又無法保證模型對音樂情感識別的準確性。
為此,非常需要一種改進的音樂情感識別方法及裝置、存儲介質(zhì)和電子設(shè)備,可以使用少量的標注樣本進行訓練,并提高音樂情感識別的準確率。
在本上下文中,本發(fā)明的實施方式期望提供一種音樂情感識別方法和裝置、存儲介質(zhì)和電子設(shè)備。
根據(jù)本公開的一個方面,提供一種音樂情感識別方法,包括:
在本公開的一種示例性實施例中,獲取待識別音樂文件對應的頻譜矩陣和文本向量矩陣,將所述頻譜矩陣和文本向量矩陣輸入多模態(tài)網(wǎng)絡(luò)模型;其中,所述多模態(tài)網(wǎng)絡(luò)模型包括并行的音頻處理網(wǎng)絡(luò)、文本處理網(wǎng)絡(luò),以及分類層;
通過所述音頻處理網(wǎng)絡(luò)對所述頻譜特征矩陣進行特征提取以獲取音頻模態(tài)特征,以及通過所述文本處理網(wǎng)絡(luò)對所述文本向量矩陣進行特征提取以獲取文本模態(tài)特征;
通過所述分類層將所述音頻模態(tài)特征和所述文本模態(tài)特征映射至預設(shè)的情感類別標簽,以獲取所述待識別音樂文件對應的情感分類結(jié)果。
在本公開的一種示例性實施例中,所述獲取待識別音樂文件對應的頻譜矩陣和文本向量矩陣,包括:
獲取待識別音樂文件對應的音頻數(shù)據(jù)及對應的文本數(shù)據(jù),并對音頻數(shù)據(jù)及文本數(shù)據(jù)分別進行預處理,以獲取對應的頻譜矩陣和文本向量矩陣。
在本公開的一種示例性實施例中,所述頻譜矩陣為梅爾頻譜矩陣;對所述音頻數(shù)據(jù)進行預處理以獲取對應的頻譜矩陣,包括:
對所述音頻數(shù)據(jù)進行語音端點檢測,以篩選非靜默分幀音頻數(shù)據(jù);
根據(jù)篩選的所述非靜默分幀音頻數(shù)據(jù)構(gòu)建所述梅爾頻譜矩陣。
在本公開的一種示例性實施例中,對所述文本數(shù)據(jù)進行預處理以獲取所述文本向量矩陣,包括:
對所述文本數(shù)據(jù)進行分詞處理,并根據(jù)分詞結(jié)果構(gòu)建目標大小的所述文本向量矩陣。
在本公開的一種示例性實施例中,所述通過所述音頻處理網(wǎng)絡(luò)對所述頻譜特征矩陣進行特征提取以獲取音頻模態(tài)特征,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州網(wǎng)易云音樂科技有限公司,未經(jīng)杭州網(wǎng)易云音樂科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010750419.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





