[發(fā)明專利]一種基于模塊化的加權(quán)融合神經(jīng)網(wǎng)絡的音樂情感識別方法有效
| 申請?zhí)枺?/td> | 202110398229.5 | 申請日: | 2021-04-14 |
| 公開(公告)號: | CN113268628B | 公開(公告)日: | 2023-05-23 |
| 發(fā)明(設計)人: | 朱永華;張美賢;朱蘊文 | 申請(專利權(quán))人: | 上海大學 |
| 主分類號: | G06F16/61 | 分類號: | G06F16/61;G06N3/0464;G06N3/047;G06N3/084 |
| 代理公司: | 上海上大專利事務所(普通合伙) 31205 | 代理人: | 何文欣 |
| 地址: | 200444*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 模塊化 加權(quán) 融合 神經(jīng)網(wǎng)絡 音樂 情感 識別 方法 | ||
1.一種基于模塊化的加權(quán)融合神經(jīng)網(wǎng)絡的音樂情感識別方法,利用改進的深層卷積神經(jīng)網(wǎng)絡,通過頻譜圖提取顯著特征,利用加權(quán)后的基于長短時記憶模塊的循環(huán)神經(jīng)網(wǎng)絡,學習音樂信息的深度時序性關(guān)系,通過融合模塊提取代表音樂信息的高層語義特征,實現(xiàn)更精確的情感數(shù)值分布預測,其特征在于,操作步驟如下:
步驟1:搜集相關(guān)音樂情感數(shù)據(jù)庫,對數(shù)據(jù)庫進行預處理,調(diào)整數(shù)據(jù)庫音樂片段長度并規(guī)范化情感表達數(shù)值范圍,完成數(shù)據(jù)庫內(nèi)容的規(guī)范和整合;
步驟2:根據(jù)原始音頻提取對應頻譜圖,采用數(shù)據(jù)增強技術(shù)生成新的數(shù)據(jù)資源,增強情感分析數(shù)據(jù),構(gòu)建規(guī)范化融合音樂情感數(shù)據(jù)庫;
步驟3:對深度卷積網(wǎng)絡進行改進,通過調(diào)整卷積核和池化層來控制感受野,對輸出范圍進行約束,實現(xiàn)輸出數(shù)值的規(guī)范化,完成顯著特征的提取工作;
步驟4:基于長短時記憶模塊處理特征的時序信息,結(jié)合注意力機制對特征輸出進行加權(quán)處理,實現(xiàn)上下文信息中的時域頻域深度關(guān)系學習,完成具有針對性的內(nèi)容分析;
步驟5:基于具有雙重特性的一致性相關(guān)系數(shù)構(gòu)建損失函數(shù),通過反向傳播對網(wǎng)絡參數(shù)進行優(yōu)化并完成網(wǎng)絡訓練;
步驟6:采用訓練好的模塊化加權(quán)神經(jīng)網(wǎng)絡來進行音樂情感數(shù)值預測;
所述步驟3具體包含:
3-1)根據(jù)子通道結(jié)構(gòu)的細節(jié)處理特性,針對不同子通道輸出進行加權(quán)處理,實現(xiàn)特征矩陣的輸出規(guī)范化,具體計算過程如下:經(jīng)維度劃分后輸入矩陣表示為M=[m1,m2,…,mN],其中N表示維度劃分子通道的總數(shù),mk是其中一個子通道;其主體計算方法如下:
其中表示整合后的輸出矩陣,Wk表示第k個殘差塊輸出分支的權(quán)重分配;
3-2)控制深度神經(jīng)網(wǎng)絡感受下,基于更具全局性的信息對內(nèi)容進行分析,增加頻域信息通道,保留更豐富頻域特征;控制深度殘差網(wǎng)絡的感受野以及頻域信息保留處理的計算方法如下:
其中表示殘差模塊block中的第n個殘差層中的每個殘差塊卷積核大??;參數(shù)β是一個閾值,用于控制不同層次的卷積核;t是時間維度的索引值,ft表示在時間t處的頻率索引值,NF表示在時間t處的頻域表示總數(shù);
所述步驟4具體包含:
4-1)采用堆疊的兩層雙向長短時記憶模塊處理輸出顯著特征的時序信息,實現(xiàn)時序關(guān)系的學習;
4-2)依據(jù)注意力機制針對上下文信息進行處理,提取時域頻域深度關(guān)系,具體計算步驟如下:
定義從第二層長短時記憶模塊輸出的時序信息集合為其中hiddesize=256,是時間幀t處的特征向量集合;具體的,針對每個隱藏層單元輸出的特性集合,采用注意力機制,計算對應的query,key,value向量,作為權(quán)重計算的輔助工具,計算過程如下:
q:t=WQht,k:t=WKht,v:t=WVHt
其中q:t,k:t,v:t分別代表計算求得的query,key,value向量,WQ,WK,WV分別是注意力模塊針對三種不同的向量自動學習的權(quán)重參數(shù);應用于隱藏層輸出特征集合的權(quán)重參數(shù)計算過程如下:
a:t=Softmax(KTq:t),o:t=a1tv:1+a2tv:2+…+altv:T
其中a:t是計算求得的權(quán)重參數(shù),用于對上下文信息進行加權(quán)處理,Softmax代表激活函數(shù),KT是由query向量組成的矩陣的轉(zhuǎn)置,o:t表示時間幀t輸出的隱藏層特征加權(quán)處理后的結(jié)果,alt是時間幀t處的權(quán)重向量的第l個元素。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海大學,未經(jīng)上海大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110398229.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





