[發(fā)明專利]一種基于多任務(wù)學(xué)習(xí)的音頻場景識別方法及裝置有效
申請?zhí)枺?/td> | 202110362915.7 | 申請日: | 2021-04-02 |
公開(公告)號: | CN113220932B | 公開(公告)日: | 2022-06-10 |
發(fā)明(設(shè)計(jì))人: | 冷嚴(yán);路安芹;劉禎;孫建德;唐勇;王榮燕;齊廣慧;李登旺;萬洪林 | 申請(專利權(quán))人: | 山東師范大學(xué) |
主分類號: | G06F16/65 | 分類號: | G06F16/65;G06F16/68;G06F16/683 |
代理公司: | 濟(jì)南圣達(dá)知識產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 祖之強(qiáng) |
地址: | 250014 山*** | 國省代碼: | 山東;37 |
權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關(guān)鍵詞: | 一種 基于 任務(wù) 學(xué)習(xí) 音頻 場景 識別 方法 裝置 | ||
1.一種基于多任務(wù)學(xué)習(xí)的音頻場景識別方法,其特征在于,包括:
步驟(1):獲取音頻數(shù)據(jù)庫,對每個音頻場景片段進(jìn)行分幀處理,提取每幀的音頻特征,每個音頻片段內(nèi)所有幀的音頻特征構(gòu)成該音頻片段的特征矩陣,構(gòu)建音頻特征訓(xùn)練集,并為每個音頻場景片段添加音頻場景標(biāo)簽;
步驟(2):采用聚類方法為音頻特征訓(xùn)練集中的每個音頻幀添加音頻事件標(biāo)簽;
步驟(3):構(gòu)建音頻事件與音頻場景識別模型,將步驟(1)中的音頻片段的特征矩陣輸入音頻事件與音頻場景識別模型中,基于當(dāng)前音頻片段的場景標(biāo)簽和音頻場景識別輸出層的輸出求取交叉熵L1,同時基于當(dāng)前音頻片段中音頻幀的音頻事件標(biāo)簽和音頻事件檢測輸出層的輸出求取交叉熵,進(jìn)而得到當(dāng)前音頻片段所有幀的交叉熵和L2;
步驟(4):基于交叉熵L1和交叉熵和L2構(gòu)造損失函數(shù),基于該損失函數(shù)對音頻事件與音頻場景識別模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的音頻事件與音頻場景識別模型;
步驟(5):對待識別的音頻片段,用和步驟(1)中同樣的方法對其進(jìn)行分幀處理,提取每幀的音頻特征,音頻片段內(nèi)所有幀的音頻特征構(gòu)成待識別音頻片段的特征矩陣;將待識別音頻片段的特征矩陣輸入訓(xùn)練好的音頻事件與音頻場景識別模型,在音頻場景識別輸出層得到待識別音頻片段在各個音頻場景類上的概率分布,取具有最大概率值的音頻場景類作為識別結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于多任務(wù)學(xué)習(xí)的音頻場景識別方法,其特征在于,所述步驟(1)包括:
步驟(1-1):對數(shù)據(jù)庫中每個音頻場景片段進(jìn)行分幀處理,并對每幀提取音頻場景識別領(lǐng)域常用的音頻特征:40維logmel特征,得到每個音頻場景片段的尺寸為40×n的logmel特征矩陣,n表示音頻場景片段中包含的幀的數(shù)量;
步驟(1-2):對每個音頻場景片段,采用one-hot向量形式為其添加音頻場景標(biāo)簽:對于數(shù)據(jù)庫中的第i類場景,其場景標(biāo)簽為[0,0,…,1,0,…,0],標(biāo)簽向量只在第i維的值為1,在其它維度上的值都為0;
步驟(1-3):得到帶有音頻場景標(biāo)簽的音頻特征訓(xùn)練集。
3.根據(jù)權(quán)利要求1所述的基于多任務(wù)學(xué)習(xí)的音頻場景識別方法,其特征在于,所述步驟(2)包括:
步驟(2-1):以音頻特征訓(xùn)練集中每個音頻幀為一個樣本,對音頻特征訓(xùn)練集中的所有樣本進(jìn)行聚類,聚類的簇的數(shù)量設(shè)置為數(shù)據(jù)庫中音頻事件的類別數(shù)M;
步驟(2-2):對每個樣本,求其與各個簇中心的歐式距離的倒數(shù),并進(jìn)行softmax歸一,將歸一化后的距離倒數(shù)向量softmax([1/d1,1/d2,…,1/dM])作為樣本的音頻事件標(biāo)簽;其中,d1表示樣本與第一個簇的簇中心的歐式距離,d2表示樣本與第二個簇的簇中心的歐式距離,dM表示樣本與第M個簇的簇中心的歐式距離,softmax(·)表示softmax歸一化;
步驟(2-3):為音頻片段中的每個音頻幀添加了音頻事件標(biāo)簽,得到帶有音頻事件標(biāo)簽的音頻幀。
4.根據(jù)權(quán)利要求1所述的基于多任務(wù)學(xué)習(xí)的音頻場景識別方法,其特征在于,所述步驟(3)包括:
步驟(3-1):從音頻特征訓(xùn)練集中按順序選擇一個音頻片段,記該音頻片段的logmel特征矩陣為G,將其分別作為音頻事件與音頻場景識別模型的輸入,在音頻事件檢測模型的卷積神經(jīng)網(wǎng)絡(luò)輸出端得到特征矩陣E,在音頻場景識別模型的卷積神經(jīng)網(wǎng)絡(luò)輸出端得到特征矩陣S;
步驟(3-2):由特征矩陣S和 E求得注意力系數(shù)矩陣A:A=ST·E;
步驟(3-3):由注意力系數(shù)矩陣A和特征矩陣E構(gòu)造音頻場景特征向量R:R=flatten(E·AT);其中flatten(·)表示將矩陣通過各行首尾相接的方式展開成向量;
步驟(3-4):根據(jù)該音頻片段的場景標(biāo)簽和音頻場景識別輸出層的輸出求交叉熵,記作L1;
步驟(3-5):對該音頻片段中的各個幀,根據(jù)其音頻事件標(biāo)簽和音頻事件檢測輸出層的輸出求交叉熵,將該音頻片段中所有幀的交叉熵求和,記此交叉熵和為L2。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東師范大學(xué),未經(jīng)山東師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110362915.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 任務(wù)協(xié)作裝置及方法
- 用于量化任務(wù)價值的任務(wù)管理方法及裝置
- 用于運(yùn)行任務(wù)的系統(tǒng)、方法和裝置
- 一種分布式任務(wù)調(diào)度系統(tǒng)及方法
- 任務(wù)信息處理方法
- 一種同步任務(wù)異步執(zhí)行的方法和調(diào)度系統(tǒng)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 一種自動分配和推送的任務(wù)管理平臺及方法
- 程序執(zhí)行控制的裝置及方法、終端和存儲介質(zhì)
- 基于會話的任務(wù)待辦方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)