[發(fā)明專利]一種基于卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的音頻分類方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810037337.8 | 申請(qǐng)日: | 2018-01-16 |
| 公開(公告)號(hào): | CN108122562A | 公開(公告)日: | 2018-06-05 |
| 發(fā)明(設(shè)計(jì))人: | 彭德中;付煒 | 申請(qǐng)(專利權(quán))人: | 四川大學(xué) |
| 主分類號(hào): | G10L25/54 | 分類號(hào): | G10L25/54;G10L25/45;G10L25/30;G10L25/27;G10L25/18;G06N3/04;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610065 四川省成*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 卷積神經(jīng)網(wǎng)絡(luò) 隨機(jī)森林 頻譜圖 高層特征 音頻分類 分類器 隨機(jī)森林分類器 原始音頻數(shù)據(jù) 原始音頻文件 傅里葉變換 特征提取器 測(cè)試過程 繁瑣過程 能力不足 頻譜分析 手動(dòng)構(gòu)造 特征提取 提取特征 準(zhǔn)確率 分幀 加窗 分段 替換 | ||
1.一種基于卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的音頻分類方法,其特征包括如下步驟:
步驟1:對(duì)原始音頻數(shù)據(jù)集進(jìn)行頻譜分析,首先將長(zhǎng)音頻文件分為等長(zhǎng)的若干段,每段音頻對(duì)應(yīng)相同的標(biāo)簽,然后對(duì)每段音頻進(jìn)行分幀、加窗、傅里葉變換,得到每段音頻的頻譜圖,作為新的訓(xùn)練集的一個(gè)樣本;
步驟2:利用步驟1得到的所有頻譜圖及其對(duì)應(yīng)的標(biāo)簽,訓(xùn)練一個(gè)改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)具有14層;
步驟3:去掉步驟2學(xué)習(xí)到的卷積神經(jīng)網(wǎng)絡(luò)的softmax層,然后再用卷積神經(jīng)網(wǎng)絡(luò)提取所有頻譜圖的高層特征;
步驟4:利用步驟3提取的頻譜圖的高層特征訓(xùn)練隨機(jī)森林分類器,采用Gini不純度作為決策樹特征選擇的準(zhǔn)則;
步驟5:將待分類的音頻進(jìn)行步驟1中的頻譜分析得到頻譜圖,然后用步驟3中去掉softmax層的卷積神經(jīng)網(wǎng)絡(luò)提取頻譜圖高層特征,最后將提取的高層特征輸入到步驟4中訓(xùn)練好的隨機(jī)森林分類器進(jìn)行音頻分類,以投票的方式得到最終的分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的音頻分類方法,其特征在于,針對(duì)音頻特征,該方法的具體實(shí)施過程包括兩級(jí)特征提取,第一級(jí)特征提取是通過頻譜分析,獲取音頻對(duì)應(yīng)的頻譜圖,初步提取其低層時(shí)頻特征,第二級(jí)特征提取采用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò),進(jìn)一步對(duì)頻譜圖提取高層特征。
3.根據(jù)權(quán)利要求1所述的一種基于卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的音頻分類方法,其特征在于,該方法為了克服softmax作為卷積神經(jīng)網(wǎng)絡(luò)分類器導(dǎo)致泛化能力不強(qiáng)的問題,采用隨機(jī)森林替換卷積神經(jīng)網(wǎng)絡(luò)的最后一層,作為最終的音頻分類器。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川大學(xué),未經(jīng)四川大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810037337.8/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 終端卷積神經(jīng)網(wǎng)絡(luò)的處理方法、裝置、存儲(chǔ)介質(zhì)及處理器
- 一種基于卷積神經(jīng)網(wǎng)絡(luò)的圖像深度估計(jì)方法
- 卷積神經(jīng)網(wǎng)絡(luò)的生成方法及裝置
- 一種卷積神經(jīng)網(wǎng)絡(luò)硬件模塊部署方法
- 卷積神經(jīng)網(wǎng)絡(luò)的處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法及裝置
- 一種基于通道數(shù)搜索卷積神經(jīng)網(wǎng)絡(luò)的方法
- 卷積神經(jīng)網(wǎng)絡(luò)處理方法、裝置和電子系統(tǒng)
- 一種基于空洞卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的聲音事件檢測(cè)方法
- 基于稀疏卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法及檢測(cè)裝置
- 一種基于條件隨機(jī)森林的笑臉檢測(cè)器及方法
- 隨機(jī)森林模型訓(xùn)練的方法及模型訓(xùn)練控制系統(tǒng)
- 隨機(jī)森林模型訓(xùn)練方法及裝置
- 基于結(jié)構(gòu)化隨機(jī)森林編碼器的眼底視網(wǎng)膜血管分割方法
- 一種基于隨機(jī)森林模型的慢性肝病風(fēng)險(xiǎn)評(píng)估系統(tǒng)
- 基于改進(jìn)隨機(jī)森林方法的風(fēng)光發(fā)電出力的短期預(yù)測(cè)方法
- 交互式隨機(jī)森林子樹篩選方法、裝置、設(shè)備及可讀介質(zhì)
- 交互式隨機(jī)森林集成方法、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種基于深度森林的眼底圖像血管分割方法和系統(tǒng)
- 隨機(jī)森林的生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 特定音響信號(hào)含有區(qū)間檢測(cè)系統(tǒng)及其方法以及程序
- 頻譜分配方法及裝置
- 人體頻譜圖辨識(shí)分析系統(tǒng)
- 一種基于分層圖的在線重路由并行頻譜碎片整理的方法
- 一種多視角三維曲面頻譜圖顯示方法
- 一種基于類別間相互融合的聲音數(shù)據(jù)增強(qiáng)方法
- 人聲和伴奏分離方法及相關(guān)產(chǎn)品
- 基于編碼解碼神經(jīng)網(wǎng)絡(luò)的回聲抑制方法及音頻裝置及設(shè)備
- 語音訓(xùn)練樣本的獲取方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 頻譜圖匹配方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于深度學(xué)習(xí)的多模態(tài)遙感影像高層特征融合分類方法
- 基于智能高層語義的視頻行為識(shí)別方法
- 圖像增強(qiáng)模型訓(xùn)練方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種基于高層語義特征和顏色特征的圖像檢索方法及系統(tǒng)
- 車道線識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 血管、眼底圖像的分割方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種基于多網(wǎng)融合的火災(zāi)檢測(cè)方法
- 圖像分割方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 舌體圖片分類方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于多模態(tài)信息融合的智能心理評(píng)估方法及系統(tǒng)





