[發明專利]一種基于深度學習的音頻自動化標注方法有效
| 申請號: | 201810050808.9 | 申請日: | 2018-01-18 |
| 公開(公告)號: | CN108053836B | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 尹學淵;江天宇 | 申請(專利權)人: | 成都嗨翻屋科技有限公司 |
| 主分類號: | G10L25/30 | 分類號: | G10L25/30;G10L25/48;G10L25/03;G06F16/61;G06F16/683 |
| 代理公司: | 四川力久律師事務所 51221 | 代理人: | 劉童笛 |
| 地址: | 610000 四川省成都市中國(四川)自由貿易試*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 音頻 自動化 標注 方法 | ||
本發明涉及一種音頻標注方法,特別涉及一種基于深度學習的音頻自動化標注方法。一種基于深度學習的音頻自動化標注方法,包括以下實現步驟:輸入原始音頻文件,通過音頻預處理,得到若干個原始語譜圖片段;將所述原始語譜圖片段輸入卷積神經網絡中進行訓練,構建深度學習模型;輸入待標注音頻文件,通過音頻預處理,得到若干個待標注語譜圖片段;基于所述深度學習模型,將所述待標注語譜圖片段進行音頻標注。本發明利用卷積神經網絡訓練音頻深度學習網絡,實現音頻自動化標注方法,相比于傳統的人工標注方式,提高了標注準確率,提升了音頻標注效率。
技術領域
本發明涉及一種音頻標注方法,特別涉及一種基于深度學習的音頻自動化標注方法。
背景技術
音頻的結構化表示是MIR(Music Information Retrieval音樂信息檢索)中的重要問題,它主要是從音頻信號本身提取特征,實現對音頻的檢索。傳統的依靠專家只是提取音色、旋律、節奏的方式不能夠完整描繪音頻細節,無法實現自動標注,準確率較低。
發明內容
本發明的目的在于克服現有技術中所存在的上述不足,提供一種利用卷積神經網絡訓練音頻深度學習網絡,構建深度學習模型,并利用最大投票算法實現音頻自動化標注方法。
為了實現上述發明目的,本發明提供了以下技術方案:
一種基于深度學習的音頻自動化標注方法,包括以下實現步驟:
S1、輸入原始音頻文件,通過音頻預處理,得到若干個原始語譜圖片段;
S2、將所述原始語譜圖片段輸入卷積神經網絡中進行訓練,構建深度學習模型;
S3、輸入待標注音頻文件,通過音頻預處理,得到若干個待標注語譜圖片段;
S4、基于所述深度學習模型,將所述待標注語譜圖片段進行音頻標注。
作為本發明實施例的優選,所述原始音頻文件為現有曲庫音頻文件。
作為本發明實施例的優選,步驟S1和S3所述的音頻預處理的實現步驟為:
S100、去除音頻文件音頻頭部和尾部靜音段,得到初始音頻文件;
S200、將所述初始音頻文件進行分幀、加窗;
S300、對于所述初始音頻文件分幀后的每一幀進行快速傅里葉變換,然后按照時間t順序拼接,得到二維矩陣;
S400、將所述二維矩陣的頻率軸刻轉換為梅爾刻度;
S500、將所述二維矩陣中的能量值取對數,并歸一化到分貝刻度,通過取整,負數值變為0,得到梅爾語譜圖;
S600、將所述梅爾語譜圖切片,得到若干語圖譜片段。
作為本發明實施例的優選,步驟S200中,所述初始音頻文件進行分幀的過程為:對于采樣率kHz的所述初始音頻文件,設置其幀大小為a,幀移為b,將所述初始音頻文件分割為幀。
作為本發明實施例的優選,步驟S600中將所述梅爾語譜圖切片,得到若干語圖譜片段的過程為:所述梅爾語譜圖為長為T,寬為F的二維矩陣,設置切片大小為S,得到在T方向上將二維矩陣切成T/S個矩陣,并舍棄長度小于S的矩陣。
作為本發明實施例的優選,步驟S2的實現步驟為:
S21、將所述原始語譜圖片段進行卷積、規則化和最大池化;
S22、在時域上求得全局時域最大值、全局時域均值,并輸入全連接層,對卷積神經網絡輸出值進行匯總;
S23、將輸出值輸入Dropout層,設置參數為0.5;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都嗨翻屋科技有限公司,未經成都嗨翻屋科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810050808.9/2.html,轉載請聲明來源鉆瓜專利網。





