[發明專利]一種基于深度學習的音頻自動化標注方法有效
| 申請號: | 201810050808.9 | 申請日: | 2018-01-18 |
| 公開(公告)號: | CN108053836B | 公開(公告)日: | 2021-03-23 |
| 發明(設計)人: | 尹學淵;江天宇 | 申請(專利權)人: | 成都嗨翻屋科技有限公司 |
| 主分類號: | G10L25/30 | 分類號: | G10L25/30;G10L25/48;G10L25/03;G06F16/61;G06F16/683 |
| 代理公司: | 四川力久律師事務所 51221 | 代理人: | 劉童笛 |
| 地址: | 610000 四川省成都市中國(四川)自由貿易試*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 音頻 自動化 標注 方法 | ||
1.一種基于深度學習的音頻自動化標注方法,其特征在于,包括以下實現步驟:
S1、輸入原始音頻文件,通過音頻預處理,得到若干個原始語譜圖片段;
S2、將所述原始語譜圖片段輸入卷積神經網絡中進行訓練,構建深度學習模型;
S3、輸入待標注音頻文件,通過音頻預處理,得到若干個待標注語譜圖片段;
S4、基于所述深度學習模型,將所述待標注語譜圖片段進行音頻標注;
其中,步驟S1和S3所述的音頻預處理的實現步驟為:
S100、去除音頻文件音頻頭部和尾部靜音段,得到初始音頻文件;
S200、將所述初始音頻文件進行分幀、加窗;
S300、對于所述初始音頻文件分幀后的每一幀進行快速傅里葉變換,然后按照時間t順序拼接,得到二維矩陣;
S400、將所述二維矩陣的頻率軸刻轉換為梅爾刻度;
S500、將所述二維矩陣中的能量值取對數,并歸一化到分貝刻度,通過取整,負數值變為0,得到梅爾語譜圖;
S600、將所述梅爾語譜圖切片,得到若干語圖譜片段。
2.根據權利要求1所述的音頻自動化標注方法,其特征在于,所述原始音頻文件為現有曲庫音頻文件。
3.根據權利要求1所述的音頻自動化標注方法,其特征在于,步驟S200中,所述初始音頻文件進行分幀的過程為:對于采樣率kHz的所述初始音頻文件,設置其幀大小為a,幀移為b,將所述初始音頻文件分割為幀。
4.根據權利要求1所述的音頻自動化標注方法,其特征在于,步驟S600中將所述梅爾語譜圖切片,得到若干語圖譜片段的過程為:所述梅爾語譜圖為長為T,寬為F的二維矩陣,設置切片大小為S,得到在T方向上將二維矩陣切成T/S個矩陣,并舍棄長度小于S的矩陣。
5.根據權利要求1所述的音頻自動化標注方法,其特征在于,步驟S2的實現步驟為:
S21、將所述原始語譜圖片段進行卷積、規則化和最大池化;
S22、在時域上求得全局時域最大值、全局時域均值,并輸入全連接層,對卷積神經網絡輸出值進行匯總;
S23、將輸出值輸入Dropout層,設置參數為0.5;
S23、將所述輸出值輸入輸出層,利用損失函數,輸出N個音頻標簽;所述損失函數為sigmoid交叉熵函數。
6.根據權利要求5所述的音頻自動化標注方法,其特征在于,所述全連接層層數為2,每層全連接層的神經元個數為2048。
7.根據權利要求5所述的音頻自動化標注方法,其特征在于,步驟S21的實現步驟為:
S211、將所述語譜圖片段輸入卷積層在時域方向卷積,得到矩陣A;
S212、將所述矩陣A輸入Normalization層進行規則化操作,將輸出值的均值歸一化至為0,方差為1;
S213、將所述輸出值輸入Activation層,利用激活函數ReLU激活;
S214、通過MaxPooling層對輸出值進行最大池化操作。
8.根據權利要求5或7所述的音頻自動化標注方法,其特征在于,步驟S21中所述卷積、規則化和最大池化的操作依次循環進行3次。
9.根據權利要求1所述的音頻自動化標注方法,其特征在于,步驟S4的實現過程為:
S41、基于所述深度學習模型,對N個所述待標注語譜圖片段進行標注,得到每個所述待標注語譜圖片段對應的標注結果C={C1,C2,C3,…,Ck};k為標注類別的數量;
S42、設置第i個所述待標注語譜圖片段的標注結果為C[i],其最終標注結果為:
S43、選取最終標注結果數值最大的前n個作為音頻標注輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都嗨翻屋科技有限公司,未經成都嗨翻屋科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810050808.9/1.html,轉載請聲明來源鉆瓜專利網。





