[發明專利]音頻識別模型的訓練方法、音頻識別方法、裝置及設備有效
| 申請號: | 202010314878.8 | 申請日: | 2020-04-20 |
| 公開(公告)號: | CN111508480B | 公開(公告)日: | 2023-07-28 |
| 發明(設計)人: | 冀先朋;丁彧;范長杰;胡志鵬 | 申請(專利權)人: | 網易(杭州)網絡有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/08;G10L15/16;G10L15/26;G06N3/0464;G06N3/084 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 劉靜 |
| 地址: | 310052 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 識別 模型 訓練 方法 裝置 設備 | ||
1.一種音頻識別模型的訓練方法,其特征在于,包括:
獲取訓練數據集,所述訓練數據集包括標注有音符類別標簽的多個預設長度的訓練樣本數據,所述訓練樣本數據包括音頻特征數據和與所述音頻特征數據相對應的演奏者的動作特征數據;
通過神經網絡模型,利用音符類別標簽和所述訓練數據集中的音頻特征數據與相對應的演奏者的動作特征數據進行訓練,以獲取音頻識別模型;
預先根據所述音頻特征數據和所述動作特征數據形成多模態特征數據,所述神經網絡模型包括至少一層特征提取層和與所述至少一層特征提取層對應的類別預測層,所述通過神經網絡模型,利用音符類別標簽和所述訓練數據集中的音頻特征數據與相對應的演奏者的動作特征數據進行訓練,以獲取音頻識別模型,包括:
采用所述至少一層特征提取層對所述訓練數據集中的訓練樣本數據的多模態特征數據進行逐級提取,以得到逐級提取的多模態特征數據;
通過所述類別預測層,利用所述逐級提取的多模態特征數據和對應的音符類型標簽進行訓練,以獲取所述音頻識別模型。
2.根據權利要求1所述的方法,其特征在于,所述獲取訓練數據集,包括:
獲取標注有音符類別標簽的初始訓練樣本數據,所述初始訓練樣本數據包括:初始音頻特征數據和與所述初始音頻特征數據對應的演奏者的初始動作特征數據;
采用預設長度數據截取窗口對所述初始訓練樣本數據進行滑動截取,獲取截取后的多個訓練樣本數據;
從所述截取后的多個訓練樣本數據中獲取所述訓練數據集和測試數據集,所述測試數據集包括標注有音符類別標簽的多個預設長度的訓練樣本數據。
3.根據權利要求1所述的方法,其特征在于,所述音頻特征數據包括音頻數據的響度和音頻數據的梅爾倒譜系數。
4.根據權利要求1所述的方法,其特征在于,所述特征提取層包括至少一層卷積特征提取層和至少一層最大值池化層,每層所述卷積特征提取層后跟隨一層最大值池化層;
所述類別預測層包括至少一層解卷積層和至少一層上采樣層,每層所述解卷積層同時接收上層所述解卷積層的輸出和相同層級的所述卷積特征提取層的輸出。
5.根據權利要求2所述的方法,其特征在于,所述方法還包括:
采用音頻識別模型獲取所述測試數據集中同一幀音頻數據在不同數據截取窗口中的音符類別識別結果;
根據所述音符類別識別結果和所述測試數據集中標注的音符類別標簽,更新訓練所述音頻識別模型。
6.根據權利要求5所述的方法,其特征在于,所述根據所述音符類別識別結果和所述測試數據集中標注的音符類別標簽,更新訓練所述音頻識別模型,包括:
根據所述音符類別識別結果和數據截取窗口中各幀音頻數據所對應的預設權重,預測所述測試數據集中各幀音頻數據的音符類別;
根據所述測試數據集中各幀音頻數據的音符類別和所述測試數據集中標注的音符類別標簽,更新訓練所述音頻識別模型。
7.一種音頻識別方法,其特征在于,包括:
獲取待識別音頻數據,所述待識別音頻數據包括:音頻特征數據和與所述音頻特征數據相對應的演奏者的動作特征數據;
采用音頻識別模型識別所述待識別音頻數據中的音符類別,并分割各所述音符類別所對應的待識別音頻數據,其中,所述音頻識別模型由神經網絡模型、以及訓練數據集訓練獲取,所述訓練數據集包括標注有音符類別標簽的多個預設長度的訓練樣本數據,所述訓練樣本數據包括音頻特征數據和與所述音頻特征數據相對應的演奏者的動作特征數據;
預先根據所述音頻特征數據和所述動作特征數據形成多模態特征數據;所述神經網絡模型包括至少一層特征提取層和與所述至少一層特征提取層對應的類別預測層,所述采用音頻識別模型識別所述待識別音頻數據中的音符類別,包括:
采用所述至少一層特征提取層對所述待識別音頻數據的多模態特征數據進行逐級提取,以得到逐級提取的多模態特征數據;
通過所述類別預測層對所述逐級提取的多模態特征數據進行音符類別預測,識別所述待識別音頻數據中的音符類別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網易(杭州)網絡有限公司,未經網易(杭州)網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010314878.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種工業環保用噴灑裝置
- 下一篇:一種用于自動售賣機的壓噴式氣味播放裝置





