[發(fā)明專利]音頻數(shù)據(jù)標(biāo)注的方法及其系統(tǒng)在審
| 申請?zhí)枺?/td> | 201611247230.3 | 申請日: | 2016-12-29 |
| 公開(公告)號: | CN108257614A | 公開(公告)日: | 2018-07-06 |
| 發(fā)明(設(shè)計)人: | 晁衛(wèi) | 申請(專利權(quán))人: | 北京酷我科技有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/24;G10L25/12;G10L25/30;G10L25/45 |
| 代理公司: | 北京億騰知識產(chǎn)權(quán)代理事務(wù)所 11309 | 代理人: | 陳霽 |
| 地址: | 100084 北京市海淀區(qū)農(nóng)大*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 音頻數(shù)據(jù) 標(biāo)注 音頻片段 分類標(biāo)簽 訓(xùn)練模型 準(zhǔn)確率 自動化 分析 | ||
1.一種音頻數(shù)據(jù)標(biāo)注的方法,其特征在于,所述方法包括:
接收待標(biāo)注的音頻數(shù)據(jù);
獲取所述待標(biāo)注的音頻數(shù)據(jù)的音頻片段,采用預(yù)訓(xùn)練的至少一個訓(xùn)練模型對所述音頻片段進(jìn)行分析,確定所述音頻片段的分類標(biāo)簽;
為所述音頻片段對應(yīng)的所述待標(biāo)注的音頻數(shù)據(jù)標(biāo)注所述分類標(biāo)簽。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述采用預(yù)訓(xùn)練的至少一個訓(xùn)練模型對所述音頻片段進(jìn)行分析之前,所述方法還包括:
按照至少一個分類標(biāo)簽獲取每個分類標(biāo)簽對應(yīng)的多個待訓(xùn)練音頻數(shù)據(jù);
獲取每個分類標(biāo)簽對應(yīng)的所述多個待訓(xùn)練的音頻數(shù)據(jù)的音頻片段,并提取所述音頻片段的特征向量;
對所述至少一個分類標(biāo)簽對應(yīng)的多個音頻片段的特征向量進(jìn)行訓(xùn)練,得到所述至少一個分類標(biāo)簽對應(yīng)的至少一個訓(xùn)練模型。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述提取所述音頻片段的特征向量,包括:
采用梅爾頻率倒譜系數(shù)MFCC和感性線性預(yù)測PLP提取所述音頻片段的特征向量。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述提取所述音頻片段的特征向量之前,所述方法還包括:
對所述音頻片段進(jìn)行漢明窗處理。
5.根據(jù)權(quán)利要求2至4任一項所述的方法,其特征在于,所述對所述至少一個分類標(biāo)簽對應(yīng)的多個音頻片段的特征向量進(jìn)行訓(xùn)練,包括:
采用卷積神經(jīng)網(wǎng)絡(luò)CNN對所述至少一個分類標(biāo)簽對應(yīng)的多個音頻片段的特征向量進(jìn)行訓(xùn)練。
6.一種系統(tǒng),其特征在于,所述系統(tǒng)包括:
接收單元,用于接收待標(biāo)注的音頻數(shù)據(jù);
處理單元,用于獲取所述待標(biāo)注的音頻數(shù)據(jù)的音頻片段,采用預(yù)訓(xùn)練的至少一個訓(xùn)練模型對所述音頻片段進(jìn)行分析,確定所述音頻片段的分類標(biāo)簽;
所述處理單元,還用于為所述音頻片段對應(yīng)的所述待標(biāo)注的音頻數(shù)據(jù)標(biāo)注所述分類標(biāo)簽。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括訓(xùn)練單元;
所述處理單元,還用于按照至少一個分類標(biāo)簽獲取每個分類標(biāo)簽對應(yīng)的多個待訓(xùn)練音頻數(shù)據(jù);
所述處理單元,還用于獲取每個分類標(biāo)簽對應(yīng)的所述多個待訓(xùn)練的音頻數(shù)據(jù)的音頻片段,并提取所述音頻片段的特征向量;
所述訓(xùn)練單元,用于對所述至少一個分類標(biāo)簽對應(yīng)的多個音頻片段的特征向量進(jìn)行訓(xùn)練,得到所述至少一個分類標(biāo)簽對應(yīng)的至少一個訓(xùn)練模型。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述處理單元提取所述音頻片段的特征向量,包括:
采用梅爾頻率倒譜系數(shù)MFCC和感性線性預(yù)測PLP提取所述音頻片段的特征向量。
9.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,
所述處理單元,還用于對所述音頻片段進(jìn)行漢明窗處理。
10.根據(jù)權(quán)利要求7至9任一項所述的系統(tǒng),其特征在于,所述訓(xùn)練單元對所述至少一個分類標(biāo)簽對應(yīng)的多個音頻片段的特征向量進(jìn)行訓(xùn)練,包括:
所述訓(xùn)練單元采用卷積神經(jīng)網(wǎng)絡(luò)CNN對所述至少一個分類標(biāo)簽對應(yīng)的多個音頻片段的特征向量進(jìn)行訓(xùn)練。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京酷我科技有限公司,未經(jīng)北京酷我科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611247230.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種音頻調(diào)整方法、終端及計算機(jī)可讀存儲介質(zhì)
- 音頻數(shù)據(jù)識別方法及系統(tǒng)
- 消除背景音頻數(shù)據(jù)的方法、裝置和系統(tǒng)
- 音頻數(shù)據(jù)確定方法、裝置、設(shè)備和介質(zhì)
- 音頻分類的方法、裝置、設(shè)備以及存儲介質(zhì)
- 一種音頻處理方法及電子設(shè)備
- 一種音頻傳輸方法和裝置
- 一種音頻數(shù)據(jù)生成方法、音頻數(shù)據(jù)轉(zhuǎn)寫方法及其裝置
- 語音數(shù)據(jù)的處理方法、裝置及電子設(shè)備
- 模型訓(xùn)練、數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲介質(zhì)
- 標(biāo)注信息生成裝置、查詢裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語料庫數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲介質(zhì)、處理器以及運載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺的方法、裝置、電子設(shè)備和存儲介質(zhì)
- 文本分類方法和裝置、計算機(jī)可讀存儲介質(zhì)
- 視頻分類方法、裝置、終端設(shè)備及存儲介質(zhì)
- 短文本分類方法及裝置
- 基于序列模型的分類方法、裝置、電子設(shè)備
- 一種基于N-grams的多標(biāo)簽分類方法及裝置
- 圖像分類模型的訓(xùn)練方法、裝置、電子設(shè)備以及存儲介質(zhì)
- 文本分類方法以及裝置
- 基于標(biāo)簽描述的文本分類方法、裝置、存儲介質(zhì)及設(shè)備
- 基于行業(yè)標(biāo)簽的互聯(lián)網(wǎng)信息分類方法、系統(tǒng)及電子設(shè)備
- 一種圖像分類方法、裝置、電子設(shè)備及存儲介質(zhì)





