[發(fā)明專利]一種音頻識(shí)別模型的訓(xùn)練和非正常音頻識(shí)別的方法和裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202011102269.2 | 申請(qǐng)日: | 2020-10-15 |
| 公開(kāi)(公告)號(hào): | CN112259078A | 公開(kāi)(公告)日: | 2021-01-22 |
| 發(fā)明(設(shè)計(jì))人: | 陳華官;張志齊 | 申請(qǐng)(專利權(quán))人: | 上海依圖網(wǎng)絡(luò)科技有限公司 |
| 主分類號(hào): | G10L15/06 | 分類號(hào): | G10L15/06;G10L15/16;G10L15/02 |
| 代理公司: | 北京同達(dá)信恒知識(shí)產(chǎn)權(quán)代理有限公司 11291 | 代理人: | 盧志娟 |
| 地址: | 200051 上海市徐匯*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 音頻 識(shí)別 模型 訓(xùn)練 正常 方法 裝置 | ||
1.一種音頻模型訓(xùn)練方法,其特征在于,包括:
獲取多個(gè)音頻樣本以及相應(yīng)的音頻類別標(biāo)簽,以及基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建的音頻識(shí)別模型,其中,音頻類別標(biāo)簽至少包括:非正常語(yǔ)音和正常語(yǔ)音;
分別將每一音頻樣本,按照指定音頻時(shí)長(zhǎng)進(jìn)行劃分,獲得多個(gè)音頻樣本片段,并分別獲取每一音頻樣本中的每一音頻樣本片段對(duì)應(yīng)的音頻類別標(biāo)簽;
分別提取每一音頻樣本的音頻特征向量;
基于各音頻特征向量和相應(yīng)的音頻類別標(biāo)簽,以及各音頻樣本中的各音頻樣本片段對(duì)應(yīng)的音頻類別標(biāo)簽,對(duì)所述音頻識(shí)別模型進(jìn)行訓(xùn)練,獲得符合預(yù)設(shè)訓(xùn)練條件的音頻識(shí)別模型。
2.如權(quán)利要求1所述的方法,其特征在于,基于各音頻特征向量和相應(yīng)的音頻類別標(biāo)簽,以及各音頻樣本中的各音頻樣本片段對(duì)應(yīng)的音頻類別標(biāo)簽,對(duì)所述音頻識(shí)別模型進(jìn)行訓(xùn)練,獲得符合預(yù)設(shè)訓(xùn)練條件的音頻識(shí)別模型,包括:
分別針對(duì)每一音頻樣本,執(zhí)行以下操作:將音頻樣本對(duì)應(yīng)的音頻特征向量和相應(yīng)的音頻類別標(biāo)簽,以及所述音頻樣本中的各音頻樣本片段對(duì)應(yīng)的音頻類別標(biāo)簽,輸入至音頻識(shí)別模型,獲得所述音頻樣本對(duì)應(yīng)的第一音頻類別,以及所述音頻樣本中的各音頻樣本片段對(duì)應(yīng)的第二音頻類別;
基于各音頻樣本對(duì)應(yīng)的音頻類別標(biāo)簽和相應(yīng)的第一音頻標(biāo)簽,確定相應(yīng)的第一損失;
基于各音頻樣本片段對(duì)應(yīng)的音頻類別標(biāo)簽和相應(yīng)的第二音頻標(biāo)簽,確定相應(yīng)的第二損失;
根據(jù)各第一損失和各第二損失,對(duì)所述音頻識(shí)別模型的參數(shù)進(jìn)行調(diào)整,獲得調(diào)整后的音頻識(shí)別模型。
3.如權(quán)利要求2所述的方法,其特征在于,將音頻樣本對(duì)應(yīng)的音頻特征向量和相應(yīng)的音頻類別標(biāo)簽,以及所述音頻樣本中的各音頻樣本片段對(duì)應(yīng)的音頻類別標(biāo)簽,輸入至音頻識(shí)別模型,獲得所述音頻樣本對(duì)應(yīng)的第一音頻類別,包括:
基于卷積神經(jīng)網(wǎng)絡(luò),對(duì)所述音頻樣本的音頻特征向量進(jìn)行卷積運(yùn)算處理,獲得第一向量;
基于聚合層以及第一分類損失函數(shù),對(duì)所述第一向量進(jìn)行分類處理,獲得所述音頻樣本對(duì)應(yīng)的第一音頻類別。
4.如權(quán)利要求2所述的方法,其特征在于,將音頻樣本對(duì)應(yīng)的音頻特征向量和相應(yīng)的音頻類別標(biāo)簽,以及所述音頻樣本中的各音頻樣本片段對(duì)應(yīng)的音頻類別標(biāo)簽,輸入至音頻識(shí)別模型,獲得所述音頻樣本中的各音頻樣本片段對(duì)應(yīng)的第二音頻類別,包括:
基于卷積神經(jīng)網(wǎng)絡(luò),對(duì)音頻樣本的音頻特征向量進(jìn)行卷積運(yùn)算處理;
從所述卷積神經(jīng)網(wǎng)絡(luò)中的指定層,抽取出矩陣向量;
基于第二分類損失函數(shù)以及所述矩陣向量,分別獲得每一音頻樣本片段對(duì)應(yīng)的第二音頻類別。
5.如權(quán)利要求4所述的方法,其特征在于,基于第二分類損失函數(shù)以及所述矩陣向量,分別獲得每一音頻樣本片段對(duì)應(yīng)的第二音頻類別,包括:
基于卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò),對(duì)所述矩陣向量進(jìn)行上下文處理,分別獲得每一音頻樣本片段對(duì)應(yīng)的第二向量;
基于所述第二分類損失函數(shù),分別對(duì)每一個(gè)第二向量進(jìn)行分類處理,獲得相應(yīng)的第二音頻類別。
6.一種非正常音頻識(shí)別的方法,其特征在于,采用如權(quán)利要求1-5任一項(xiàng)所述方法中的音頻識(shí)別模型,包括:
接收針對(duì)待識(shí)別音頻的識(shí)別請(qǐng)求消息;
獲取所述識(shí)別請(qǐng)求消息中包含的待識(shí)別音頻;
提取所述待識(shí)別音頻的音頻特征向量;
將所述待識(shí)別音頻的音頻特征向量輸入至所述音頻識(shí)別模型,獲得所述待識(shí)別音頻以及所述待識(shí)別音頻中的各音頻片段對(duì)應(yīng)的目標(biāo)音頻類別。
7.如權(quán)利要求6所述的方法,其特征在于,將所述待識(shí)別音頻的音頻特征向量輸入至所述音頻識(shí)別模型,獲得所述待識(shí)別音頻以及所述待識(shí)別音頻中的各音頻片段對(duì)應(yīng)的目標(biāo)音頻類別,包括:
基于卷積神經(jīng)網(wǎng)絡(luò),對(duì)所述待識(shí)別音頻的音頻特征向量進(jìn)行卷積運(yùn)算處理,獲得第一向量,以及矩陣向量;
基于聚合層以及第一分類損失函數(shù),對(duì)所述待識(shí)別音頻的第一向量進(jìn)行分類處理,獲得所述待識(shí)別音頻對(duì)應(yīng)的目標(biāo)音頻類別;
基于所述待識(shí)別音頻的矩陣向量,以及第二分類損失函數(shù),分別獲得所述待識(shí)別音頻中的每一音頻片段對(duì)應(yīng)的目標(biāo)音頻類別。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海依圖網(wǎng)絡(luò)科技有限公司,未經(jīng)上海依圖網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011102269.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 自動(dòng)配置藍(lán)牙A2DP傳輸音頻編碼格式的方法和系統(tǒng)
- 一種多路音頻處理方法、音頻播放終端及音頻接收裝置
- 一種音頻處理方法、裝置及終端設(shè)備
- 一種音頻質(zhì)量的檢測(cè)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 音頻分離方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種音頻播放方法、裝置、以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種音頻錄制系統(tǒng)
- 一種音頻共享系統(tǒng)及方法
- 音頻樣本生成方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 音頻處理方法和裝置
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 等級(jí)精細(xì)視力訓(xùn)練表
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 視覺(jué)盲點(diǎn)演示與旁中心注視訓(xùn)練儀
- 一種訓(xùn)練室
- 康復(fù)訓(xùn)練器及其定量訓(xùn)練方法和定量訓(xùn)練裝置
- 一種分布式訓(xùn)練中梯度同步方法及裝置
- 訓(xùn)練模型的訓(xùn)練時(shí)長(zhǎng)預(yù)測(cè)方法及裝置
- 一種模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種計(jì)算機(jī)輔助的自閉癥兒童情感社交康復(fù)訓(xùn)練系統(tǒng)





