[發明專利]音頻事件檢測方法、裝置及計算機可讀存儲介質有效
| 申請號: | 201710797265.2 | 申請日: | 2017-09-06 |
| 公開(公告)號: | CN108510982B | 公開(公告)日: | 2020-03-17 |
| 發明(設計)人: | 劉海波 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L25/27;G10L25/30 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 蔣雅潔;張穎玲 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音頻 事件 檢測 方法 裝置 計算機 可讀 存儲 介質 | ||
1.一種音頻事件檢測方法,其特征在于,所述方法包括:
對待檢測的音頻進行分幀處理,并從分幀處理得到的各時刻的音頻數據中分別提取指定特征向量;
將所述各時刻的音頻數據的指定特征向量輸入訓練得到的RNN/BI-RNN模型中,得到所述各時刻的音頻數據中各音頻事件的后驗概率,所述RNN/BI-RNN是基于訓練音頻及預置的所述各音頻事件訓練得到的,所述各音頻事件指不同類別的聲音;
根據所述各時刻的音頻數據中各音頻事件的后驗概率及預置的音頻解碼算法,從所述各時刻的音頻數據中檢測音頻事件的最佳音頻數據序列;
其中,所述根據所述各時刻的音頻數據中各音頻事件的后驗概率及預置的音頻解碼算法,從所述各時刻的音頻數據中檢測音頻事件的最佳音頻數據序列,包括:依次確定所述各時刻的音頻數據中后驗概率最大的音頻事件,且將后驗概率最大的音頻事件作為相應時刻的初始音頻事件;按照預置的Viterbi解碼算法對所述各時刻的初始音頻事件進行糾錯處理,得到所述各時刻的目標音頻事件;基于所述各時刻的目標音頻事件的連續性,從所述各時刻的音頻數據中提取所述目標音頻事件的最佳音頻數據序列。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
對所述訓練音頻進行分幀處理,并從分幀處理得到的各時刻的訓練音頻數據中分別提取指定特征向量;
將所述各時刻的訓練音頻數據的指定特征向量輸入待訓練的RNN/BI-RNN模型中,并基于預置的各音頻事件進行迭代訓練,得到訓練后的RNN/BI-RNN模型。
3.根據權利要求2所述的方法,其特征在于,所述將所述各時刻的訓練音頻數據的指定特征向量輸入待訓練的RNN/BI-RNN模型中,并基于預置的各音頻事件進行迭代訓練,得到訓練后的RNN/BI-RNN模型,包括:
將所述各時刻的訓練音頻數據的指定特征向量輸入待訓練的RNNm模型中,并對前向隱層進行前向傳遞訓練,得到所述RNNm模型輸出的所述各時刻的訓練音頻數據中各音頻事件的訓練概率,其中,m的初始值為0,且RNN0模型為初始待訓練模型;
基于所述各時刻的訓練音頻數據中各音頻事件的訓練概率及預置的反向傳遞BPTT算法對所述RNNm模型的前向隱層進行后向傳遞訓練,對所述RNNm模型中各節點的權重進行更新,得到更新后的RNNm+1模型,其中,所述RNN0模型中各節點的權重為預先設置的值;
若基于所述RNNm+1模型確定停止迭代訓練,則將所述RNNm+1模型作為訓練后的RNN模型;
若基于所述RNNm+1模型確定繼續迭代訓練,則令m=m+1,返回執行將所述各時刻的訓練音頻數據的指定特征向量輸入待訓練的RNNm模型中的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710797265.2/1.html,轉載請聲明來源鉆瓜專利網。





