[發(fā)明專利]一種檢測方法、裝置和電子設備有效
| 申請?zhí)枺?/td> | 201911207666.3 | 申請日: | 2019-11-29 |
| 公開(公告)號: | CN110992979B | 公開(公告)日: | 2022-04-08 |
| 發(fā)明(設計)人: | 朱紫薇;潘逸倩;劉忠亮;唐文琦 | 申請(專利權)人: | 北京搜狗科技發(fā)展有限公司 |
| 主分類號: | G10L25/03 | 分類號: | G10L25/03;G10L25/27;G10L25/78 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 鄭傲日 |
| 地址: | 100084 北京市海淀區(qū)中關*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 檢測 方法 裝置 電子設備 | ||
本發(fā)明實施例提供了一種檢測方法、裝置和電子設備,其中,所述方法包括:獲取待檢測語音數據;依據目標音頻事件檢測模型對所述待檢測語音數據進行音頻事件檢測,確定所述待檢測語音數據對應的音頻事件信息;其中,所述目標音頻事件檢測模型由初始音頻事件檢測模型和覆蓋不同視野的預設模型整合而成;進而本發(fā)明實施例能夠對不同長度的音頻事件均可以進行擬合,從而提高了檢測不同長度音頻事件的準確性。
技術領域
本發(fā)明涉及數據處理技術領域,特別是涉及一種檢測方法、裝置和電子設備。
背景技術
在聲學監(jiān)視、健康監(jiān)控、以及城市聲音分析等各種場景中,常常會使用到音頻事件檢測,以檢測出對應的音頻事件;例如掌聲、笑聲、歡呼聲、嬰兒哭聲、狗叫聲等等。
現有技術中,通常將基于深度學習的模型深度卷積網絡(Convolutional NeuralNetwork,CNN)和深度循環(huán)網絡(RecurrentNeuralNetwork,RNN)模型進行結合,進行音頻事件檢測。其中,不同音頻事件的長度可能不一致,比如笑聲大多數小于4s,而掌聲大多數多于4s;且同一音頻事件的長度也可能不一致,例如笑聲可能為2s,也可能為3s。而CNN的視野小,相對于長度較大音頻事件,現有技術對長度較小的音頻事件檢測的準確率更高。若需要提高對長度較大的音頻事件檢測的準確率,可以加深CNN,來增加CNN的視野;而不同的視野會影響RNN對音頻事件位置的判斷,這會影響對長度較小的音頻事件的檢測。
發(fā)明內容
本發(fā)明實施例提供一種檢測方法,以提高檢測不同長度音頻事件的準確性。
相應的,本發(fā)明實施例還提供了一種檢測裝置和一種電子設備,用以保證上述方法的實現及應用。
為了解決上述問題,本發(fā)明實施例公開了一種檢測方法,具體包括:獲取待檢測語音數據;依據目標音頻事件檢測模型對所述待檢測語音數據進行音頻事件檢測,確定所述待檢測語音數據對應的音頻事件信息;其中,所述目標音頻事件檢測模型由初始音頻事件檢測模型和覆蓋不同視野的預設模型整合而成。
可選地,所述初始音頻事件檢測模型包括第一檢測模型和第二檢測模型,所述的方法還包括:將所述預設模型整合在所述第一檢測模型和第二檢測模型之間。
可選地,所述依據目標音頻事件檢測模型對所述待檢測語音數據進行音頻事件檢測,確定所述待檢測語音數據對應的音頻事件信息,包括:從所述待檢測語音數據中提取初始語音特征;將所述初始語音特征輸入至所述第一檢測模型進行基礎特征提取,得到對應的基礎語音特征;將所述基礎語音特征輸入至所述預設模型中進行不同視野的特征提取,得到對應的中級語音特征;將所述中級語音特征輸入至所述第二檢測模型進行擬合,輸出所述待檢測語音數據中各幀音頻對應的音頻事件概率信息;依據所述待檢測語音數據中各幀音頻對應的音頻事件概率信息,確定所述待檢測語音數據的音頻事件信息。
可選地,所述將所述初始語音特征輸入至所述第一檢測模型進行基礎特征提取,得到對應的基礎語音特征,包括:截取多個初始語音特征片段;依次將截取的每個初始語音特征片段輸入至所述第一檢測模型進行基礎特征提取,得到對應的基礎語音特征。
可選地,所述音頻事件概率信息包括多類音頻事件的概率;所述依據所述待檢測語音數據中各幀音頻對應的音頻事件概率信息,確定所述待檢測語音數據的音頻事件信息,包括:針對所述待檢測語音數據中的每一幀音頻,對所述幀音頻對應的各類音頻事件的概率進行濾波;以及依據各類音頻事件濾波后的概率,確定所述幀音頻對應的目標音頻事件;依據所述各幀音頻對應的目標音頻事件和幀標識,確定所述待檢測語音數據的音頻事件信息;其中,所述音頻事件信息包括音頻事件和音頻事件對應的起止時間。
可選地,所述依據各類音頻事件濾波后的概率,確定所述幀音頻對應的目標音頻事件,包括:分別將所述幀音頻對應的各類音頻事件濾波后的概率與對應類音頻事件的概率閾值進行比對,確定所述幀音頻對應的各類音頻事件的預測結果;分別對所述幀音頻對應的各類音頻事件的預測結果進行濾波,確定所述幀音頻對應的目標音頻事件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京搜狗科技發(fā)展有限公司,未經北京搜狗科技發(fā)展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911207666.3/2.html,轉載請聲明來源鉆瓜專利網。





