[發明專利]誤喚醒音頻的獲取方法和裝置在審

申請號：	202010981082.8	申請日：	2020-09-17
公開（公告）號：	CN112114886A	公開（公告）日：	2020-12-22
發明（設計）人：	李旭;杜霜霜	申請（專利權）人：	北京百度網訊科技有限公司
主分類號：	G06F9/4401	分類號：	G06F9/4401;G10L15/04;G10L15/22;G10L17/18
代理公司：	北京英賽嘉華知識產權代理有限責任公司 11204	代理人：	王達佐;馬曉亞
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	喚醒音頻獲取方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本申請公開了誤喚醒音頻的獲取方法和裝置，涉及語音識別技術領域。具體實施方式包括：采集播放的音頻，作為待處理音頻；將待處理音頻輸入到預設的深度神經網絡模型，得到待處理音頻的近似喚醒音頻片段在待處理音頻中的位置，其中，深度神經網絡模型用于預測在輸入的音頻中的、喚醒詞音頻的近似音頻片段的位置；基于近似喚醒音頻片段的位置，在待處理音頻中確定誤喚醒片段，并生成包括誤喚醒片段的誤喚醒片段集合。本申請可以通過深度神經網絡模型，準確地找到音頻中誤喚醒片段的位置，進而得到準確的誤喚醒片段集合。

技術領域

本申請涉及計算機技術領域，具體涉及語音識別技術領域，尤其涉及誤喚醒音頻的獲取方法和裝置。

背景技術

智能語音交互產品中誤喚醒一直是觸發概率低，但一旦觸發會引起用戶的強烈反感的現象。

電視播放、音樂播放等情況下容易產生誤喚醒，而這部分語料的來源多種多樣，在測試環境中很難捕捉，即便捕捉到也很難完全復現當時場景，使得智能產品產生錯誤喚醒。特別是對一些新品設備，其錯誤喚醒音頻更是難以收集。

發明內容

提供了一種誤喚醒音頻的獲取方法、裝置、電子設備以及存儲介質。

根據第一方面，提供了一種誤喚醒音頻的獲取方法，包括：采集播放的音頻，作為待處理音頻；將所述待處理音頻輸入到預設的深度神經網絡模型，得到所述待處理音頻的近似喚醒音頻片段在所述待處理音頻中的位置，其中，所述深度神經網絡模型用于預測在輸入的音頻中的、喚醒詞音頻的近似音頻片段的位置；基于所述近似喚醒音頻片段的位置，在所述待處理音頻中確定誤喚醒片段，并生成包括所述誤喚醒片段的誤喚醒片段集合。

根據第二方面，提供了一種誤喚醒音頻的獲取裝置，包括：獲取單元，被配置成采集播放的音頻，作為待處理音頻；預測單元，被配置成將所述待處理音頻輸入到預設的深度神經網絡模型，得到所述待處理音頻的近似喚醒音頻片段在所述待處理音頻中的位置，其中，所述深度神經網絡模型用于預測在輸入的音頻中的、喚醒詞音頻的近似音頻片段的位置；生成單元，被配置成基于所述近似喚醒音頻片段的位置，在所述待處理音頻中確定誤喚醒片段，并生成包括所述誤喚醒片段的誤喚醒片段集合。

根據第三方面，提供了一種電子設備，包括：一個或多個處理器；存儲裝置，用于存儲一個或多個程序，當一個或多個程序被一個或多個處理器執行，使得一個或多個處理器實現如誤喚醒音頻的獲取方法中任一實施例的方法。

根據第四方面，提供了一種計算機可讀存儲介質，其上存儲有計算機程序，該程序被處理器執行時實現如誤喚醒音頻的獲取方法中任一實施例的方法。

根據本申請的方案，可以通過深度神經網絡模型，準確地找到音頻中誤喚醒片段的位置，進而得到準確的誤喚醒片段集合。

附圖說明

通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述，本申請的其它特征、目的和優點將會變得更明顯：

圖1是本申請一些實施例可以應用于其中的示例性系統架構圖；

圖2是根據本申請的誤喚醒音頻的獲取方法的一個實施例的流程圖；

圖3是根據本申請的誤喚醒音頻的獲取方法的一個應用場景的示意圖；

圖4a是根據本申請的誤喚醒音頻的獲取方法的又一個實施例的流程圖；

圖4b是根據本申請的誤喚醒音頻的獲取方法的又一個應用場景的示意圖；

圖5是根據本申請的誤喚醒音頻的獲取裝置的一個實施例的結構示意圖；

圖6是用來實現本申請實施例的誤喚醒音頻的獲取方法的電子設備的框圖。