[發明專利]一種自動獲取標注數據優化自定義喚醒模型的方法有效

申請號：	201811620403.0	申請日：	2018-12-28
公開（公告）號：	CN109637537B	公開（公告）日：	2020-06-30
發明（設計）人：	楊程遠;陳孝良;馮大航;蘇少煒;常樂	申請（專利權）人：	北京聲智科技有限公司
主分類號：	G10L15/22	分類號：	G10L15/22;G10L15/06;G10L15/26
代理公司：	中科專利商標代理有限責任公司 11021	代理人：	任巖
地址：	100086 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種自動獲取標注數據優化自定義喚醒模型方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本公開提供了一種自動獲取標注數據優化自定義喚醒模型的方法包括：建立初始的自定義喚醒模型；獲取線上數據ASR的識別結果，并根據該識別結果中的文本進行篩選，自動獲得標注音頻數據；將篩選后的標注音頻數據作為初始的自定義喚醒模型的訓練數據，對初始的自定義喚醒模型進行優化更新。基于N?Gram模型對ASR識別結果的文本成句概率進行篩選，從而自動獲取標注音頻數據，并將其作為自定義喚醒模型的訓練數據，能夠方便地實現自定義喚醒模型的優化訓練。

技術領域

本公開涉及自動語音識別(Automatic Speech Recognition，簡稱ASR) 領域，尤其涉及一種基于N-Gram自動獲取高精度標注數據優化自定義喚醒模型的方法。

背景技術

隨著信息和通信技術的發展，智能設備已經在日常生活中被廣泛應用。智能音箱等智能設備可使用通過麥克風采集到的音頻信號來提供服務，例如智能語音設備作為家庭場景中有效的人工智能交互入口。

智能語音設備基于自動語音識別系統，自動語音識別系統由聲學模型、語言模型、解碼器三大部分構成。其中聲學模型是由大量已經標注文本的音頻的提特征之后通過DNN等方法訓練得到的，大量領域相關、標注準確的音頻是聲學模型優化的主要途徑。

對于智能音箱領域，智能音箱獲取到用戶輸入的音頻數據后，需要先檢測獲取到的聲音信號中是否包括喚醒詞，如果包括喚醒詞，便會激活語音識別系統，來對獲取到的聲音信號進行識別，從而根據所識別出的聲音信號執行相應的操作，如果不包括喚醒詞，則不激活語音識別系統，也就不會對獲取到的聲音信號進行識別。即語音喚醒技術是一種具有開關入口屬性的功能，用戶通過喚醒詞的喚醒，可以發起人機交互的操作，即智能音箱只有被用戶所說的喚醒詞喚醒后，才會對用戶接下來的聲音信號進行識別。因此，對于智能音箱等智能設備，為了方便用戶自定義喚醒詞，需要自定義喚醒模型。

與聲學模型類似的，自定義喚醒模型同樣需要大量的標注音頻提高自定義喚醒詞的覆蓋率及準確性。在最初建立自定義喚醒模型之后，為了進一步提高喚醒詞的覆蓋率及準確性，還需要對自定義喚醒模型進行優化。

發明內容

(一)要解決的技術問題

本公開提供了一種基于N-Gram自動獲取高精度標注數據優化自定義喚醒模型的方法，以至少部分解決以上所提出的技術問題。

(二)技術方案

根據本公開的一個方面，提供了一種自動獲取標注數據優化自定義喚醒模型的方法包括：

建立初始的自定義喚醒模型；

獲取線上數據ASR的識別結果，并根據該識別結果中的文本進行篩選，自動獲得標注音頻數據；

將篩選后的標注音頻數據作為初始的自定義喚醒模型的訓練數據，對初始的自定義喚醒模型進行優化更新。

在一些實施例中，所述建立初始的自定義喚醒模型包括：

采用已標注的音頻輸入到自定義喚醒模型進行訓練，所述自定義喚醒模型輸出用于確定是否進行語音喚醒的結果。

在一些實施例中，所述自定義喚醒模型由喚醒聲學模型及解碼器組成，自定義喚醒模型的喚醒詞為用戶自定義的。