[發明專利]一種自動獲取標注數據優化自定義喚醒模型的方法有效
| 申請號: | 201811620403.0 | 申請日: | 2018-12-28 |
| 公開(公告)號: | CN109637537B | 公開(公告)日: | 2020-06-30 |
| 發明(設計)人: | 楊程遠;陳孝良;馮大航;蘇少煒;常樂 | 申請(專利權)人: | 北京聲智科技有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/06;G10L15/26 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 任巖 |
| 地址: | 100086 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動 獲取 標注 數據 優化 自定義 喚醒 模型 方法 | ||
1.一種自動獲取標注數據優化自定義喚醒模型的方法包括:
建立初始的自定義喚醒模型;
獲取線上數據ASR的識別結果,并根據該識別結果中的文本進行篩選,自動獲得標注音頻數據;
將篩選后的標注音頻數據作為初始的自定義喚醒模型的訓練數據,對初始的自定義喚醒模型進行優化更新;
所述根據該識別結果中的文本進行篩選,自動獲得標注音頻數據,包括以下子步驟:
建立一個基礎的N-Gram模型;
根據獲取的線上數據ASR的識別結果,對線上數據ASR識別結果的文本進行分詞;
分詞后在所述N-Gram模型中依次查找文本中每一個N元詞組,并計算文本中每一個N元詞組出現的概率,計算完所有的N元詞組的概率之后求均值,獲得所述文本的成句概率;以及
篩選成句概率大于預定閾值的文本對應的標注音頻,從而自動獲得標注音頻數據。
2.根據權利要求1所述的方法,所述建立初始的自定義喚醒模型包括:
采用已標注的音頻輸入到自定義喚醒模型進行訓練,所述自定義喚醒模型輸出用于確定是否進行語音喚醒的結果。
3.根據權利要求2所述的方法,其中,所述自定義喚醒模型由喚醒聲學模型及解碼器組成,自定義喚醒模型的喚醒詞為用戶自定義的。
4.根據權利要求3所述的方法,其中,自定義喚醒僅搜索喚醒聲學模型的最高分。
5.根據權利要求4所述的方法,其中,自定義喚醒模型搜索喚醒聲學模型中各種音素排序,每種音素排序對應一個分數。
6.根據權利要求1所述的方法,所述分詞后在基礎N-gram模型中依次查找文本中每一個N元詞組時,如果找不到N元詞組,則回退查找N-1元詞組,若獲取的為N-1元詞組的成句概率,則對該文本的成句概率乘以折扣系數。
7.根據權利要求1所述的方法,所述篩選成句概率大于預定閾值的文本對應的標注音頻包括:采用已經標注的預定數量的樣本集合做測試,獲取一個使得篩選后的數據的字準確率能夠滿足使用要求的成句概率的閾值;采用該閾值對文本進行篩選,獲取篩選出的文本語句對應的音頻,生成標注音頻數據。
8.根據權利要求1所述的方法,其中,所述將篩選后的標注音頻數據作為初始的自定義喚醒模型的訓練數據包括:
在人工標注的音頻數據的基礎上,增加篩選后自動獲取的標注音頻數據,作為自定義喚醒模型訓練數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京聲智科技有限公司,未經北京聲智科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811620403.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自動化識別語義準確性的方法及裝置
- 下一篇:一種實現語音控制的方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





