[發明專利]語音識別中垃圾詞的生成方法及裝置、介質、電子設備有效
| 申請號: | 202010862613.1 | 申請日: | 2020-08-25 |
| 公開(公告)號: | CN111951784B | 公開(公告)日: | 2023-05-23 |
| 發明(設計)人: | 蘭澤華;林昱;陳少偉 | 申請(專利權)人: | 睿云聯(廈門)網絡通訊技術有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/22;G10L15/26 |
| 代理公司: | 廈門原創專利事務所(普通合伙) 35101 | 代理人: | 黃巧香 |
| 地址: | 361000 福建省廈*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 垃圾 生成 方法 裝置 介質 電子設備 | ||
本公開是關于一種語音識別中垃圾詞的生成方法及裝置,屬于計算機技術領域,該方法包括:根據目標關鍵詞包含的音素的數量,生成與所述數量對應的垃圾詞音素序列,所述垃圾詞音素序列中包含多個隨機生成的音素組合;對所述垃圾詞音素序列中包含的音素組合進行解碼,確定各個所述音素組合所對應的待選垃圾詞;將所述待選垃圾詞與所述目標關鍵詞作為訓練集,以對語言模型進行訓練;根據訓練完成的語言模型的測試結果,確定目標垃圾詞。該方法提高了垃圾詞的生成效率,同時保證了垃圾詞的防誤觸發效果。
背景技術
垃圾詞是語音識別中用以與關鍵詞相區別的詞匯,防止命令的誤觸發。在相關的技術方案中,一部分是隨機選取關鍵詞以外的詞匯作為垃圾詞,另一部分是由人工進行選取詞匯作為垃圾詞,然而,隨機選取會出現與關鍵詞發音相近的詞匯,進而導致命令的誤觸發,而由人工進行選取,耗時耗力,人工成本較高。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本公開的目的在于提供一種語音識別中垃圾詞的生成方法、垃圾詞的生成裝置、計算機可讀存儲介質以及電子設備,進而至少在一定程度上可以提高垃圾詞的生成效率,并有效降低命令的誤觸發。
根據本公開的一個方面,提供一種語音識別中垃圾詞的生成方法,包括:
根據目標關鍵詞包含的音素的數量,生成與所述數量對應的垃圾詞音素序列,所述垃圾詞音素序列中包含多個隨機生成的音素組合;
對所述垃圾詞音素序列中包含的音素組合進行解碼,確定各個所述音素組合所對應的待選垃圾詞;
將所述待選垃圾詞與所述目標關鍵詞作為訓練集,以對語言模型進行訓練;
根據訓練完成的語言模型的測試結果,確定目標垃圾詞。
在本公開的一些實施例中,基于前述方案,對所述垃圾詞音素序列中包含的音素組合進行解碼,確定各個所述音素組合所對應的待選垃圾詞,包括:
根據所述垃圾詞音素序列中包含的音素組合進行查詢,確定是否存在與所述音素組合對應的有效詞匯;
若存在與所述音素組合對應的有效詞匯,則將所述有效詞匯作為待選垃圾詞。
在本公開的一些實施例中,基于前述方案,在根據所述垃圾詞音素序列中包含的音素組合進行查詢,確定是否存在與所述音素組合對應的有效詞匯之后,所述方法還包括:
若不存在與所述音素組合對應的有效詞匯,則更新所述音素組合中包含的音素,確定是否存在與更新后的音素組合對應的有效詞匯。
在本公開的一些實施例中,基于前述方案,根據訓練完成的語言模型的測試結果,確定目標垃圾詞,包括:
根據訓練完成的語言模型的識別結果,計算所述語言模型的等錯誤率;
若所述等錯誤率小于或等于預定閾值,則將所述待選垃圾詞作為目標垃圾詞。
在本公開的一些實施例中,基于前述方案,所述垃圾詞音素序列的數量為多個,所述方法還包括:
若所述等錯誤率大于所述預定閾值,則采用遺傳算法對多個所述垃圾詞音素序列進行優化,直至所述等錯誤率小于或等于所述預定閾值。
在本公開的一些實施例中,基于前述方案,根據目標關鍵詞包含的音素的數量,生成與所述音素數量對應的垃圾詞音素序列,包括:
根據目標關鍵詞包含的音素的數量,確定垃圾詞音素序列中音素組合包含的音素的數量;
根據所述音素組合包含的音素的數量,生成垃圾詞音素序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于睿云聯(廈門)網絡通訊技術有限公司,未經睿云聯(廈門)網絡通訊技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010862613.1/2.html,轉載請聲明來源鉆瓜專利網。





