[發明專利]語音識別中垃圾詞的生成方法及裝置、介質、電子設備有效

申請號：	202010862613.1	申請日：	2020-08-25
公開（公告）號：	CN111951784B	公開（公告）日：	2023-05-23
發明（設計）人：	蘭澤華;林昱;陳少偉	申請（專利權）人：	睿云聯（廈門）網絡通訊技術有限公司
主分類號：	G10L15/02	分類號：	G10L15/02;G10L15/06;G10L15/22;G10L15/26
代理公司：	廈門原創專利事務所(普通合伙) 35101	代理人：	黃巧香
地址：	361000 福建省廈***	國省代碼：	福建;35
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語音識別垃圾生成方法裝置介質電子設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本公開是關于一種語音識別中垃圾詞的生成方法及裝置，屬于計算機技術領域，該方法包括：根據目標關鍵詞包含的音素的數量，生成與所述數量對應的垃圾詞音素序列，所述垃圾詞音素序列中包含多個隨機生成的音素組合；對所述垃圾詞音素序列中包含的音素組合進行解碼，確定各個所述音素組合所對應的待選垃圾詞；將所述待選垃圾詞與所述目標關鍵詞作為訓練集，以對語言模型進行訓練；根據訓練完成的語言模型的測試結果，確定目標垃圾詞。該方法提高了垃圾詞的生成效率，同時保證了垃圾詞的防誤觸發效果。

背景技術

垃圾詞是語音識別中用以與關鍵詞相區別的詞匯，防止命令的誤觸發。在相關的技術方案中，一部分是隨機選取關鍵詞以外的詞匯作為垃圾詞，另一部分是由人工進行選取詞匯作為垃圾詞，然而，隨機選取會出現與關鍵詞發音相近的詞匯，進而導致命令的誤觸發，而由人工進行選取，耗時耗力，人工成本較高。

需要說明的是，在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解，因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。

發明內容

本公開的目的在于提供一種語音識別中垃圾詞的生成方法、垃圾詞的生成裝置、計算機可讀存儲介質以及電子設備，進而至少在一定程度上可以提高垃圾詞的生成效率，并有效降低命令的誤觸發。

根據本公開的一個方面，提供一種語音識別中垃圾詞的生成方法，包括：

根據目標關鍵詞包含的音素的數量，生成與所述數量對應的垃圾詞音素序列，所述垃圾詞音素序列中包含多個隨機生成的音素組合；

對所述垃圾詞音素序列中包含的音素組合進行解碼，確定各個所述音素組合所對應的待選垃圾詞；

將所述待選垃圾詞與所述目標關鍵詞作為訓練集，以對語言模型進行訓練；

根據訓練完成的語言模型的測試結果，確定目標垃圾詞。

在本公開的一些實施例中，基于前述方案，對所述垃圾詞音素序列中包含的音素組合進行解碼，確定各個所述音素組合所對應的待選垃圾詞，包括：

根據所述垃圾詞音素序列中包含的音素組合進行查詢，確定是否存在與所述音素組合對應的有效詞匯；