[發明專利]一種語音處理方法、裝置、電子設備及存儲介質在審

申請號：	202011053209.6	申請日：	2020-09-29
公開（公告）號：	CN112201249A	公開（公告）日：	2021-01-08
發明（設計）人：	陶斐;孫瑞娜;楊森	申請（專利權）人：	北京達佳互聯信息技術有限公司
主分類號：	G10L15/26	分類號：	G10L15/26;G10L15/02;H04N17/00;H04N21/2187
代理公司：	廣州三環專利商標代理有限公司 44202	代理人：	郝傳鑫;賈允
地址：	100085 北京市海淀***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種語音處理方法裝置電子設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本公開關于一種語音處理方法、裝置、電子設備及存儲介質，該方法包括：獲取目標語音；將所述目標語音輸入至語音處理模型的語音識別網絡，根據所述語音識別網絡的隱藏層的輸出得到語音特征提取結果；所述語音特征提取結果包括所述目標語音的文本特征和高級語義特征；將所述語音特征提取結果輸入至所述語音處理模型的語義理解網絡，得到所述目標語音的語義理解結果。本公開提高了對輸入語音內容理解的準確性，當應用于直播視頻內容的異常檢測時，可以提高對直播視頻內容異常檢測的準確性。

技術領域

本公開涉及語音處理技術領域，尤其涉及一種語音處理方法、裝置、電子設備及存儲介質。

背景技術

語音內容理解是一種基于語音識別技術和自然語言理解技術來對語音中表述的內容進行理解的技術。相關技術中，一般先使用語音識別模型將輸入語音轉化為純文本，然后以該純文本作為后續自然語言理解模型的輸入，從該純文本中提取有用信息進行語音內容的理解，但是直接基于該純文本得到的理解結果往往不夠準確，導致相關技術中對于語音內容理解存在準確性差的問題。

發明內容

本公開提供一種語音處理方法、裝置、電子設備及存儲介質，以至少解決相關技術中對于語音內容理解的準確性差的問題。本公開的技術方案如下：

根據本公開實施例的第一方面，提供一種語音處理方法，包括：

獲取目標語音；

將所述目標語音輸入至語音處理模型的語音識別網絡，根據所述語音識別網絡的隱藏層的輸出得到語音特征提取結果；所述語音特征提取結果包括所述目標語音的文本特征和高級語義特征；

將所述語音特征提取結果輸入至所述語音處理模型的語義理解網絡，得到所述目標語音的語義理解結果。

在一示例性的實施方式中，所述語音處理模型包括多個語音識別網絡，所述多個語音識別網絡具有不同的網絡結構；

相應的，所述將所述目標語音輸入至語音處理模型的語音識別網絡，根據所述語音識別網絡的隱藏層的輸出得到語音特征提取結果，包括：

將所述目標語音分別輸入至所述語音處理模型的各個語音識別網絡，獲取每個語音識別網絡的隱藏層輸出的特征向量；

對所述每個語音識別網絡的隱藏層輸出的特征向量進行融合，得到融合特征向量；

將所述融合特征向量作為所述語音特征提取結果。

在一示例性的實施方式中，所述語音識別網絡的隱藏層包括依次連接的多個中間隱藏層；