[發明專利]一種語音處理方法、裝置、電子設備及存儲介質在審
| 申請號: | 202011053209.6 | 申請日: | 2020-09-29 |
| 公開(公告)號: | CN112201249A | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 陶斐;孫瑞娜;楊森 | 申請(專利權)人: | 北京達佳互聯信息技術有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/02;H04N17/00;H04N21/2187 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 郝傳鑫;賈允 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 處理 方法 裝置 電子設備 存儲 介質 | ||
本公開關于一種語音處理方法、裝置、電子設備及存儲介質,該方法包括:獲取目標語音;將所述目標語音輸入至語音處理模型的語音識別網絡,根據所述語音識別網絡的隱藏層的輸出得到語音特征提取結果;所述語音特征提取結果包括所述目標語音的文本特征和高級語義特征;將所述語音特征提取結果輸入至所述語音處理模型的語義理解網絡,得到所述目標語音的語義理解結果。本公開提高了對輸入語音內容理解的準確性,當應用于直播視頻內容的異常檢測時,可以提高對直播視頻內容異常檢測的準確性。
技術領域
本公開涉及語音處理技術領域,尤其涉及一種語音處理方法、裝置、電子設備及存儲介質。
背景技術
語音內容理解是一種基于語音識別技術和自然語言理解技術來對語音中表述的內容進行理解的技術。相關技術中,一般先使用語音識別模型將輸入語音轉化為純文本,然后以該純文本作為后續自然語言理解模型的輸入,從該純文本中提取有用信息進行語音內容的理解,但是直接基于該純文本得到的理解結果往往不夠準確,導致相關技術中對于語音內容理解存在準確性差的問題。
發明內容
本公開提供一種語音處理方法、裝置、電子設備及存儲介質,以至少解決相關技術中對于語音內容理解的準確性差的問題。本公開的技術方案如下:
根據本公開實施例的第一方面,提供一種語音處理方法,包括:
獲取目標語音;
將所述目標語音輸入至語音處理模型的語音識別網絡,根據所述語音識別網絡的隱藏層的輸出得到語音特征提取結果;所述語音特征提取結果包括所述目標語音的文本特征和高級語義特征;
將所述語音特征提取結果輸入至所述語音處理模型的語義理解網絡,得到所述目標語音的語義理解結果。
在一示例性的實施方式中,所述語音處理模型包括多個語音識別網絡,所述多個語音識別網絡具有不同的網絡結構;
相應的,所述將所述目標語音輸入至語音處理模型的語音識別網絡,根據所述語音識別網絡的隱藏層的輸出得到語音特征提取結果,包括:
將所述目標語音分別輸入至所述語音處理模型的各個語音識別網絡,獲取每個語音識別網絡的隱藏層輸出的特征向量;
對所述每個語音識別網絡的隱藏層輸出的特征向量進行融合,得到融合特征向量;
將所述融合特征向量作為所述語音特征提取結果。
在一示例性的實施方式中,所述語音識別網絡的隱藏層包括依次連接的多個中間隱藏層;
相應的,所述獲取每個語音識別網絡的隱藏層輸出的特征向量,包括:
針對每個語音識別網絡的隱藏層,獲取所述隱藏層包括的多個中間隱藏層中的最后一層中間隱藏層所輸出的特征向量。
在一示例性的實施方式中,所述獲取目標語音,包括:
獲取直播視頻數據流;
提取所述直播視頻數據流中的語音數據,并將所述語音數據作為所述目標語音。
在一示例性的實施方式中,所述方法還包括:
獲取預訓練的語音識別網絡,根據所述語音識別網絡和初始語義理解網絡構建初始語音處理模型;
獲取訓練樣本,所述訓練樣本包括樣本語音和所述樣本語音對應的樣本語義信息;
將所述樣本語音輸入至所述初始語音處理模型的語音識別網絡,根據所述語音識別網絡的隱藏層的輸出得到樣本語音特征提取結果,所述樣本語音特征提取結果包括所述樣本語音的文本特征和高級語義特征;
將所述樣本語音特征提取結果輸入至所述初始語音處理模型的初始語義理解網絡,得到所述樣本語音的語義理解結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京達佳互聯信息技術有限公司,未經北京達佳互聯信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011053209.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種磁鋼自動載入圓形掛具的設備
- 下一篇:一種深內型腔焊道的加工方法





