[發明專利]重疊語音識別方法、裝置、計算機設備和存儲介質有效
| 申請號: | 201911324160.0 | 申請日: | 2019-12-20 |
| 公開(公告)號: | CN111145782B | 公開(公告)日: | 2021-07-13 |
| 發明(設計)人: | 周維聰 | 申請(專利權)人: | 深圳追一科技有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/87;H04M3/51 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 唐彩琴 |
| 地址: | 518051 廣東省深圳市南山區粵海街道*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 重疊 語音 識別 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種重疊語音識別方法、裝置、計算機設備和存儲介質。該方法包括:獲取客服人員與用戶之間語音通話的音頻流;通過語音檢測模型檢測音頻流中的語音段;通過話者轉換模型識別語音段中的話者轉換點以及語音重疊點;利用話者轉換點以及語音重疊點將語音段切分為多個語音子段;語音子段包括單語音子段和重疊語音子段;對多個單語音子段進行聚類,得到每個單語音子段對應的類別標簽;對單語音子段進行關鍵字檢索,確定類別標簽對應的身份;根據單語音子段和重疊語音子段的順序,以及類別標簽對應的身份,識別與客服人員對應的重疊語音子段。采用本方法能夠在客服人員與用戶通話的音頻流中準確識別客服人員搶話的情形。
技術領域
本申請涉及計算機技術領域,特別是涉及一種重疊語音識別方法、裝置、計算機設備和存儲介質。
背景技術
隨著計算機技術的發展,語音識別應用到多種行業。例如,在售前售后等環節,客服人員可以與用戶之間進行語音通話,為用戶提供相應的行業服務。通過對客服人員與用戶的音頻流進行語音識別,可以對應客服人員的工作進行質量檢驗。客服人員是否存在搶話屬于質量檢驗的一項重要內容。如果在音頻流中識別是否存在客服人員搶話,則成為目前需要解決的一個技術問題。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠在客服人員與用戶通話的音頻流中準確識別客服人員搶話的重疊語音識別方法、裝置、計算機設備和存儲介質。
一種重疊語音識別方法,所述方法包括:
獲取客服人員與用戶之間語音通話的音頻流;
通過語音檢測模型檢測所述音頻流中的語音段;
通過話者轉換模型識別所述語音段中的話者轉換點以及語音重疊點;
利用所述話者轉換點以及所述語音重疊點將所述語音段切分為多個語音子段;所述語音子段包括單語音子段和重疊語音子段;所述重疊語音子段中包括所述語音重疊點;
對所述多個單語音子段進行聚類,得到每個單語音子段對應的類別標簽;
對所述單語音子段進行關鍵字檢索,確定所述類別標簽對應的身份;
根據所述單語音子段和所述重疊語音子段的順序,以及所述類別標簽對應的身份,識別與所述客服人員對應的重疊語音子段。
一種重疊語音識別裝置,所述裝置包括:
獲取模塊,用于獲取客服人員與用戶之間語音通話的音頻流;
語音檢測模塊,用于通過語音檢測模型檢測所述音頻流中的語音段;
話者轉換模塊,用于通過話者轉換模型識別所述語音段中的話者轉換點以及語音重疊點;
切分模塊,用于利用所述話者轉換點以及所述語音重疊點將所述語音段切分為多個語音子段;所述語音子段包括單語音子段和重疊語音子段;所述重疊語音子段中包括所述語音重疊點;
聚類模塊,用于對所述多個單語音子段進行聚類,得到每個單語音子段對應的類別標簽;
身份識別模塊,用于對所述單語音子段進行關鍵字檢索,確定所述類別標簽對應的身份;根據所述單語音子段和所述重疊語音子段的順序,以及所述類別標簽對應的身份,識別與所述客服人員對應的重疊語音子段。
一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現以下步驟:
獲取客服人員與用戶之間語音通話的音頻流;
通過語音檢測模型檢測所述音頻流中的語音段;
通過話者轉換模型識別所述語音段中的話者轉換點以及語音重疊點;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳追一科技有限公司,未經深圳追一科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911324160.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電力價格預測的方法以及裝置
- 下一篇:鋰離子電池制備方法及其鋰電池





