[發明專利]重疊語音識別方法、裝置、計算機設備和存儲介質有效
| 申請號: | 201911324160.0 | 申請日: | 2019-12-20 |
| 公開(公告)號: | CN111145782B | 公開(公告)日: | 2021-07-13 |
| 發明(設計)人: | 周維聰 | 申請(專利權)人: | 深圳追一科技有限公司 |
| 主分類號: | G10L25/51 | 分類號: | G10L25/51;G10L25/87;H04M3/51 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 唐彩琴 |
| 地址: | 518051 廣東省深圳市南山區粵海街道*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 重疊 語音 識別 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種重疊語音識別方法,所述方法包括:
獲取客服人員與用戶之間語音通話的音頻流;
通過語音檢測模型檢測所述音頻流中的語音段;
通過話者轉換模型識別所述語音段中的話者轉換點以及語音重疊點;
利用所述話者轉換點以及所述語音重疊點將所述語音段切分為多個語音子段;所述語音子段包括單語音子段和重疊語音子段;所述重疊語音子段中包括所述語音重疊點;
對多個所述單語音子段進行聚類,得到每個單語音子段對應的類別標簽;
對所述單語音子段進行關鍵字檢索,確定所述類別標簽對應的身份;
根據所述單語音子段和所述重疊語音子段的順序,以及所述類別標簽對應的身份,識別與所述客服人員對應的重疊語音子段。
2.根據權利要求1所述的方法,其特征在于,所述通過語音檢測模型檢測所述音頻流中的語音段包括:
通過語音檢測模型檢測所述音頻流中的語音信號;
根據所述語音信號進行語音端點檢測和語音識別,得到所述語音信號對應的語音端點信息;
根據所述語音端點信息將所述語音信號生成對應的語音段。
3.根據權利要求1所述的方法,其特征在于,所述通過話者轉換模型識別所述語音段中的話者轉換點以及語音重疊點,包括:
利用預設時長的窗口,在所述語音段中提取每個窗口的語音特征;
將所述語音段中的所述語音特征輸入所述話者轉換模型,通過所述話者轉換模型進行運算,輸出所述語音段中的話者轉換點以及語音重疊點。
4.根據權利要求1所述的方法,其特征在于,所述利用所述話者轉換點以及所述語音重疊點將所述語音段切分為多個語音子段,包括:
獲取所述語音段對應的時長序列;
獲取所述話者轉換點對應的轉換時刻以及所述語音重疊點對應的重疊時刻;
將所述轉換時刻與所述重疊時刻插入至所述時長序列,生成多個子序列;
根據所述子序列將所述語音段切分為對應的語音子段。
5.根據權利要求1所述的方法,其特征在于,所述話者轉換模型包括有監督訓練得到的神經網絡,所述話者轉換模型通過如下步驟進行訓練:
獲取多個樣本音頻流;
利用預設時長的窗口,在所述樣本音頻流中提取與每個窗口對應的語音特征;
對所述語音特征添加對應的語音標簽;所述語音標簽包括話者轉換標簽以及語音重疊標簽;
利用所述話者轉換標簽、所述語音重疊標簽以及對應的語音特征對所述神經網絡進行有監督的訓練,得到所述話者轉換模型。
6.根據權利要求1所述的方法,其特征在于,所述對多個所述單語音子段進行聚類,得到每個單語音子段對應的類別標簽包括:
對多個所述單語音子段進行聚類,得到單語音子段對應的身份類別;
向每一個身份類別的多個單語音子段添加對應的類別標簽。
7.根據權利要求1所述的方法,其特征在于,所述對所述單語音子段進行關鍵字檢索,確定所述類別標簽對應的身份包括:
將所述單語音子段的音頻信息轉換為文本信息;
利用預設的關鍵字在所述文本信息中進行檢索;
根據所述關鍵字與身份的對應關系,確定所述類別標簽對應的身份。
8.根據權利要求1所述的方法,其特征在于,所述根據所述單語音子段和所述重疊語音子段的順序,以及所述類別標簽對應的身份,識別與所述客服人員對應的重疊語音子段包括:
當重疊語音子段的前一個單語音子段對應的身份為用戶,后一個單語音子段對應的身份為客服時,確定所述重疊語音子段為客服人員搶話的重疊語音子段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳追一科技有限公司,未經深圳追一科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911324160.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電力價格預測的方法以及裝置
- 下一篇:鋰離子電池制備方法及其鋰電池





