[發明專利]一種ASR和NLU聯合訓練的電話客服質量評分技術及系統在審
| 申請號: | 202010884877.7 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112053681A | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 陳開冉;黎展;謝智權 | 申請(專利權)人: | 廣州探跡科技有限公司 |
| 主分類號: | G10L15/16 | 分類號: | G10L15/16;G10L15/18;G10L15/26 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 顏希文;郝傳鑫 |
| 地址: | 511400 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 asr nlu 聯合 訓練 電話 客服 質量 評分 技術 系統 | ||
本發明提供了一種ASR和NLU聯合訓練的電話客服質量評分技術及系統,通過自動語音識別與自然語言理解聯合訓練,能夠更有效的保留語音的原始特征,減少誤差傳播,解決了傳統電話質檢系統無法匹配語義層面軟性指標等問題。所述方法包括:獲取錄音數據,基于說話人身份,將錄音數據切分成n條語音;將n條語音分類標記;將標記后的n條語音經自動語音識別訓練,獲取n個高維向量;將n個高維向量按類別拼接,獲取拼接向量;將拼接向量經過自然語言理解訓練,得到語音?語義向量V;對向量V做分類任務,獲得每個任務場景類別的置信度C;對向量V進行編碼得到語義向量P,將向量P標準化后,輸入到一個全連接層里,然后與置信度C相乘,獲得評分。
技術領域
本發明涉及電話質檢,尤其涉及一種ASR和NLU聯合訓練的電話客服質量評分技術及系統。
背景技術
現有的電話質檢系統,通過將語音識別成文字后,評分規則大多基于正則匹配開展。如有沒說臟話、有沒說敬語等,正則匹配適用于硬性指標。但是對一些語義層面的軟性指標,例如客服在特定場景的話術專業度評分等,現存的電話質檢系統無法實現。從而無法為企業客戶提供更細致的電話客服管理。
由于語音識別和正則規則是pipeline關系,語音識別的錯誤會積累到正則匹配。而且,從語音轉成文字,除了積累誤差外,還丟失了很多重要原始信息與語氣情緒等。這使得現存的電話質檢系統能力有限,無法覆蓋更廣的應用。
發明內容
為了解決上述技術問題,本發明提供了一種ASR和NLU聯合訓練的電話客服質量評分技術及系統,通過自動語音識別與自然語言理解聯合訓練,能夠更有效的保留語音的原始特征,減少誤差傳播,解決了傳統電話質檢系統無法匹配語義層面軟性指標等問題。
本發明的技術方案是這樣實現的:
一種ASR和NLU聯合訓練的電話客服質量評分技術,包括:
獲取錄音數據;
根據所述錄音數據,基于說話人身份,獲取與說話人身份相對應的拼接向量;
對所述拼接向量進行自然語言理解訓練,獲取語音-語義向量V;
基于預設的N個任務場景,對語音-語義向量V做分類任務,獲取每個任務場景類別的置信度C;N≥1;
對語音-語義向量V進行編碼得到語義向量P,將語義向量P標準化后,輸入到一個全連接層里,經全連接層整合后與置信度C相乘,獲得評分。
進一步地,所述獲取與說話人身份相對應的拼接向量包括:
將錄音數據切分成n條語音;n≥2;
基于說話人身份,將n條所述語音分類標記;
將分類標記后的n條所述語音經自動語音識別訓練,獲取n個高維向量;
基于說話人身份分類,將n個高維向量按類別拼接,獲取拼接向量。
進一步地,所述將n條所述語音分類標記包括:
將n條所述語音分類標記為客戶語音和客服語音。
進一步地,獲取n個高維向量的方法包括:
將n條分類標記后的所述語音輸入到wave2vec模型,得到n個高維向量。
進一步地,所述基于說話人身份分類,將n高維向量按類別拼接,獲取拼接向量包括:
基于說話人身份,將n個高維向量分為x個客戶語音向量和y個客服語音向量;x+y=n,x≥1,y≥1;
將全部所述客戶語音向量和全部所述客服語音向量拼接,得到的拼接向量V1;
將全部所述客戶語音向量拼接,得到的拼接向量V2;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州探跡科技有限公司,未經廣州探跡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010884877.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于陷阱結構的圖像識別防御方法
- 下一篇:基于深度學習的跳繩計數方法





