[發明專利]一種智能客服系統中自動發現新分類以及對應語料的方法有效
| 申請號: | 201810901452.5 | 申請日: | 2018-08-09 |
| 公開(公告)號: | CN109189901B | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 羅通;趙開云;靳丁南;權圣 | 申請(專利權)人: | 北京中關村科金技術有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332 |
| 代理公司: | 北京華仲龍騰專利代理事務所(普通合伙) 11548 | 代理人: | 李靜 |
| 地址: | 100089 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 客服 系統 自動 發現 分類 以及 對應 語料 方法 | ||
本發明公開了一種智能客服系統中自動發現新分類以及對應語料的方法,包括以下步驟:使用大規模標注語料,采用神經網絡模型,建立一個分類器,并基于該分類器構造句向量模型;使用其他公開數據集或者會話語料訓練得到詞向量;針對所有無標注語料集合進行語料清洗和打分排序,過濾掉噪聲數據獲得候選余料;對候選語料提取一系列特征,用于后續聚類;對候選語料進行聚類;對得到的候選語料的中每個類簇篩選;對得到的有效類簇集合生成新分類類別名及推薦問。可以自動的收集系統無法應答的用戶語料,找出業務相關的有明確用戶意圖的語料,同時給出每條語料的意圖分類標簽,然后輸出展示給企業用戶,滿足智能客服知識的自動發現需求。
技術領域
本發明涉及智能客服領域,具體是一種智能客服系統中自動發現新分類以及對應語料的方法。
背景技術
在智能客服系統中,隨著業務和用戶的增加,會不斷出現帶有新的意圖的咨詢問題,智能客服系統中,為了從無法應答語料尋找用戶意圖以及相關語料,一般采用如下方法:通過從線上收集相關語料,保存到線下,由數;據分析師初步分析問題的業務相關性后,再交給標注人員進行標注審核,交給數據分析師進行分析,從而得到有效的新用戶意圖和對應的語料,同時找出用戶推薦問等數據,再上傳到線上系統。
需要人工將語料從線上導出到線下,處理標記完成再導回到線上。
現有技術手段主要是以人工標記為主,仍然依賴大量的人力工作,同時需要轉業的數據分析師和標注人員。
人工標記成本高昂,一般小公司難以承擔;
人工標記效率低下,為了準確找出用戶意圖和對應的語料,需要耗費大量工時;
人工標記時效性差,等到相應的數據分析師和標注人員能夠響應時,此時未識別到用戶意圖的問題可能已經對智能客服系統的解決率等指標產生了嚴重的影響,并且語料內容本身可能已經過時;
人工標記質量不保證,不同標記人員的素質和對數據的理解,將直接導致標記樣本的質量不一。
發明內容
本發明的目的在于提供一種智能客服系統中自動發現新分類以及對應語料的方法,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:
一種智能客服系統中自動發現新分類以及對應語料的方法,包括以下步驟:
步驟S01:使用大規模標注語料,采用神經網絡模型,建立一個分類器,并基于該分類器構造句向量模型;
步驟S02:使用其他公開數據集或者會話語料訓練得到詞向量;
步驟S03:針對所有無標注語料集合進行語料清洗和打分排序,過濾掉噪聲數據獲得候選余料;
步驟S04:對候選語料提取一系列特征,用于后續聚類;
步驟S05:對候選語料進行聚類;
步驟S06:對S05步驟中得到的候選語料的中每個類簇篩選;
步驟S07:對S06步驟得到的有效類簇集合生成新分類類別名及推薦問。
作為本發明進一步的方案:構造句向量模型的方法如下:
S01-1,搭建一種基于神經網絡的多分類器,該分類模型包含Embedding層、NN層、全連接層以及輸出層,其中輸出層參數由語料的總體類別決定;NN層為BILSTM、LSTM、GRU、CNN中的一種或幾種組合而成,全連接層可包含一層或多層,且最后一層全連接層為句向量層。
S01-2,使用標注語料進行訓練,得到多分類模型;
S01-3,將多分類模型的輸出層去除,得到句向量模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中關村科金技術有限公司,未經北京中關村科金技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810901452.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于BOT系統的實體抽取方法
- 下一篇:自動應答咨詢的方法及裝置





