[發明專利]一種智能客服系統中自動發現新分類以及對應語料的方法有效
| 申請號: | 201810901452.5 | 申請日: | 2018-08-09 |
| 公開(公告)號: | CN109189901B | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 羅通;趙開云;靳丁南;權圣 | 申請(專利權)人: | 北京中關村科金技術有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332 |
| 代理公司: | 北京華仲龍騰專利代理事務所(普通合伙) 11548 | 代理人: | 李靜 |
| 地址: | 100089 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能 客服 系統 自動 發現 分類 以及 對應 語料 方法 | ||
1.一種智能客服系統中自動發現新分類以及對應語料的方法,其特征在于,包括以下步驟:
步驟S01:使用大規模標注語料,采用神經網絡模型,建立一個分類器,并基于該分類器構造句向量模型;構造句向量模型的方法如下:
S01-1,搭建一種基于神經網絡的多分類器,所述多分類器包含Embedding層、NN層、全連接層以及輸出層,其中輸出層參數由語料的總體類別決定;
S01-2,使用標注語料進行訓練,得到多分類模型;
S01-3,將多分類模型的輸出層去除,得到句向量模型;
步驟S02:使用其他公開數據集或者會話語料訓練得到詞向量;
步驟S03:針對所有無標注語料集合進行語料清洗和打分排序,過濾掉噪聲數據獲得候選語料;過濾方法步驟如下:
S03-1,過濾掉不包含中文的語料;
S03-2,使用Okapi BM25、TFIDF一種或兩種算法,對每一條語料進行打分,然后根據分值按照降序進行排列,選擇一定比例的語料,作為后續步驟的候選語料;
步驟S04:對候選語料提取一系列特征,用于后續聚類;候選語料提取方法如下:
S04-1,使用TFIDF算法獲得文本向量,然后使用PCA進行降維,或直接使用TFIDF特征;
S04-2,使用主題模型LDA訓練語料,得到每個樣本的主題特征;
S04-3,使用下面兩種方式之一得到句向量:
使用S01得到句向量模型,輸入分詞后的候選語料,得到每條語料的句向量;
對語料進行分詞后,使用S02得到詞向量模型,查詢得到每個詞的詞向量,然后針對每條語料,對該條語料的每個詞的詞向量進行累加或者求平均,得到句向量;
步驟S05:對候選語料進行聚類;聚類方法如下:
S05-1,在TFIDF特征和主題特征中選擇0,1或2個,與句向量特征組合到一起,作為下一步聚類的特征,或者直接計算,得到文本之間的距離,聚類所用特征選擇使用兩種方式任意一種或者兩種都使用,兩種方法分別如下:
直接將多種特征進行拼接;
每個特征計算各自的距離后,以一定的權重累加后作為句子之間的距離;
S05-2,使用上一步得到的文本特征或者距離,使用kmeans、層次式聚類、譜聚類中任意一種聚類算法,完成候選語料的聚類;
步驟S06:對S05步驟中得到的候選語料的中每個類簇篩選;候選語料的中每個類簇篩選方法如下:
S06-1,計算類簇內每條語料到其簇中心向量的距離,然后對距離求均值,作為整個類簇的打分;
S06-2,統計每個類簇的樣本個數;針對類簇樣本個數和每個類簇的打分,選擇合適的閾值,對類簇進行篩選,得到最終的有效類簇;
步驟S07:對S06步驟得到的有效類簇集合生成新分類類別名及推薦問;針對S06得到的有效類簇集合的每一個簇,生成新分類類別名及推薦問的方法:
S07-1,按照語料到其簇中心的距離,對語料進行升序排序;
S07-2,為新發現的分類自動生成分類名,采用抽取式實現,有如下兩種方式:
抽取句子,選擇離簇中心距離最短的5個句子,遍歷每條句子,當句子去除停用詞后,其長度大于0,則使用該句子作為該類簇的用戶意圖;
抽取關鍵詞,使用互信息和公共子串,使用一定的熵門限,找出最大公共非連續子串,作為新的用戶意圖;
S07-3,采用S07-2中抽取句子的方式,為該類簇找出推薦問。
2.根據權利要求1所述的一種智能客服系統中自動發現新分類以及對應語料的方法,其特征在于,NN層為BILSTM、LSTM、GRU、CNN中的一種或幾種組合而成,全連接層可包含一層或多層,且最后一層全連接層為句向量層。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中關村科金技術有限公司,未經北京中關村科金技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810901452.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于BOT系統的實體抽取方法
- 下一篇:自動應答咨詢的方法及裝置





