[發明專利]一種基于層次聚類的聊天記錄分析方法和裝置在審
| 申請號: | 201810137784.0 | 申請日: | 2018-02-10 |
| 公開(公告)號: | CN108153738A | 公開(公告)日: | 2018-06-12 |
| 發明(設計)人: | 許振興;朱留鋒;榮強;田淑寧 | 申請(專利權)人: | 燈塔財經信息有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G06K9/62 |
| 代理公司: | 深圳市六加知識產權代理有限公司 44372 | 代理人: | 嚴泉玉 |
| 地址: | 430000 湖北省武漢市東西*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聊天記錄 層次聚類 聚類算法 熱詞 預處理 方法和裝置 聚類處理 算法 計算機技術領域 標簽標定 方式使用 后續操作 結果數據 數據信息 統計數據 性能特性 分析 特征性 無規則 條目 標簽 | ||
本發明涉及計算機技術領域,提供了一種基于層次聚類的聊天記錄分析方法和裝置。方法包括獲取聊天記錄和相關的數據信息,并對所述聊天記錄做DBSCAN聚類算法前的預處理;采用DBSCAN的聚類算法,對預處理之后的數據做聚類處理;對所述DBSCAN的聚類處理的結果數據,采用TF?IDF算法提取關鍵字作為熱詞,并統計數據條目出現熱詞的次數,以出現次數最多的熱詞作為所述聊天記錄的標簽。本發明提出了一種基于層次聚類的聊天記錄分析方法,結合了DBSCAN的聚類算法和TF?IDF算法之間的性能特性,對現有的無規則的聊天記錄做了具有特征性的標簽標定,使得所述聊天記錄能夠被進一步被后續操作步驟以簡化的方式使用。
【技術領域】
本發明涉及計算機技術領域,特別是涉及一種基于層次聚類的聊天記錄分析方法和裝置。
【背景技術】
隨著移動互聯網技術的快速發展,人們越來越習慣于進行線上溝通和交流,這也造就了海量的文本數據(如聊天記錄或問答數據),對這些數據的挖掘和分析,往往能得到非常豐富的信息。目前文本數據挖掘已經成為信息領域的研究熱點之一,并且在客戶服務、公司決策方面發揮巨大價值。
然而,和結構化數據不同,文本數據是高度非結構化的,同時還具有很高的歧義性質,這也給具體的分析工作帶來了挑戰。
鑒于此,克服該現有技術所存在的缺陷是本技術領域亟待解決的問題。
【發明內容】
本發明要解決的技術問題是目前文本數據挖掘已經成為信息領域的研究熱點之一,并且在客戶服務、公司決策方面發揮巨大價值,然而,和結構化數據不同,文本數據是高度非結構化的,同時還具有很高的歧義性質,這也給具體的分析工作帶來了困難。
本發明采用如下技術方案:
第一方面,本發明提供了一種基于層次聚類的聊天記錄分析方法,包括:
獲取聊天記錄和相關的數據信息,并對所述聊天記錄做DBSCAN聚類算法前的預處理;
采用DBSCAN的聚類算法,對預處理之后的數據做聚類處理;
對所述DBSCAN的聚類處理的結果數據,采用TF-IDF算法提取關鍵字作為熱詞,并統計數據條目出現熱詞的次數,以出現次數最多的熱詞作為所述聊天記錄的標簽。
優選的,所述聊天記錄包括系統日志中提取的客戶問題記錄、客戶之間的聊天記錄、客戶與專家之間的聊天記錄和對應于客戶發表文章的回復內容中的一項或者多項;所述相關的數據信息包括金融領域專用詞匯、中文停用詞表、預訓練的詞向量數據。
優選的,所述對所述聊天記錄做DBSCAN聚類算法前的預處理,包括:
將問題數據中的股票名稱、代碼統一用指定標識符替代,然后對文本數據執行繁簡轉換、大小寫轉換和停用詞去除中的一項或者多項操作;
將文本數據轉化成由各詞條構成的向量表示。
優選的,所述采用DBSCAN的聚類算法,對預處理之后的數據做聚類處理,包括:
類別最小數據條數的設定為:數據總數/a,其中a的取值區間為[100-300];
中心點最大距離的設定為:數據平均距離/b,其中b通過數據平均距離可以采用隨機抽樣的方式估計得到,其取值區間為[0.1-0.3]。
優選的,所述采用TF-IDF算法提取關鍵字作為熱詞,具體包括:
通過公式逐一計算結果數據中個詞條的重要性;其中,分子是該詞在聊天記錄中的出現次數,而分母則是在聊天記錄中所有字詞的出現次數之和;
通過公式計算詞語普遍重要性,其中,|D|為語料庫中的聊天記錄總數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于燈塔財經信息有限公司,未經燈塔財經信息有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810137784.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于向量空間模型的關系詞映射方法
- 下一篇:權利要求書的電腦自動翻譯裝置





