[發明專利]一種基于層次聚類的聊天記錄分析方法和裝置在審
| 申請號: | 201810137784.0 | 申請日: | 2018-02-10 |
| 公開(公告)號: | CN108153738A | 公開(公告)日: | 2018-06-12 |
| 發明(設計)人: | 許振興;朱留鋒;榮強;田淑寧 | 申請(專利權)人: | 燈塔財經信息有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G06K9/62 |
| 代理公司: | 深圳市六加知識產權代理有限公司 44372 | 代理人: | 嚴泉玉 |
| 地址: | 430000 湖北省武漢市東西*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聊天記錄 層次聚類 聚類算法 熱詞 預處理 方法和裝置 聚類處理 算法 計算機技術領域 標簽標定 方式使用 后續操作 結果數據 數據信息 統計數據 性能特性 分析 特征性 無規則 條目 標簽 | ||
1.一種基于層次聚類的聊天記錄分析方法,其特征在于,包括:
獲取聊天記錄和相關的數據信息,并對所述聊天記錄做DBSCAN聚類算法前的預處理;
采用DBSCAN的聚類算法,對預處理之后的數據做聚類處理;
對所述DBSCAN的聚類處理的結果數據,采用TF-IDF算法提取關鍵字作為熱詞,并統計數據條目出現熱詞的次數,以出現次數最多的熱詞作為所述聊天記錄的標簽。
2.根據權利要求1所述的基于層次聚類的聊天記錄分析方法,其特征在于,所述聊天記錄包括系統日志中提取的客戶問題記錄、客戶之間的聊天記錄、客戶與專家之間的聊天記錄和對應于客戶發表文章的回復內容中的一項或者多項;所述相關的數據信息包括金融領域專用詞匯、中文停用詞表、預訓練的詞向量數據。
3.根據權利要求1所述的基于層次聚類的聊天記錄分析方法,其特征在于,所述對所述聊天記錄做DBSCAN聚類算法前的預處理,包括:
將問題數據中的股票名稱、代碼統一用指定標識符替代,然后對文本數據執行繁簡轉換、大小寫轉換和停用詞去除中的一項或者多項操作;
將文本數據轉化成由各詞條構成的向量表示。
4.根據權利要求1所述的基于層次聚類的聊天記錄分析方法,其特征在于,所述采用DBSCAN的聚類算法,對預處理之后的數據做聚類處理,包括:
類別最小數據條數的設定為:數據總數/a,其中a的取值區間為[100-300];
中心點最大距離的設定為:數據平均距離/b,其中b通過數據平均距離可以采用隨機抽樣的方式估計得到,其取值區間為[0.1-0.3]。
5.根據權利要求1所述的基于層次聚類的聊天記錄分析方法,其特征在于,所述采用TF-IDF算法提取關鍵字作為熱詞,具體包括:
通過公式逐一計算結果數據中個詞條的重要性;其中,分子是該詞在聊天記錄中的出現次數,而分母則是在聊天記錄中所有字詞的出現次數之和;
通過公式計算詞語普遍重要性,其中,|D|為語料庫中的聊天記錄總數;
根據公式tfidfi,j=tfi,j×idfi,計算得到每一詞語的綜合重要性,并根據預設閾值篩選掉綜合重要性低于所述預設閾值的詞條,得到關鍵字作為熱詞。
6.根據權利要求1所述的基于層次聚類的聊天記錄分析方法,其特征在于,所述方法還包括:
確認聊天記錄中所包含的一個或者多個用戶標識,將分析出來的所述聊天記錄的標簽賦值給對應所述用戶標識的嗜好/特長信息欄;
根據所述對應用戶標識的嗜好/特長信息欄中所記錄的標簽,向登錄所述用戶標識的智能終端推送與所述標簽匹配信息。
7.根據權利要求1所述的基于層次聚類的聊天記錄分析方法,其特征在于,所述方法還包括:
分析聊天記錄中對應各用戶標識的聊天句子或者詞條中所包含的信息準確度,并根據所述信息準確度更新相應用戶標識在所述聊天記錄的標簽下的專家等級積分;
所述專家等級積分用于在服務器接收到用戶A發送過來的專家意見請求消息時,服務器從其管理的各用戶標識中篩選出與用戶A所提問題相似度最高的所述聊天記錄的標簽,且專家等級與所述用戶A的請求匹配的至少一個用戶標識;建立所述至少一個用戶標識和所述用戶A的聊天窗口。
8.根據權利要求7所述的基于層次聚類的聊天記錄分析方法,其特征在于,在用戶A獲取完相應一個所述方法還包括:
根據用戶A的評分,給予所述至少一個用戶標識的賬戶相應的獎勵;并根據歷史上各提問用戶的評分,對于各用戶標識下的專家等級增設一口碑等級維度,以便提問用戶可以在向服務器發送問題請求時,能夠通過設置相應專家等級和/或口碑等級,來篩選指定范圍內的專家協助答復。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于燈塔財經信息有限公司,未經燈塔財經信息有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810137784.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于向量空間模型的關系詞映射方法
- 下一篇:權利要求書的電腦自動翻譯裝置





