[發明專利]文本聚類方法、裝置及電子設備在審
| 申請號: | 201710083729.3 | 申請日: | 2017-02-16 |
| 公開(公告)號: | CN106844748A | 公開(公告)日: | 2017-06-13 |
| 發明(設計)人: | 谷瓊;王賢明;寧彬;王毅;丁函;曹文平;吳釗;華麗;胡春陽;屈俊峰 | 申請(專利權)人: | 湖北文理學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙)11371 | 代理人: | 吳開磊 |
| 地址: | 441000 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 方法 裝置 電子設備 | ||
技術領域
本發明涉及文本挖掘技術領域,具體而言,涉及一種文本聚類方法、裝置及電子設備。
背景技術
顧名思義,聚類即按照某些特征和規則將整個數據集分成若干組的過程,各個組內元素在某些特征方面具有較高的相似性,而組間元素則在這些特征方面具有較大的差異性,所得到的各個組即為一個聚類,也常稱之為“簇”。目前,文本聚類方法有劃分聚類、層次聚類、基于密度的聚類、基于語義的聚類以及基于各種模型理論的聚類。
上述聚類方法大多需要分詞或特征項支撐,因而決定了特征選擇或降維是一項重要的研究內容。對中文、維吾爾文等語言而言,往往離不開分詞的支持,相應的分詞準確性和速度問題也隨之而來,最終也將影響聚類的速度、準確率和召回率。
發明內容
有鑒于此,本發明的目的在于提供一種文本聚類方法、裝置及電子設備,以解決上述問題。
為實現上述目的,本發明提供如下技術方案:
本發明較佳實施例提供一種文本聚類方法,所述方法包括:
將多個不同主題的原始文檔集合并為一個文檔并集;
將所述文檔并集中的文檔進行升序排列,得到升序文檔并集;
依次計算所述升序文檔并集中的第一個文檔與所述第一個文檔之后的所有文檔的相似度,若計算出的相似度大于或等于第一閾值,將該文檔與所述第一個文檔歸屬于一類,若計算出的相似度小于所述第一閾值,則將該文檔記為未歸類文檔;
依次計算所述升序文檔并集中未歸類文檔中第一個文檔與該第一個文檔之后的所有未歸類文檔的相似度,若計算出的相似度大于或等于所述第一閾值,將該未歸類文檔與所述未歸類文檔中第一個文檔歸屬于一類,若計算出的相似度小于所述第一閾值,則跳過該未歸類文檔,直到完成所述升序文檔并集中最后兩個未歸類文檔的相似度計算及分類,從而得到多個初始聚類。
優選地,所述方法還包括:
過濾掉所有文檔數小于第二閾值的初始聚類,得到多個過濾聚類。
優選地,所述方法還包括:
對所述過濾聚類進行聚類合并,得到多個最終聚類,其中,所述最終聚類與所述原始文檔集相對應,即所述最終聚類的個數與原始文檔集的個數相同,所述最終聚類的主題與原始文檔集的主題相同。
優選地,所述對所述過濾聚類進行聚類合并,得到多個最終聚類的步驟包括:
獲取每個過濾聚類的標志文檔;
將每個過濾聚類的標志文檔進行聚類分析,若兩個標志文檔歸屬于一類,則合并這兩個標志文檔所在的過濾聚類,得到多個最終聚類。
優選地,所述方法還包括:
采用正確覆蓋率評價各個最終聚類的準確率,其中,最終聚類的正確覆蓋率的計算公式為其中,Pk表示與Dk原始文檔集對應的最終聚類的正確覆蓋率,nk表示Dk原始文檔集內文檔的個數,q表示與Dk原始文檔集對應的最終聚類中正確文檔的個數。
優選地,所述方法還包括:
采用F值綜合評價各個最終聚類,其中,最終聚類的F值的計算公式為其中,R表示最終聚類的召回率,a表示最終聚類的召回率的權系數。
優選地,所述相似度的計算公式為其中W(ek)是元素ek的權重評價函數,di和dj表示升序文檔并集中兩個待進行相似度計算的文檔。
本發明另一較佳實施例提供一種文本聚類裝置,包括:
合并模塊,用于將多個不同主題的原始文檔集合并為一個文檔并集;
升序模塊,用于將所述文檔并集中的文檔進行升序排列,得到升序文檔并集;
聚類模塊,用于依次計算所述升序文檔并集中的第一個文檔與所述第一個文檔之后的所有文檔的相似度,若計算出的相似度大于或等于第一閾值,將該文檔與所述第一個文檔歸屬于一類,若計算出的相似度小于所述第一閾值,則將該文檔記為未歸類文檔;以及
依次計算所述升序文檔并集中未歸類文檔中第一個文檔與該第一個文檔之后的所有未歸類文檔的相似度,若計算出的相似度大于或等于第一閾值,將該未歸類文檔與所述未歸類文檔中第一個文檔歸屬于一類,若計算出的相似度小于所述第一閾值,則跳過該未歸類文檔,直到完成所述升序文檔并集中最后兩個未歸類文檔的相似度計算及分類,從而得到多個初始聚類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北文理學院,未經湖北文理學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710083729.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:行走小車驅動系統的被傳動軸組件
- 下一篇:行走小車驅動系統的主傳動軸組件





