[發明專利]一種并行非監督文本分類方法在審
| 申請號: | 202011521814.1 | 申請日: | 2020-12-21 |
| 公開(公告)號: | CN112818116A | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 杜少波 | 申請(專利權)人: | 貴州商學院 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 廣東有知貓知識產權代理有限公司 44681 | 代理人: | 崔新芬 |
| 地址: | 550014 貴*** | 國省代碼: | 貴州;52 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 并行 監督 文本 分類 方法 | ||
本發明提供了一種并行非監督文本分類方法,包括如下步驟:計算中心點:采用層次聚類算法或密度聚類算法,計算向量化文本數據的中心點;切分計算:基于模糊聚類算法,以每一中心點的計算為一路,采用多路并行的方式進行隸屬度計算;輸出結果:將隸屬度計算的結果作為輸出結果返回。本發明通過中心點計算前置的方式,能有效降低FCM執行計算過程中的讀寫和通信操作量,從而大幅降低計算時間的消耗。
技術領域
本發明涉及一種并行非監督文本分類方法。
背景技術
模糊C均值聚類(Fuzz C-Means Clustering,FCM)算法是一種柔性 聚類算法,該算法結合模糊理論原理可以對數據集進行柔性劃分能夠 有效處理模糊數據,在大數據分析、數據挖掘等領域有著廣泛應用。
FCM算法對于聚類中心的初始值選擇較為敏感、聚類時間較長、 類別數需要進行指定等,由于初始值選擇不合理會導致算法陷入局部 最優解等問題。針對以上問題國內外的研究學者做了大量的研究工作。
現有技術針對FCM做出的改進中,多采用MapReduce編程框架執 行計算,但是MapReduce編程框架由于在執行過程中需要進行大量的 讀寫和網絡通信操作,因此會消耗大量的額外時間。
發明內容
為解決上述技術問題,本發明提供了一種并行非監督文本分類方 法,該并行非監督文本分類方法通過中心點計算前置的方式,能有效 降低FCM執行計算過程中的讀寫和通信操作量,從而大幅降低計算時 間的消耗。
本發明通過以下技術方案得以實現。
本發明提供的一種并行非監督文本分類方法,包括如下步驟:
計算中心點:采用層次聚類算法或密度聚類算法,計算向量化文 本數據的中心點;
切分計算:基于模糊聚類算法,以每一中心點的計算為一路,采 用多路并行的方式進行隸屬度計算;
輸出結果:將隸屬度計算的結果作為輸出結果返回。
所述步驟計算中心點中,采用Canopy算法計算。
所述步驟切分計算中,基于模糊C均值聚類算法進行計算。
所述采用Canopy算法計算過程中,以最大點密度值點作為聚類中 心點。
所述采用Canopy算法計算過程中,以最大權重值點作為聚類中心 點,最大權重值基于樣本點的周圍點數量、緊密度和簇相似度計算。
所述最大權重值以如下公式進行計算:
其中:ρi為樣本點的周圍點數量,αi為樣本點的緊密度,即樣本 點的周圍點距離均值,si為樣本點的簇相似度,即樣本點所在簇和其 他簇之間的簇相似度。
采用最大點密度值點作為第一聚類中心點,除第一聚類中心點所 在簇之外其他點的最大權重值點作為第二聚類中心點。
所述多路并行的方式通過Spark環境實現。
本發明的有益效果在于:通過中心點計算前置的方式,能有效降 低FCM執行計算過程中的讀寫和通信操作量,從而大幅降低計算時間 的消耗。
附圖說明
圖1是本發明的流程示意圖。
具體實施方式
下面進一步描述本發明的技術方案,但要求保護的范圍并不局限 于所述。
如圖1所示的一種并行非監督文本分類方法,包括如下步驟:
計算中心點:采用層次聚類算法或密度聚類算法,計算向量化文 本數據的中心點;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于貴州商學院,未經貴州商學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011521814.1/2.html,轉載請聲明來源鉆瓜專利網。





