[發明專利]一種基于粒子群位置更新思想灰狼優化算法的K-Means文本分類方法有效
| 申請號: | 202010129423.9 | 申請日: | 2020-02-28 |
| 公開(公告)號: | CN111368077B | 公開(公告)日: | 2023-07-07 |
| 發明(設計)人: | 邱少明;張斌;杜秀麗;劉慶利 | 申請(專利權)人: | 大連大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/23213;G06N3/006 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 姜威威;李洪福 |
| 地址: | 116622 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 粒子 位置 更新 思想 灰狼 優化 算法 means 文本 分類 方法 | ||
本發明公開了一種基于粒子群位置更新思想灰狼優化算法的K?Means文本分類方法,屬于數據挖掘領域,該方法包括以下步驟:對文本數據進行預處理,采用余弦角度為相似性度量,分別計算預處理后文本數據向量中的每一個數據對象到每一個初始灰狼個體的初始聚類中心點間的距離,計算下一個灰狼個體的數據分配結果,直到灰狼種群中所有的灰狼個體都計算完畢,得到N種初步文本聚類結果;斷粒子群位置更新思想改進的灰狼優化算法的K?Means聚類算法是否達到最大迭代次數,根據Xsubgt;α/subgt;聚類中心得到的最終文本數據分配結果,該方法利用基于粒子群位置更新思想的灰狼優化算法的快速尋優能力快速找到各類文本的聚類中心,可以克服傳統K?Means算法容易陷入局部最優,對初始聚類中心的過度依賴的局限性,極大的提高了文本數據劃分的準確性。
技術領域
本發明涉及數據挖掘領域,尤其涉及一種基于粒子群位置更新思想灰狼優化算法的K-Means文本分類方法。
背景技術
本語言相較于數學語言或者計算機語言,更加頻繁地出現在人們的視野中,在人們的日常生活中占有非常重要的位置,是眾多信息知識的載體,如網頁、電子商務、電子書刊等極大地豐富人們生活的同時也傳達著某種信息。而且文本語言形式多樣,語義復雜,多以無結構或半結構化的形式出現,相較于傳統的研究對象,其復雜程度更高,尤其面對如今“互聯網+”等大數據爆炸的狀況下,文本數據挖掘吸引了更多學者關注,成為數據挖掘領域中非常有前景的研究方向之一。
計算機水平的不斷發展,使人們無時無刻置身于海量的信息中,而這些信息多以文本為載體,因此文本聚類成為無監督聚類的一個分支。文本聚類從宏觀上講,可以看成是完成文本聚類的全過程所需的技術手段,從微觀看,僅僅指文本聚類全過程中的聚類階段。由于文本數據與一般數據不同,是一種特殊的數據對象,有著自身的特點,如:語義豐富模糊、表現形式多樣、多呈現為半結構或無結構化數據,因此對文本數據的研究有著特殊的技術要求。
K-means算法作為聚類分析中最典型的基于劃分的動態算法,也是用在文本聚類領域算法上應用最為廣泛的方法之一。但是K-Means算法也存在容易陷入局部最優和對初始中心依賴嚴重等問題。陳寶樓在研究傳統K-means算法的過程中,給出了孤立點及初始質點選取的新方法,并針對文本數據的高維稀疏特性,重新定義了K-means算法的距離度量,經試驗證明,該方法較傳統K-means算法效果更佳。趙慶等利用Hadoop平臺并使用Canopy算法對傳統的K-Means算法進行改進,并將改進的優化算法應用于實際新聞文檔中。為了解決K-Means算法的缺陷,以提高文本數據聚類準確性,將元啟發式算法應用到聚類分析中,已經在大數據時代成為越來越流行的趨勢。部分研究人員多采用引力搜索算法、模擬退火算法、粒子群算法、遺傳算法等來改進傳統K-Means算法容易陷入局部最優的特點。而灰狼優化算法較現有元啟發算法有更好的收斂速度與全局搜索能力,同時,針對聚類問題,灰狼優化算法依舊表現良好,Kumar?V等開發了一種基于GWO算法的聚類算法,與傳統K-Means算法相比,提高了聚類性能;Zhang等提出了一種具有Powell局部優化的GWO聚類算法,在多數數據集上優于其他算法。盡管上述方法在一定程度上改進了算法的聚類效果,但是早熟收斂現象仍然發生,種群多樣性較差,算法仍可能出現早熟收斂現象。
發明內容
根據現有技術存在的問題,本發明公開了一種基于粒子群位置更新思想灰狼優化算法的K-Means文本分類方法,包括以下步驟:
S1:對文本數據進行預處理,得到預處理后文本數據;
S2:采用余弦角度為相似性度量,分別計算預處理后文本數據向量中的每一個數據對象到每一個初始灰狼個體的初始聚類中心點間的距離,并按相似度最接近的原則,分別將預處理文本數據中的數據對象分配到對應的K個類簇中,直到所有的數據對象分配完畢,形成K個類簇;再計算下一個灰狼個體的數據分配結果,直到灰狼種群中所有的灰狼個體都計算完畢,得到N種初步文本聚類結果;
S3:分別計算每一個灰狼個體到數據中心點間的距離之和,分別得到了N個灰狼個體的適應度評估函數值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連大學,未經大連大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010129423.9/2.html,轉載請聲明來源鉆瓜專利網。





