[發明專利]一種基于粒子群位置更新思想灰狼優化算法的K-Means文本分類方法有效
| 申請號: | 202010129423.9 | 申請日: | 2020-02-28 |
| 公開(公告)號: | CN111368077B | 公開(公告)日: | 2023-07-07 |
| 發明(設計)人: | 邱少明;張斌;杜秀麗;劉慶利 | 申請(專利權)人: | 大連大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F18/23213;G06N3/006 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 姜威威;李洪福 |
| 地址: | 116622 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 粒子 位置 更新 思想 灰狼 優化 算法 means 文本 分類 方法 | ||
1.一種基于粒子群位置更新思想灰狼優化算法的K-Means文本分類方法,其特征在于:包括以下步驟:
S1:對文本數據進行預處理,得到預處理后文本數據;
S2:采用余弦角度為相似性度量,分別計算預處理后文本數據向量中的每一個數據對象到每一個初始灰狼個體的初始聚類中心點間的距離,并按相似度最接近的原則,分別將預處理文本數據中的數據對象分配到對應的K個類簇中,直到所有的數據對象分配完畢,形成K個類簇;再計算下一個灰狼個體的數據分配結果,直到灰狼種群中所有的灰狼個體都計算完畢,得到N種初步文本聚類結果;
S3:分別計算每一個灰狼個體到數據中心點間的距離之和,分別得到了N個灰狼個體的適應度評估函數值;
S4:對N個適應度評估函數值進行按序排列,選出適應度評估函數值最小的前三只狼作為α狼,β狼,δ狼;并根據α狼,β狼,δ狼三只狼的位置,計算灰狼種群中其他灰狼個體到這三只狼的距離,并計算其余灰狼個體位置更新的中間變量的值;
S5:將帶有粒子群位置更新思想的所有灰狼個體進行位置更新;所述灰狼個體進行位置更新根據如下公式進行:
其中灰狼位置更新速度通過如下公式確定:
其中,w稱為慣性因子,r7,r8,r9是屬于[0,1]間的隨機數,分別表示控制種群中其余狼與三只頭狼之間距離的參數,范圍為在[0,2]之間;分別表示位置更新后的灰狼個體位置;代表當前灰狼的位置;
S6:判斷粒子群位置更新思想改進的灰狼優化算法的K-Means聚類算法是否達到最大迭代次數,如果否,則執行步驟2;如果是,輸出α狼的適應度評估函數值及其位置Xα,根據Xα聚類中心得到的最終文本數據分配結果。
2.根據權利要求1所述的一種基于粒子群位置更新思想灰狼優化算法的K-Means文本分類方法,其特征還在于:所述文本數據進行預處理步驟如下:
S1:采用分詞軟件劃分反映完整文本句意的最小單位的詞組;
S2:篩選無意義詞組;
S3:采用向量空間模型進行數學建模,對分詞后的文本數據采用詞頻統計進行分詞權重計算,提取文本數據中的關鍵詞;
S4:使用Word2Vec模型進行詞的向量化,用向量化之后的文本數據向量作為聚類的數據輸入。
3.根據權利要求1所述的一種基于粒子群位置更新思想灰狼優化算法的K-Means文本分類方法,其特征還在于:所述余弦角度作為相似性度量公式如下:
其中Xi(i=1,2,3...,n)表述數據對象向量,Xj(j=1,2,3,...,n)表示中心點向量。
4.根據權利要求3所述的一種基于粒子群位置更新思想灰狼優化算法的K-Means文本分類方法,其特征還在于:適應度評估函數值公式如下:
其中,K代表聚類個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連大學,未經大連大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010129423.9/1.html,轉載請聲明來源鉆瓜專利網。





