[發(fā)明專利]一種基于免疫克隆灰狼優(yōu)化算法的K-Means文本分類方法有效
| 申請?zhí)枺?/td> | 202010122596.8 | 申請日: | 2020-02-27 |
| 公開(公告)號: | CN111368891B | 公開(公告)日: | 2023-06-13 |
| 發(fā)明(設(shè)計(jì))人: | 邱少明;張斌;杜秀麗;呂亞娜 | 申請(專利權(quán))人: | 大連大學(xué) |
| 主分類號: | G06F18/23213 | 分類號: | G06F18/23213;G06F16/35;G06F40/289;G06F40/216 |
| 代理公司: | 大連東方專利代理有限責(zé)任公司 21212 | 代理人: | 姜威威;李洪福 |
| 地址: | 116622 遼寧*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 免疫 克隆 灰狼 優(yōu)化 算法 means 文本 分類 方法 | ||
1.一種基于免疫克隆灰狼優(yōu)化算法的K-Means文本分類方法,其特征在于,包括以下步驟:
S1:對文本數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,得到預(yù)處理后的文本數(shù)據(jù);
S2:采用余弦角度為相似性度量,分別計(jì)算預(yù)處理后的文本數(shù)據(jù)向量中的每一個(gè)數(shù)據(jù)對象到每一個(gè)初始灰狼個(gè)體的初始聚類中心點(diǎn)間的距離,并按相似度最接近的原則,分別將文本數(shù)據(jù)中的數(shù)據(jù)對象分配到對應(yīng)的K個(gè)類簇中,直到所有的數(shù)據(jù)對象分配完畢,形成K個(gè)類簇;再計(jì)算下一個(gè)灰狼個(gè)體的數(shù)據(jù)分配結(jié)果,直到灰狼種群中所有的灰狼個(gè)體都計(jì)算完畢,得到N種初步文本聚類結(jié)果;
S3:分別計(jì)算每一個(gè)灰狼個(gè)體到數(shù)據(jù)中心點(diǎn)間的距離之和,分別得到了N個(gè)灰狼個(gè)體的適應(yīng)度評估函數(shù)值;
S4:對N個(gè)適應(yīng)度評估函數(shù)值進(jìn)行排序,選出適應(yīng)度評估函數(shù)值最小的前三只狼作為α狼,β狼,δ狼;并根據(jù)α狼,β狼,δ狼三只狼的位置,計(jì)算灰狼種群中其他灰狼個(gè)體到三只狼的距離,并計(jì)算其余灰狼個(gè)體位置更新的中間變量的值;
所述灰狼個(gè)體進(jìn)行位置更新根據(jù)如下公式進(jìn)行:
其中灰狼位置更新速度通過如下公式確定:
其中,w稱為慣性因子,r7,r8,r9是屬于[0,1]間的隨機(jī)數(shù),分別表示控制種群中其余狼與三只頭狼之間距離的參數(shù),其大小范圍在[0,2]之間;分別表示位置更新后的灰狼個(gè)體位置的中間變量;代表當(dāng)前灰狼的位置;
S5:從適應(yīng)度評估函數(shù)值降序排列的灰狼種群個(gè)體中,選擇前m個(gè)形成灰狼個(gè)體組成精英種群;
S6:克隆精英種群中的所有個(gè)體,并對克隆個(gè)體執(zhí)行高頻變異;
S7:對免疫克隆選擇后產(chǎn)生的灰狼精英種群進(jìn)行灰狼位置更新;
S8:判斷免疫克隆改進(jìn)的灰狼優(yōu)化算法的K-Means的文本聚類方法是否達(dá)到最大迭代次數(shù),如果否,則繼續(xù)執(zhí)行步驟S2;如果是,輸出α狼的適應(yīng)度評估函數(shù)值及其位置Xα,根據(jù)Xα聚類中心得到最終的文本數(shù)據(jù)聚類結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種基于免疫克隆灰狼優(yōu)化算法的K-Means文本分類方法,其特征還在于:所述文本數(shù)據(jù)進(jìn)行預(yù)處理步驟如下:
S1:采用分詞軟件劃分反映完整文本句意的最小單位的詞組;
S2:篩選無意義詞組;
S3:采用向量空間模型進(jìn)行數(shù)學(xué)建模,對分詞后的文本數(shù)據(jù)采用詞頻統(tǒng)計(jì)進(jìn)行分詞權(quán)重計(jì)算,提取文本數(shù)據(jù)中的關(guān)鍵詞;
S4:使用Word2Vec模型進(jìn)行詞的向量化,用向量化之后的文本數(shù)據(jù)向量作為聚類的數(shù)據(jù)輸入。
3.根據(jù)權(quán)利要求1所述的一種基于免疫克隆灰狼優(yōu)化算法的K-Means文本分類方法,其特征還在于:克隆精英種群中的所有個(gè)體的過程中形成的臨時(shí)種群T的大小通過如下公式確定:
其中,round()函數(shù)為取整函數(shù);λ是屬于[0,1]之間的隨機(jī)數(shù);b是整型常數(shù)且b≥1;m是選取的精英個(gè)數(shù)。
4.根據(jù)權(quán)利要求3所述的一種基于免疫克隆灰狼優(yōu)化算法的K-Means文本分類方法,其特征還在于:對種群T中的每個(gè)個(gè)體進(jìn)行高頻變異操作,突變算子如下公式所示:
η=1-exp(1-imax/(i+1))??????????????(4)
其中ti是種群T第i次迭代的個(gè)體;是ti在經(jīng)過變異操作后產(chǎn)生的新的個(gè)體;r4,r5,r6是屬于[0,1]之間的隨機(jī)數(shù);i代表第i次迭代;imax表示克隆變異操作的最大迭代次數(shù);η是克隆變異參數(shù),p表示增加變異可能性的一個(gè)隨機(jī)變量。
5.根據(jù)權(quán)利要求1所述的一種基于免疫克隆灰狼優(yōu)化算法的K-Means文本分類方法,其特征還在于:適應(yīng)度評估函數(shù)值公式如下:
其中,K代表聚類個(gè)數(shù),其中Xi(i=1,2,3...,n)表述數(shù)據(jù)對象向量,Xj(j=1,2,3,...,n)表示中心點(diǎn)向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于大連大學(xué),未經(jīng)大連大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010122596.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 芪黃肽注射液的制備方法
- 免疫層析卡連續(xù)自動判讀儀
- 抗癌治療中的免疫系統(tǒng)營養(yǎng)支持
- 免疫應(yīng)答調(diào)節(jié)性物質(zhì)和含有該免疫應(yīng)答調(diào)節(jié)性物質(zhì)的疫苗組合物
- 一種可提高肺部黏膜免疫應(yīng)答水平的免疫佐劑及其應(yīng)用
- 一種預(yù)測頭頸部腫瘤免疫治療療效的標(biāo)志物及應(yīng)用
- 養(yǎng)殖物的免疫任務(wù)的管理方法、管理裝置及管理系統(tǒng)
- 一種免疫損傷分析方法
- 免疫細(xì)胞體外培養(yǎng)、誘導(dǎo)、激活、凍存方法及其細(xì)胞庫建立
- 免疫狀態(tài)評估方法及應(yīng)用
- 一種變權(quán)重的灰狼算法優(yōu)化方法
- 一種支持削峰型電力需求響應(yīng)的生產(chǎn)調(diào)度方法
- 物流運(yùn)輸調(diào)度方法、計(jì)算機(jī)存儲介質(zhì)及電子設(shè)備
- 一種基于免疫克隆灰狼優(yōu)化算法的K-Means文本分類方法
- 一種基于決策灰狼算法優(yōu)化LSTM的網(wǎng)絡(luò)流量預(yù)測方法
- 基于改進(jìn)灰狼算法的發(fā)電機(jī)勵磁系統(tǒng)參數(shù)辨識算法
- 基于MapReduce模型的改進(jìn)型灰狼分簇算法
- 一種基于改進(jìn)灰狼算法的BP神經(jīng)網(wǎng)絡(luò)優(yōu)化方法
- 一種多級閾值圖像分割方法
- 基于Levy飛行和變異機(jī)制灰狼優(yōu)化的攝像機(jī)標(biāo)定方法





