[發明專利]基于遺傳算法的文本數據半監督聚類方法有效
| 申請號: | 201811373404.X | 申請日: | 2018-11-19 |
| 公開(公告)號: | CN109508374B | 公開(公告)日: | 2021-12-21 |
| 發明(設計)人: | 馬文;張新陽;李輝 | 申請(專利權)人: | 云南電網有限責任公司信息中心 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/12 |
| 代理公司: | 北京晉德允升知識產權代理有限公司 11623 | 代理人: | 王戈 |
| 地址: | 650041*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 遺傳 算法 文本 數據 監督 方法 | ||
1.一種基于遺傳算法的半監督文本聚類方法,包括如下步驟:
數據采集步驟S110:采集文本數據,建立待分類的初始文本數據集,初始文本數據集無須標記也無須存在特定的先驗知識;
文本分詞步驟S120:對所有的初始文本數據集中的文本數據進行分詞,對詞語進行詞頻統計,即針對每篇文本計算分詞結果的出現次數;
詞頻統計步驟S130:計算每篇文檔中詞語的tf-idf值,作為每個分詞詞語的特征權重值;
初始聚類步驟S140:根據每篇文本所計算的特征詞權重值,建立文本詞向量,然后根據詞向量之間的相互距離,依照K-means聚類方法,實現每個文本的初始聚類,即每篇文本都分配進入一個特定類別;
遺傳算法參數選定步驟S150:選擇遺傳算法的關鍵運行參數設置,包括交叉率、變異率、選擇算子;
遺傳算法價值函數設置步驟S160:對每個聚類類別中的所有分詞進行統計,并根據詞頻降序排序,取出前5%的分詞或前50個分詞,計算每篇文本中這些詞語之間的最短距離,并將距離歸一化,取其倒數作為遺傳算法的價值函數取值;
遺傳算法迭代步驟S170:將每一聚類類別作為遺傳個體,將這些個體按照遺傳算法的操作原則,進行選擇、交叉與變異,實現反復迭代;
遺傳算法迭代終止步驟S180:待所有個體適應度高于預定的標準或者迭代次數超過預定次數,則終止遺傳迭代,將得到的聚類結果作為當前接受的結果基于遺傳算法;
在步驟S180后還具有:
人工審核校驗步驟S190:通過人機交互的方式,對已聚類的文本進行審閱,根據經驗知識,改正一些文本的類別;
遺傳算法吸收經驗知識步驟S195:根據人機交互后改正的文本聚類結果,重新運行遺傳算法s160至S170,直到達到終止條件;
所述遺傳算法價值函數設置步驟S160具體為:對于任意一個聚類C,將其中的所有分詞按照tf-idf降序排列,形成W1,W2,…,Wn,n為所有分詞的個數,取出前5%的分詞或前50個分詞即W1,W2,…,Wm,其中m=min(n×5%,50),任取其中兩個分詞Wi和Wj,計算每篇文本中兩個詞語之間的最短距離dij,若兩個分詞其中一個沒有出現在某篇文本中,則將最短距離定義為該篇文本的長度,將每篇文本中的分詞最短距離進行計算,然后求得每篇文本的平均詞語最短距離其中i≠j且i∈{1,2,…,m},j∈{1,2,…,m},為二項式系數,即將同一個聚類中每篇文本的平均詞語最短距離再求取平均值,即可以得到一個聚類中分詞的平均最短距離,將所有聚類的平均最短距離中的最大值作為基準單位進行歸一化,取歸一化后距離的倒數值作為每個聚類的價值函數取值。
2.根據權利要求1所述的基于遺傳算法的半監督文本聚類方法,其特征在于:
在初始聚類步驟S140中,其中所述建立文本詞向量具體為將分詞詞語與特征權重值以二維向量形式保存。
3.根據權利要求2所述的基于遺傳算法的半監督文本聚類方法,其特征在于:
在初始聚類步驟S140和遺傳算法參數選定步驟S150之間,還具有向量降維步驟S145:采用哈希(HASH)降維的方式,對于上述的包括分詞詞語與特征權重值的二維向量進行降維,以降低計算的運算量。
4.根據權利要求1所述的基于遺傳算法的半監督文本聚類方法,其特征在于:
在遺傳算法參數選定步驟S150中,交叉率為0.8,變異率為0.05,選擇算子為線性排序選擇方法。
5.一種存儲介質,用于存儲計算機可執行指令,其特征在于:所述計算機可執行指令在被處理器執行時執行權利要求1-4中任意一項所述的基于遺傳算法的半監督文本聚類方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云南電網有限責任公司信息中心,未經云南電網有限責任公司信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811373404.X/1.html,轉載請聲明來源鉆瓜專利網。





