[發明專利]基于遺傳算法的文本數據半監督聚類方法有效
| 申請號: | 201811373404.X | 申請日: | 2018-11-19 |
| 公開(公告)號: | CN109508374B | 公開(公告)日: | 2021-12-21 |
| 發明(設計)人: | 馬文;張新陽;李輝 | 申請(專利權)人: | 云南電網有限責任公司信息中心 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/12 |
| 代理公司: | 北京晉德允升知識產權代理有限公司 11623 | 代理人: | 王戈 |
| 地址: | 650041*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 遺傳 算法 文本 數據 監督 方法 | ||
基于遺傳算法的半監督文本聚類方法,可以應用到各專業領域如電力行業數據的文本數據分析中,通過tf?idf將文本數據集中的文本進行特征權計算,并將根據特征權值進行初始聚類計算,按照遺傳算法,將文本內重要特征詞間平衡距離作為分類適應度,實現聚類結果的優化。通過人機交互對聚類結果進行審閱并根據經驗知識對聚類結果進行修改和調整,再次運用遺傳算法進行調整后聚類的迭代與二次優化,達到最終文本聚類的效果。本方法有效結合了文本數據無監督聚類方法的易用性與有監督聚類方法的準確性及計算高效性,能夠有效平衡通常文本數據聚類分析與人工分類結果差別太大及計算資源消耗過多等問題,改善了文本聚類的運行效果。
技術領域
本申請涉及一種信息處理方法,具體的,涉及一種基于遺傳算法的文本數據半監督聚類方法。可以用于電力行業文本數據的聚類分析,以及特征提取、語義擴展搜索等各類文本應用場景。
背景技術
文本聚類技術是基礎性的文本數據處理技術,通過將大量的文本數據投影到一個特定的特征空間,并在特征空間內進行有效的變換,然后以某一標準將不同的文本分屬不同的類別,從而實現文本的分類結果。文本聚類與文本分類操作對于進一步的文本處理具有很重要的意義,例如文本特征表達、知識提取、文本檢索等。
文本聚類技術按照先驗知識參與程度的高低可分為三類,即監督聚類、半監督聚類與無監督聚類,即三述三者需要提供的先驗知識依次減少,而需要提供的先驗知識的減小其代價就是需要投入訓練及處理的數據量會急劇增大。相比于監督聚類及無監督聚類,半監督聚類方法能夠較好地平衡所需要的原始數據集規模與先驗知識規模,即通過提供一定的先驗知識,能夠非常有效地減小所需要的原始數據的數量,進入有效減少處理原始數據的計算資源、存儲資源等資源消耗及。
文本聚類分析方法將文本劃分為同類子組。傳統的文本聚類方法是無監督的,不需要額外的標記也不需要任何已知的文本之間的關系。但實際在許多情況下,有關文本之間的先驗知識是可以被加以利用的,如某兩篇文本是已知屬于同一類別的。更可能的情形則是在經過聚類之后,經過人工檢視,可以將聚類形成的錯誤歸類進行糾正。舉例而言,若聚類方法已經將文本分為三個類別,以人工檢視發現其類別可概括為科技、體育和廣告,若其中若干篇文本經過人工校驗認為應當從科技類更換到廣告類,則可認為此過程即是先驗知識輸入聚類系統的過程,這一額外知識需要被聚類系統有效加以運用,從而有效地實現靈活的先驗知識吸收功能。
智能算法是一類根據個體與環境交互從而建立環境認知的原理來設計的算法,目前處于快速發展的時期,通常用于處理最優化問題,即在龐大的解空間中找到可行的全局最優解。智能算法的具體定義目前還未在學界與產業界達成一致,但是通常認為在智能算法的范疇內包括進化算法、遺傳算法、免疫算法、蟻群算法、粒子群優化算法等。
在遺傳算法中,優化問題的解被稱為個體,它可以被稱為之染色體或者基因串的變量來表達。染色體根據問題的特征,可表達為簡單的字符串或數值串,即問題解的數量化表達,此為編碼過程。首先,算法通過初始化方法來生成一系列初始解,即產生一批初始化個體。初始化方法可以采用隨機化算法或者基于天真策略的方法,通常智能算法不依賴于初始結果的質量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云南電網有限責任公司信息中心,未經云南電網有限責任公司信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811373404.X/2.html,轉載請聲明來源鉆瓜專利網。





