[發明專利]一種基于關聯分析和KNN的文本分類方法有效
| 申請號: | 201310312018.0 | 申請日: | 2013-07-24 |
| 公開(公告)號: | CN103345528A | 公開(公告)日: | 2013-10-09 |
| 發明(設計)人: | 成衛青;范恒亮;楊庚;黃衛東;梁勝 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 汪旭東 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 關聯 分析 knn 文本 分類 方法 | ||
技術領域
本發明涉及文本挖掘技術領域,特別涉及一種基于關聯分析和KNN的文本分類方法。
背景技術
隨著計算機技術的發展以及網絡的普及,網絡文本的數量在急劇增長,以前人工方法篩選文本進行分類的方法已經不適合了,迫切地需要一種快速高效的收集資料并整理所需信息的技術,這樣就產生了文本分類技術。文本分類是指在給定分類體系下,根據文本的內容將其分到相應預定義類別中的過程。文本分類過程實際上是對文本的模式特征進行識別,其中的關鍵技術包括文本預處理、特征提取、分類模型等。
目前比較常用的文本分類算法有:樸素貝葉斯、支持向量機、神經網絡、決策數、k-最近鄰(K-Nearest?Neighbor)等方法。其中,基于經典KNN的文本分類方法簡單有效,是分類效果最好的方法之一,但也有一些明顯的缺點:第一,確定待分類文本的類別時,需要計算其與訓練樣本集合中全部樣本的相似度,之后從中選出與其相似度最高的前k個樣本,一般情況,文本分類時的訓練樣本常常規模很大,由于在成千上萬訓練樣本上計算與待分類文本的相似度,隨著訓練樣本數目的增加,分類性能就會很快下降。第二,它是一種懶惰的文本分類學習方法,在對測試樣本分類時計算量大,消耗的時間較多,隨著訓練樣本規模的增加,分類耗時急劇上升,造成分類時間是非線性的;第三,在選取待分類文本的近鄰數目k時,沒有一種較好的廣泛適應的方法,k的選取對待分類文本的類別判定起到很重要的作用,k取得過大或過小都會降低文本分類的準確性。
基于傳統KNN方法的文本分類主要包括如下過程:
(1)文本的預處理,主要包括分詞、去除停用詞等;
(2)特征選擇,即從經預處理得到的數量仍然較大的特征詞中進行篩選,選取對分類較重要的特征詞。特征詞選取可以分為全局選取(不分類別,將所有的詞權重進行排序,選取前若干個,如1000個)和基于各個類別的選取(一般每個類別選取同樣數量的特征詞,如每個類別選取100個)兩種。特征選擇主要方法有:互信息、交叉熵、信息增益、χ2統計方法、文本證據權等;
(3)掃描并統計每一篇訓練文本在所有特征空間中的向量,采用TF-IDF的方法確定向量中每一維的權重;
(4)對于一篇待分類的文本,也稱測試文本,提取特征詞并計算文本向量的各維權重,之后計算該文本與每一篇訓練文本的相似度,一般采用余弦距離的方法:
其中wik為文本向量di的第k維屬性權重,M是文本特征向量的維度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310312018.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種復雜網絡中網絡社團的確定方法及裝置
- 下一篇:數據智能統計系統





