[發明專利]一種基于MapReduce的KNN文本分類方法在審
| 申請號: | 201510012387.7 | 申請日: | 2015-01-09 |
| 公開(公告)號: | CN104536830A | 公開(公告)日: | 2015-04-22 |
| 發明(設計)人: | 趙靖;王延斌;韓財興;楊武;張立國 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 mapreduce knn 文本 分類 方法 | ||
1.一種基于MapReduce的KNN文本分類方法,其特征在于:
(1)數據預處理:其中包括分詞、去停用詞、詞根還原三個過程;
(2)特征提取:對訓練數據集進行處理,篩選出區分能力最強的特征項;
(3)運用KNN算法對測試數據集進行分類。
2.根據權利要求1所述的一種基于MapReduce的KNN文本分類方法,其特征在于:
所述的數據預處理的MapReduce階段中包括3個Map過程1個Reduce過程,訓練數據集作為輸入文件,其中的Key為類名、文件名,Value為文件內容,包括如下步驟:
(1.1)Map1過程:對輸入的Value進行詞法分析,然后發送Key和Value;
(1.2)Map2過程:向內存中讀入停用詞匯表,依據停用詞匯表對Map1輸出的Value內容去停用詞發送Key和Value;
(1.3)Map3過程:調用Porter?Stemming算法,對Map2輸出的Value內容進行詞根還原,發送Key和Value;
(1.4)Reduce過程:對Map3產生的Key和Value進行收集,生成數據預處理后的文件。
3.根據權利要求1所述的一種基于MapReduce的KNN文本分類方法,其特征在于:
所述的特征提取是對訓練數據集預處理后的文件進行處理,篩選出區分能力最強的特征項,采用統計訓練數據集中出現次數大于閾值的方法,生成一個特征詞匯表,并計算特征詞匯表中每個單詞的IDF值,包括如下步驟:
(2.1)Map過程:將數據預處理文件對應的Value的每一個單詞置1,并發送Key:單詞和Value:1;
(2.2)Reduce過程:計算每一個Key對應的Value中的1的個數,統計出數據預處理后的文件中所有單詞出現的次數并發送Key:單詞和Value:出現的次數,生成特征詞匯表。
(2.3)MapReduce過程:
(2.3.1)Map1過程:向內存中讀入特征詞匯表,依據特征詞匯表中的單詞過濾掉數據預處理后的文件中非特征詞匯并發送Key:類名文件名和Value:文件內容;
(2.3.2)Map2過程:統計單詞在哪些文件中出現過,發送Key:單詞和Value:類名、文件名;
(2.3.3)Map3過程:統計單詞出現在不同文件中的個數,并計算特征詞匯的IDF值并發送Key:單詞和Value:單詞對應的IDF值;
(2.3.4)Reduce過程:對Map3的輸出結果進行收集,生成含IDF值的特征詞匯表。
4.根據權利要求1所述的一種基于MapReduce的KNN文本分類方法,其特征在于:
所述的運用KNN算法對測試數據集進行分類,包括如下步驟:
(3.1)對于測試數據集中的每一條記錄即用向量表示的文件,計算與訓練數據集中所有記錄的夾角余弦值;
(3.2)挑選出相似度最大的K個值;
(3.3)把測試記錄歸為K個值中權值最大的那個類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510012387.7/1.html,轉載請聲明來源鉆瓜專利網。





