[發明專利]一種文檔分類方法和系統在審
| 申請號: | 201410449140.7 | 申請日: | 2014-09-04 |
| 公開(公告)號: | CN104239479A | 公開(公告)日: | 2014-12-24 |
| 發明(設計)人: | 宗棟瑞;郭美思;吳楠 | 申請(專利權)人: | 浪潮(北京)電子信息產業有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京安信方達知識產權代理有限公司 11262 | 代理人: | 王丹;李丹 |
| 地址: | 100085 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 分類 方法 系統 | ||
技術領域
本發明涉及計算機技術領域,具體涉及一種文檔分類方法和系統。
背景技術
隨著網絡技術的日益普及,網絡中的數據量急劇增加,應用類型也非常豐富。數據挖掘技術充分利用現有信息資源,從大量數據中找出隱藏的知識,是一個強有力的發展方向。數據挖掘涉及到機器學習、模式識別、統計學、智能數據庫、數據可視化和高性能計算等領域,其目的在于從大量數據中發現隱含的、新穎的、令人感興趣的關系和規律。其中,文檔分類是數據挖掘的一個重要方向。
現有技術中,通常使用傳統的系統框架進行文檔分類,在處理海量數據時,會導致分類時間長,系統性能低下。
發明內容
本發明提供了一種文檔分類方法和系統,以解決現有技術中系統性能低下的缺陷。
本發明提供了一種文檔分類方法,應用于包括Map程序和Reduce程序的Hadoop集群中,所述方法包括以下步驟:
所述Map程序對訓練文檔和待分類文檔進行解析,根據解析結果確定特征屬性,并對所述特征屬性進行劃分;
所述Map程序根據所述訓練文檔的特征屬性以及對所述訓練文檔的分類結果,生成分類器;
所述Reduce程序使用所述分類器對所述待分類文檔進行分類,得到待分類文檔的分類結果。
可選地,所述Map程序根據解析結果確定特征屬性之后,還包括:
所述Map程序根據所述特征屬性,分別對所述訓練文檔和所述待分類文檔進行格式轉換,得到符合預設格式的訓練文檔和待分類文檔;
所述Map程序根據所述訓練文檔的特征屬性以及對所述訓練文檔的分類結果,生成分類器,具體為:
所述Map程序根據格式轉換后的訓練文檔的特征屬性以及對所述訓練文檔的分類結果,生成分類器;
所述Reduce程序使用所述分類器對所述待分類文檔進行分類,得到待分類文檔的分類結果,具體為:
所述Reduce程序使用所述分類器對格式轉換后的待分類文檔進行分類,得到待分類文檔的分類結果。
可選地,所述Map程序根據格式轉換后的訓練文檔的特征屬性以及對所述訓練文檔的分類結果,生成分類器,具體為:
所述Map程序根據所述格式轉換后的訓練文檔對應的各個特征屬性的取值范圍以及對所述訓練文檔的分類結果,計算每個類別在所述訓練文檔中的出現頻率以及在每個類別下所有特征屬性的各個取值范圍的條件概率估計,將所述出現頻率和所述條件概率估計記錄為分類器。
可選地,所述Reduce程序使用所述分類器對格式轉換后的待分類文檔進行分類,得到待分類文檔的分類結果,具體為:
所述Reduce程序獲取所述格式轉換后的待分類文檔的所有特征屬性的取值范圍,根據獲取到的取值范圍、每個類別在訓練文檔中的出現頻率以及在每個類別下所有特征屬性的各個取值范圍的條件概率估計,計算所述待分類文檔歸屬于各個類別的條件概率,并將數值最大的條件概率對應的類別作為所述待分類文檔的分類結果。
可選地,所述Map程序所述對訓練文檔和待分類文檔進行解析,根據解析結果確定特征屬性,并對所述特征屬性進行劃分,具體為:
所述Map程序通過對訓練文檔和待分類文檔進行解析,得到訓練文檔和待分類文檔包含的屬性,并從解析得到的屬性中選取特征屬性,并針對每個特征屬性劃分多個取值范圍。
本發明還提供了一種文檔分類系統,應用于Hadoop集群中,所述系統包括:
解析模塊,用于對訓練文檔和待分類文檔進行解析,根據解析結果確定特征屬性,并對所述特征屬性進行劃分;
生成模塊,用于根據所述解析模塊確定的所述訓練文檔的特征屬性以及對所述訓練文檔的分類結果,生成分類器;
分類模塊,用于使用所述生成模塊生成的所述分類器對所述待分類文檔進行分類,得到待分類文檔的分類結果。
可選地,所述的系統,還包括:
轉換模塊,用于根據所述解析模塊確定的所述特征屬性,分別對所述訓練文檔和所述待分類文檔進行格式轉換,得到符合預設格式的訓練文檔和待分類文檔;
所述生成模塊,具體用于根據所述轉換模塊格式轉換后的訓練文檔的特征屬性以及對所述訓練文檔的分類結果,生成分類器;
所述分類模塊,具體用于使用所述生成模塊生成的所述分類器對所述轉換模塊格式轉換后的待分類文檔進行分類,得到待分類文檔的分類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮(北京)電子信息產業有限公司,未經浪潮(北京)電子信息產業有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410449140.7/2.html,轉載請聲明來源鉆瓜專利網。





