[發明專利]基于類別之間相關性學習的中文文本分類方法無效
| 申請號: | 201110268825.8 | 申請日: | 2011-09-13 |
| 公開(公告)號: | CN102332012A | 公開(公告)日: | 2012-01-25 |
| 發明(設計)人: | 吳嫻;楊興鋒;張東明;何崑 | 申請(專利權)人: | 南方報業傳媒集團 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 楊曉松 |
| 地址: | 510601 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 類別 之間 相關性 學習 中文 文本 分類 方法 | ||
技術領域
本發明屬于中文文本分類算法研究領域,特別涉及一種采用詞項與類別之間的辨別指數選取特征、基于類別之間相關性學習的中文文本分類方法。
背景技術
隨著中國出版業的迅速發展,電子格式的中文文檔數量不斷攀升。文檔分類的工作愈發繁瑣,因此,利用先進的機器學習和模式分類方法輔助傳統的人工分類變得十分必要。
中文文本分類方法主要有特征選擇和分類算法兩部分構成。文檔集的特征一般采用詞袋模型(Bag-of-Words)和文檔向量模型(Vector?Space?Model)的形式表示,其關鍵區別在于權重的計算方式不同,詞袋模型的權重是用概率表示由詞生成文檔的概率,文檔向量模型的權重可以看作是詞項頻率統計的函數映射。文檔的表示必須選取具有代表性的詞項作為特征索引。詞項的粒度可以選擇字、詞、短語、概念、N-Gram以及其它規律性模式,根據頻率統計選擇特征,并對剩余特征項計算不同權重用于文檔表示。將文檔集中所有文檔的表示向量接連起來即可構成文檔集的特征表示,但是此類特征表示方法容易遭遇維數災難,同時也面臨著小樣本問題。因此,在文本分類中,常采用概念索引(Concept?Index)、互信息量(Mutual?Information)、信息增益(Information?Gain)、交叉熵(Cross?Entropy)、CHI統計(CHI?Statistics)和幾率比(Odds?Ratio)等方法來降低特征向量的維數。常用的分類方法有貝葉斯、K近鄰、決策樹和SVM方法。但是,以上現有的方法效果仍不盡如人意。其原因除了客觀上訓練樣本的不均勻分布和樣本文檔類別間的復分性之外,更可能的原因有以下:特征選擇的硬判決割斷了文檔連續詞項之間的語義關聯;文本分類算法中大多忽略了不同類別文檔之間的相關性,而類別之間的相關性對于改善文本分類性能有著積極作用。
目前,最新的主流算法主要有以下幾種:
(1)Z.Guo等(Z.Guo,L.Lu,S.Xi?and?F.Sun,An?effective?dimension?reduction?approach?to?Chinese?document?classification?using?genetic?algorithm.Lecture?Notes?in?Computer?Science,5552/2009:480-489,2008)提出基于遺傳算法的中文文檔分類方法;
(2)M.Y.Jia等(M.Y.Jia,D.Q.Zheng,B.R.Yang?and?Q.X.Chen,Hierarchical?text?categorization?based?on?multiple?feature?selection?and?fusion?of?multiple?classifiers?approaches.International?Conference?on?Fuzzy?Systems?and?Knowledge?Discovery,2009)提出基于多特征選擇和多分類器的層次文本分類方法;
(3)Cheng等(X.Cheng,S.Tan?and?L.Tang,Using?dragpushing?to?refine?concept?index?for?text?categorization,Journal?of?Computer?Science?and?Technology,21(4):592-596,2006)采用Concept?Index方法進行文本分類。
以上算法均需采用SVM等方法訓練構造分類器,算法運行量大,運行所需時間很長,在實際應用中存在諸多局限。
因此,研究如何在考慮同類別文檔之間的相關性的情況下提高分類精確度且同時降低算法復雜度的中文文本分類算法是一個極具實際意義的課題。
發明內容
本發明的主要目的在于克服現有技術的缺點與不足,提供一種基于類別之間相關性學習的中文文本分類方法。該方法在特征選擇環節,分別統計全部詞項與類別的辨別指數并將其作為權重篩選特征詞項,同時在一對多分類框架下,計算出不同類別文檔之間的相關性矩陣,對于新文本的分類精確度提高,同時計算復雜度降低,運行所需時間減少,具有很好的應用前景。
本發明的目的通過以下的技術方案實現:基于類別之間相關性學習的中文文本分類方法,具體包括以下步驟:
(1)訓練過程:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南方報業傳媒集團,未經南方報業傳媒集團許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110268825.8/2.html,轉載請聲明來源鉆瓜專利網。





