[發明專利]一種基于類內類間文檔頻和詞頻統計的特征選擇方法在審
| 申請號: | 201810131876.8 | 申請日: | 2018-02-09 |
| 公開(公告)號: | CN108491429A | 公開(公告)日: | 2018-09-04 |
| 發明(設計)人: | 邵雄凱;趙婧;劉建舟;王春枝;華滿;陽鄒;陳亮亮 | 申請(專利權)人: | 湖北工業大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 魏波 |
| 地址: | 430068 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 特征選擇 詞頻統計 特征詞 訓練集 詞庫 評估函數 原始特征空間 詞頻 文本預處理 集中分布 中文文本 綜合考慮 分散度 集中度 并集 分類 | ||
本發明公開了一種基于類內類間文檔頻和詞頻統計的特征選擇方法,綜合考慮特征詞的文檔頻、詞頻以及特征詞的類間集中度、類內分散度,構造出基于類內類間文檔頻和詞頻統計(DFCTFS)的特征選擇評估函數;將訓練集經過文本預處理后的原始特征空間使用本發明提出的特征選擇評估函數在訓練集每個類別中選取一定比例的特征詞組成該類別的特征詞庫,而訓練集的特征詞庫則為訓練集各類別特征詞庫的并集。本發明提出一種基于類內類間文檔頻和詞頻統計(DFCTFS)的特征選擇方法,可實現特征選擇出集中分布于某類文檔并在該類文檔中均勻分布且頻繁出現的特征詞,提高中文文本分類的效果。
技術領域
本發明屬于中文文本分類技術領域,涉及一種特征選擇方法,具體涉及一種基于類內類間文檔頻和詞頻統計的特征選擇方法。
背景技術
中文文本分類整體思路大致為:文本預處理,特征選擇,建立文本表示模型,使用分類算法分類,分類模型評估。特征選擇是中文文本分類的關鍵步驟,它是指從高維的原始特征空間中選擇一部分重要特征,組成一個低維空間,從而提高分類精度和分類效率。
傳統的特征選擇方法有:文檔頻率(DF)、互信息(MI)、信息增益(IG)、卡方統計量(CHI)等。特征選擇的做法一般是選用一個評估函數對原始的n個特征項進行計算,對計算所得的值按降序排列,從原始特征項集合中選出含信息量較多的前P個特征項。
傳統的特征選擇方法中CHI和IG被證明是文本分類效果較好的兩種特征選擇方法。CHI以特征詞t與類別Ci相互獨立為前提,計算這兩個變量之間的值(即偏差程度),如果計算得到的值越大(即偏差較大),則特征詞t與類別Ci越相關。但是,傳統的CHI方法存在著不足,(1)未考慮特征詞在各類別中的詞頻分布,只考慮了特征詞的文檔頻,導致CHI可能會選擇文檔頻率高但詞頻低的特征詞。(2)可能會選擇與類別負相關的特征詞。
IG用于文本的特征選擇時,衡量的是某個詞的出現與否對判斷一個文本是否屬于該類所提供的信息量,信息量的多少由熵來衡量。IG即為不考慮任何特征時文檔的熵和考慮該特征后文檔的熵的差值,該差值表示信息不確定性的減少程度。信息不確定性減少程度越大,相應的信息增益越大,該詞項提供的信息越多,該詞項越重要。但是,傳統的IG方法存在著不足,(1)未考慮特征詞在各類別中的詞頻分布;(2)特征詞負相關性的干擾;(3)只能做全局的特征選擇(指訓練集中所有類別都使用相同的特征集合),而無法做本地的特征選擇(指訓練集中每個類別都有自己的特征集合)。
訓練集通過預處理和特征選擇后形成特征詞庫。CHI特征選擇方法是依據CHI評估函數,得到各特征詞在訓練集各個類別的CHI值,使用特征詞在所有類別中的CHI值的平均值或者最大值作為該特征詞在整個訓練集中的CHI值,將所有特征詞按CHI值降序排列,選取一定比例的特征詞作為整個訓練集的特征詞庫。IG特征選擇方法是依據IG評估函數,得到各特征詞在整個訓練集中的IG值,將所有特征詞按IG值降序排列,選取一定比例的特征詞作為整個訓練集的特征詞庫。
綜合分析CHI和IG的不足,可以得出,文本分類中的特征選擇關鍵在于選擇出集中分布于某類文檔并在該類文檔中均勻分布且頻繁出現的特征詞。因此,本發明綜合考慮特征詞的文檔頻、詞頻以及特征詞的類間集中度、類內分散度,提出一種基于類內類間文檔頻和詞頻統計(Document Frequency of within-class and between-class and TermFrequency Statistics,DFCTFS)的特征選擇方法,提高分類的精度。
發明內容
本發明的目的在于提供一種基于類內類間文檔頻和詞頻統計的特征選擇方法,優化特征選擇的結果,提高中文文本分類的精度。
本發明所采用的技術方案是:1.一種基于類內類間文檔頻和詞頻統計的特征選擇方法,其特征在于,包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北工業大學,未經湖北工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810131876.8/2.html,轉載請聲明來源鉆瓜專利網。





