[發(fā)明專利]一種基于改進互信息和熵的文本分類特征提取方法在審
| 申請?zhí)枺?/td> | 201310129008.3 | 申請日: | 2013-04-15 |
| 公開(公告)號: | CN103678274A | 公開(公告)日: | 2014-03-26 |
| 發(fā)明(設(shè)計)人: | 成衛(wèi)青;唐旋;范恒亮;楊庚;梁勝 | 申請(專利權(quán))人: | 南京郵電大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 南京知識律師事務(wù)所 32207 | 代理人: | 汪旭東 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 改進 互信 文本 分類 特征 提取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及文本挖掘技術(shù)領(lǐng)域,特別涉及一種基于改進互信息和熵的文本分類特征提取方法。
背景技術(shù)
隨著計算機技術(shù)的發(fā)展以及網(wǎng)絡(luò)的普及,我們處在一個信息化的時代,網(wǎng)絡(luò)文本的數(shù)量在急劇增長,以前人工方法篩選文本進行分類的方法已經(jīng)不適合了,迫切地需要一種快速高效的收集資料并整理所需信息的技術(shù),這樣就產(chǎn)生了文本分類技術(shù)。文本分類是指在給定分類體系下,根據(jù)文本的內(nèi)容將其分到相應(yīng)預(yù)定義類別中的過程。文本分類過程實際上是對文本的模式特征進行識別,其中的關(guān)鍵技術(shù)包括文本預(yù)處理、特征提取、分類模型等。文本特征提取是文本分類的基本步驟,過大的文本空間將導(dǎo)致此后文本分類過程耗費更多的時間和空間資源,因此從原始的特征集中選取最具代表性的特征是十分必要的。
文本分類中的特征選擇一般是利用評估函數(shù)對原始的特征進行評估并計算得分,并對得分的大小進行排序,選取一定數(shù)目的高分值特征組成特征子集,以此來代替原特征。目前常見的幾種特征評估函數(shù)是來自信息論與統(tǒng)計學原理的,有信息增益、互信息、期望交叉熵、????????????????????????????????????????????????統(tǒng)計、文本證據(jù)權(quán)等。雖然互信息是一種常用的特征評估函數(shù),在實際的應(yīng)用中也很廣泛,但其文本的分類準確率和召回率一直比較低,本發(fā)明就是在互信息的改進基礎(chǔ)上提出一種新的特征評估函數(shù),提高文本分類的準確率和召回率。
互信息是信息論中的一種信息度量,它度量兩個事件間的相關(guān)性。兩個事件的互信息定義為:
??????????????????(1)
其中的是聯(lián)合熵,定義為:
??????????????????(2)
在特征提取領(lǐng)域中,特征和類別的互信息體現(xiàn)了特征和類別的相關(guān)程度。特征和類別的互信息MI可以表示:
????????????????????????(3)
其中p(t)表示特征t在整個訓練文本集中出現(xiàn)的概率,表示含有特征t的ci類文檔數(shù)與整個訓練集文檔數(shù)的比值。考慮到分類類別有m個,為了得到特征t與各個類別的平均關(guān)聯(lián)程度,可以計算特征的平均互信息:
??????????????????(4)
互信息的一個明顯的不足是沒有考慮到單詞發(fā)生的頻度,它經(jīng)常傾向于選取稀有詞。分析公式(3),當時,如果,那么有,低頻詞的互信息值反而大,這種情況下,我們提取的特征中含有很多的低頻稀有詞,會引起過學習。雖然低頻詞會含有類別信息,但是在語料庫達到一定規(guī)模時,低頻詞多數(shù)為一些生僻詞,對分類準確性并沒有很大的貢獻。
因此,針對互信息沒有考慮到單詞頻度的不足,本發(fā)明在改進互信息公式的基礎(chǔ)上結(jié)合熵的概念,提出了一種文本分類中的特征提取方法,能很好地解決以上的這些問題。
發(fā)明內(nèi)容
本發(fā)明目的在于提供一種基于改進互信息和熵的文本分類特征提取方法,用于解決文本分類存在的準確率和召回率有待進一步提高的問題。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:本發(fā)明是一種策略性方法。考慮到統(tǒng)計熱力學中熵的概念,熵用來描述體系的混亂程度,它在控制論、概率論、數(shù)論、天體物理、生命科學等領(lǐng)域都有重要應(yīng)用,后來香農(nóng)成功地將熵的概念引入到信息論中。本發(fā)明認為熵同樣可以用在文本分類中,可以將特征看成是一個事件,文本的類集就是一個系統(tǒng),這樣熵就可以衡量特征和類別的混亂程度,進而轉(zhuǎn)化為它們之間關(guān)系的緊密程度。本發(fā)明在改進互信息的基礎(chǔ)上,結(jié)合熵的概念,提出一種新的特征評估函數(shù),并基于該函數(shù)進行特征提取,以提高文本分類的準確率和召回率。
中文文本的內(nèi)容是人類使用的而自然語言,計算機不能理解,所以必須將文本進行預(yù)處理,表示為能被處理的模式。現(xiàn)在最常用的是向量空間模型,對文本進行分詞,將文本看成是由一個個詞條組成,我們給每個詞條賦予一定的權(quán)值,將詞條和權(quán)值組成對,將文本表示成詞條和權(quán)值的向量模型。
本發(fā)明中使用如下的定義和計算公式:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學,未經(jīng)南京郵電大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310129008.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





