[發(fā)明專利]一種基于術(shù)語頻率和卡方統(tǒng)計(jì)的文本分類特征選擇方法有效
| 申請(qǐng)?zhí)枺?/td> | 201410629761.3 | 申請(qǐng)日: | 2014-11-10 |
| 公開(公告)號(hào): | CN104346459B | 公開(公告)日: | 2017-10-27 |
| 發(fā)明(設(shè)計(jì))人: | 馬廷淮;金傳鑫;侯榮濤;田偉;薛羽 | 申請(qǐng)(專利權(quán))人: | 南京信息工程大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 南京眾聯(lián)專利代理有限公司32206 | 代理人: | 顧進(jìn),葉涓涓 |
| 地址: | 210044 *** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 術(shù)語 頻率 統(tǒng)計(jì) 文本 分類 特征 選擇 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明屬于文本挖掘與信息檢索領(lǐng)域,具體涉及的是一種基于術(shù)語頻率和卡方統(tǒng)計(jì)的文本分類特征選擇方法。
背景技術(shù)
文本分類(Text Classification或Text Categorization)是預(yù)先設(shè)定的類別集合,根據(jù)文本內(nèi)容確定文本所屬類型。在文本分類中,通常用向量空間模型作為文本的表示模型,該模型是應(yīng)用效果最好的文本表示模型之一;文本中的詞或詞組作為特征,但是在大量的特征中,存在很多冗余特征和噪聲特征,而龐大的特征空間維數(shù)會(huì)降低分類器的性能和泛化能力,產(chǎn)生“過學(xué)習(xí)”現(xiàn)象。同時(shí),處理高維向量需要極高的時(shí)間復(fù)雜度,進(jìn)而會(huì)產(chǎn)生“維數(shù)災(zāi)難”。因此,我們需要通過特征降維,來提高分類器的效率和精度,特征降維分為特征選擇和特征提取。
特征選擇是目前最常用的降維方法,其本質(zhì)是從一個(gè)高維空間根據(jù)某種準(zhǔn)則變換到一個(gè)較低維的空間,并且使得該低維空間有比較好的類別可分性,從而提高分類器的分類效率和精度。比較常用的特征選擇方法主要有文檔頻率(document frequency,DF)、互信息(mutual information,MI)、期望交叉熵(expected cross entropy,ECE)、卡方統(tǒng)計(jì)(Chi-square statistic,CHI)、信息增益(information gain,IG)等;近年來國內(nèi)外學(xué)者還提出了其他的特征選擇方法,例如,張玉芳等人提出了綜合比率(CR)方法,通過把數(shù)據(jù)集分成正類和負(fù)類,綜合考慮特征項(xiàng)在正類和負(fù)類中的分布,結(jié)合四種衡量特征類別區(qū)分能力的指標(biāo),構(gòu)造了CR特征選擇方法來選擇特征;馮霞等人提出了基于假設(shè)檢驗(yàn)的選擇方法,利用特征與文檔類在term-category四格表中相互獨(dú)立與互不相關(guān)等價(jià)的性質(zhì)來選擇特征。美國卡內(nèi)基梅隆大學(xué)的Yang教授針對(duì)文本分類問題,在分析比較了DF、MI、IG、CHI等方法后,得出IG和CHI方法分類效果相對(duì)較好的結(jié)論,并且,CHI和IG在多次的實(shí)驗(yàn)中表現(xiàn)出了良好的準(zhǔn)確性。但是上述這些特征選擇方法都具有缺陷,比如卡方統(tǒng)計(jì)方法對(duì)低頻詞的倚重大,不能很好地過濾低頻詞中的噪音詞。
發(fā)明內(nèi)容
我們通過分析發(fā)現(xiàn),現(xiàn)有卡方統(tǒng)計(jì)方法只考慮了特征詞的文檔頻率,并沒有考慮特征的術(shù)語詞頻,所以夸大了低頻術(shù)語的作用。例如傳統(tǒng)卡方統(tǒng)計(jì)方法只統(tǒng)計(jì)文檔中是否出現(xiàn)術(shù)語t,并沒有考慮術(shù)語t在文檔中出現(xiàn)的次數(shù),致使傳統(tǒng)方法更傾向于選擇文檔頻率高的特征,忽略了文檔頻率較低但是詞頻較高的詞匯的貢獻(xiàn)度,此外,傳統(tǒng)卡方統(tǒng)計(jì)方法沒有考慮術(shù)語的分布差異度的問題。基于上述問題,本發(fā)明公開了一種基于術(shù)語頻率和卡方統(tǒng)計(jì)的文本分類特征選擇方法,利用最大術(shù)語頻率來修正傳統(tǒng)卡方統(tǒng)計(jì)方法對(duì)術(shù)語頻率低但文檔頻率高的術(shù)語的偏袒;同時(shí)利用平均術(shù)語頻率和統(tǒng)計(jì)學(xué)上的標(biāo)準(zhǔn)方差的方法,來修正傳統(tǒng)卡方統(tǒng)計(jì)方法未考慮分布差異度的缺陷。
為了達(dá)到上述目的,本發(fā)明提供如下技術(shù)方案:
一種基于術(shù)語頻率和卡方統(tǒng)計(jì)的文本分類特征選擇方法,包括如下步驟:
步驟(1),對(duì)語料庫數(shù)據(jù)集進(jìn)行預(yù)處理;
步驟(2),對(duì)經(jīng)過步驟(1)處理得到的數(shù)據(jù)集中的對(duì)象根據(jù)向量空間模型均表示為向量形式,得到數(shù)據(jù)對(duì)象向量集合D={d1,d2,...dN},類標(biāo)簽集合C={c1,c2,...c|C|},dj表示語料庫數(shù)據(jù)集中的一個(gè)文檔(1≤j≤N),ck表示語料庫數(shù)據(jù)集中的一個(gè)類;
步驟(3),計(jì)算術(shù)語ti在文本分類ck中的最大術(shù)語頻率和平均術(shù)語頻率
步驟(4),通過下式計(jì)算術(shù)語ti在ck類中的分布差異度:
其中,α表示一個(gè)很小的實(shí)數(shù);
步驟(5),利用步驟(3)和步驟(4)得到的最大術(shù)語頻率及分布差異度,通過下式計(jì)算該術(shù)語ti在ck類中的權(quán)重:
其中,
步驟(6),計(jì)算得到該術(shù)語ti在每個(gè)類中的權(quán)重,通過下式得到術(shù)語ti在語料庫數(shù)據(jù)集中的權(quán)重:
步驟(7),計(jì)算得到每一個(gè)術(shù)語在語料庫數(shù)據(jù)集中的權(quán)重,并降序排列,選出值最大的前N個(gè)術(shù)語作為特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京信息工程大學(xué),未經(jīng)南京信息工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410629761.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種領(lǐng)域術(shù)語抽取的方法
- 醫(yī)學(xué)術(shù)語識(shí)別方法及裝置
- 術(shù)語抽取方法和裝置
- 一種醫(yī)療術(shù)語知識(shí)庫完善的方法和裝置
- 一種構(gòu)建制造領(lǐng)域術(shù)語庫的方法及系統(tǒng)
- 術(shù)語更新方法以及相關(guān)設(shè)備、裝置
- 一種醫(yī)學(xué)術(shù)語系統(tǒng)的構(gòu)建方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于多特征的術(shù)語檢索方法
- 一種術(shù)語替換方法及系統(tǒng)
- 一種標(biāo)準(zhǔn)術(shù)語確定方法、裝置及存儲(chǔ)介質(zhì)
- 統(tǒng)計(jì)系統(tǒng)、統(tǒng)計(jì)裝置和統(tǒng)計(jì)方法
- 人數(shù)統(tǒng)計(jì)方法和人數(shù)統(tǒng)計(jì)系統(tǒng)
- 統(tǒng)計(jì)物體數(shù)量的統(tǒng)計(jì)系統(tǒng)
- 網(wǎng)絡(luò)處理器的統(tǒng)計(jì)計(jì)數(shù)方法
- 統(tǒng)計(jì)信息上報(bào)方法及裝置
- 稿件統(tǒng)計(jì)方法和稿件統(tǒng)計(jì)系統(tǒng)
- 數(shù)據(jù)統(tǒng)計(jì)方法及裝置
- 獲取數(shù)據(jù)的統(tǒng)計(jì)狀態(tài)的方法及裝置
- 信息統(tǒng)計(jì)方法和信息統(tǒng)計(jì)裝置
- 電量統(tǒng)計(jì)系統(tǒng)及電量統(tǒng)計(jì)方法





