[發明專利]一種不良文本信息過濾用特征選擇方法在審
| 申請號: | 201810196195.X | 申請日: | 2018-03-09 |
| 公開(公告)號: | CN108376130A | 公開(公告)日: | 2018-08-07 |
| 發明(設計)人: | 閆茂德;趙文;柯偉;陳宇;李超飛;田野;林海 | 申請(專利權)人: | 長安大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 高博 |
| 地址: | 710064 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征項 特征選擇 文本信息過濾 分類特征 集合 統計量 權重 篩選 逆文檔頻率 不良類別 類別頻率 文檔頻率 最終特征 數據集 語料庫 構建 排序 改良 | ||
本發明公開了一種不良文本信息過濾用特征選擇方法,先從類別語料庫中提取所有特征項,構建初始特征項集合;然后根據包含特征項tj對不良類別中任一類別Ci的χ2統計量χ2(tj,Ci)、改良后的逆文檔頻率IDF、逆類別頻率ICF和逆不良文檔頻率IHDF計算得到分類特征權重值CTW值,利用分類特征權重值CTW值作為特征選擇的依據,對特征項進行篩選;最后將步驟S2篩選的初始特征項集合中的特征項按照CTW值的大小由高到低排序,選取a個特征項組成最終特征項集合。本發明解決了χ2統計量特征選擇方法未考慮到特征項在類內類間分布情況的問題,同時解決了各類別數據集傾斜的問題,進而提高了不良文本信息過濾的效果。
技術領域
本發明屬于自然語言處理技術領域,尤其是文本內容過濾技術領域,具體涉及一種不良文本信息過濾用特征選擇方法。
背景技術
在不良文本信息過濾過程中,“維度災難”是必須要解決的重大問題。通過中文文本分詞處理的文本信息具有極大的特征項數量,由于語料庫巨大,訓練文本集合中的維數就更是高達幾萬維到幾十萬維,如此巨大的維數會給計算機造成嚴重的運行負擔,無疑提高了計算難度,由于計算時間的增加,直接導致不良文本信息過濾效果的降低,同時,在如此高維的特征項集合中必然存在信息噪聲,即存在對分類產生負面效果的特征項存在,由此,特征降維成為非常重要的處理過程,χ2統計量方法已成為現在應用最廣泛的特征選擇方法之一。
χ2統計量方法通常用來檢驗兩個變量是否獨立,在原假設為兩變量獨立的前提下,計算得到的χ2統計量值越大則說明實際與原假設越背離,則原假設成立可能性越小,兩變量關聯性越強。在文本分類領域,原假設H0:特征項與該類別相互獨立,無關聯;備擇假設H1:特征項與該類別有關聯。χ2統計量越大即偏離值越大,特征項與該類別關聯度越高。若特征項與類別相互獨立則χ2統計量為0。
χ2統計量方法雖然是目前文本分類中應用效果最好的特征選擇方法,但不可避免的存在缺陷,主要有以下兩點:
(1)降低了部分具有明確分類意義的低頻詞權重
某些低頻詞文檔頻數雖低,但是往往大量出現在某類特定少數文本文檔中,由于頻繁出現此類詞語的文檔數較少,導致此類詞語的詞頻偏低,但此類詞語卻具有很好的代表性代表這少數文檔的類別情況,對分類貢獻很大。由于通過χ2統計量公式計算結果較小,在篩選階段很容易被過濾掉,使得具有很強代表性的特征項被誤刪。
(2)提高了部分在其他各類別頻繁出現但很少出現在指定類別的高頻詞
此類高頻詞在訓練文檔集合中的其他類中頻繁出現,但在指定類中出現較少,即A值較小,顯然此類高頻詞沒有很好的代表性表示該指定類。由于在計算過程中,BC將遠遠大于AD,直接導致χ2統計量的計算結果較高,在篩選過程中不容易被過濾,使得沒有具備較強代表性的特征項誤留。
發明內容
本發明所要解決的技術問題在于針對上述現有技術中的不足,提供一種不良文本信息過濾用特征選擇方法,該特征選擇方法針對不良文本信息過濾的特殊性,對傳統的χ2統計量特征選擇方法進行改良。
本發明采用以下技術方案:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長安大學,未經長安大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810196195.X/2.html,轉載請聲明來源鉆瓜專利網。





