[發明專利]一種不良文本信息過濾用特征選擇方法在審
| 申請號: | 201810196195.X | 申請日: | 2018-03-09 |
| 公開(公告)號: | CN108376130A | 公開(公告)日: | 2018-08-07 |
| 發明(設計)人: | 閆茂德;趙文;柯偉;陳宇;李超飛;田野;林海 | 申請(專利權)人: | 長安大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 高博 |
| 地址: | 710064 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征項 特征選擇 文本信息過濾 分類特征 集合 統計量 權重 篩選 逆文檔頻率 不良類別 類別頻率 文檔頻率 最終特征 數據集 語料庫 構建 排序 改良 | ||
1.一種不良文本信息過濾用特征選擇方法,其特征在于,先從類別語料庫中提取所有特征項,構建初始特征項集合;然后根據包含特征項tj對不良類別中任一類別Ci的χ2統計量χ2(tj,Ci)、改良后的逆文檔頻率IDF、逆類別頻率ICF和逆不良文檔頻率IHDF計算得到分類特征權重值CTW值,利用分類特征權重值CTW值作為特征選擇的依據,對特征項進行篩選;最后將篩選的初始特征項集合中的特征項按照CTW值的大小由高到低排序,選取a個特征項組成最終特征項集合。
2.根據權利要求1所述的一種不良文本信息過濾用特征選擇方法,其特征在于,利用改良后的逆文檔頻率IDF值均衡特征項在包含全部類別在內的類內類間分布情況;利用逆類別頻率ICF值彌補了訓練文檔集合的類別傾斜;利用逆不良文檔頻率IHDF值均衡了特征項在不良類別與正常類別之間的分布情況,則分類特征權重值CTW值計算如下:
CTW=χ2(tj,Ci)×IDF×ICF×IHDF。
3.根據權利要求1或2所述的一種不良文本信息過濾用特征選擇方法,定義N為訓練文檔總數,Ci為不良類別中任一類別,tj為Ci類初始特征項集合中的任一特征項,A為既包含特征項tj又屬于類別Ci的文檔頻數;B為雖然包含特征項tj但不屬與類別Ci的文檔頻數;C為類別Ci中不包含特征項tj的文檔頻數;D為所有文檔中既不包含特征項tj又不屬于類別Ci的文檔頻數,則訓練文檔總數N=A+B+C+D。
4.根據權利要求3所述的一種不良文本信息過濾用特征選擇方法,其特征在于,χ2(tj,Ci)計算如下:
5.根據權利要求3所述的一種不良文本信息過濾用特征選擇方法,其特征在于,改良后的逆文檔頻率IDF具體計算如下:
其中,n為包含該特征項tj的文檔數;m為類別Ci中包含該特征項tj的文檔數;k為除類別Ci外其他各類包含該特征項tj的文檔數,且n=m+k。
6.根據權利要求3所述的一種不良文本信息過濾用特征選擇方法,其特征在于,逆類別頻率ICF計算如下:
其中,p為訓練文檔集合的全部類別數量;q為包含特征項tj的類別數量。
7.根據權利要求3所述的一種不良文本信息過濾用特征選擇方法,其特征在于,逆不良文檔頻率IHDF計算如下:
其中,N為訓練文檔總數;w為包含該特征項tj的文檔數;v為全部不良類別中包含該特征項tj的文檔數;l為除不良類別外其他正常類別各類包含該特征項tj的文檔數;且w=v+l。
8.根據權利要求1所述的一種不良文本信息過濾用特征選擇方法,其特征在于,設最終測試的文檔總數N=TP+FP+FN+TN,分別計算得到過濾效果的正確率Pi和召回率Ri,進而得到最終過濾效果的綜合評價指標用于驗證,TP為被檢索到與目標類別相關的文檔數量;FP為被檢索到但與目標類別無關的文檔數量;FN為被檢索到但與目標類別相關的文檔數量;TN為被檢索到與目標類別無關的文檔數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于長安大學,未經長安大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810196195.X/1.html,轉載請聲明來源鉆瓜專利網。





