[發明專利]一種基于術語頻率和卡方統計的文本分類特征選擇方法有效
| 申請號: | 201410629761.3 | 申請日: | 2014-11-10 |
| 公開(公告)號: | CN104346459B | 公開(公告)日: | 2017-10-27 |
| 發明(設計)人: | 馬廷淮;金傳鑫;侯榮濤;田偉;薛羽 | 申請(專利權)人: | 南京信息工程大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京眾聯專利代理有限公司32206 | 代理人: | 顧進,葉涓涓 |
| 地址: | 210044 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 術語 頻率 統計 文本 分類 特征 選擇 方法 | ||
1.一種基于術語頻率和卡方統計的文本分類特征選擇方法,其特征在于,包括如下步驟:
步驟(1),對語料庫數據集進行預處理;
步驟(2),對經過步驟(1)處理得到的數據集中的對象根據向量空間模型均表示為向量形式,得到數據對象向量集合D={d1,d2,...dN},類標簽集合C={c1,c2,...c|C|},dj表示語料庫數據集中的一個文檔(1≤j≤N),ck表示語料庫數據集中的一個類,1≤k≤|C|,N表示語料庫數據集中文檔的數量,|C|表示語料庫數據集中類別的數量;
步驟(3),計算術語ti在文本分類ck中的最大術語頻率和平均術語頻率
步驟(4),通過下式計算術語ti在ck類中的分布差異度:
其中,Nk表示ck類中文檔的數量,tfij為術語頻率,α表示一個很小的實數;
步驟(5),利用步驟(3)和步驟(4)得到的最大術語頻率及分布差異度,通過下式計算該術語ti在ck類中的權重:
其中,
上式中,A表示包含術語ti并且屬于ck類的文檔數量;B表示包含術語ti但不屬于ck類的文檔數量;C表示不包含術語ti但屬于Ck類的文檔數量;D表示不包含術語ti并且不屬于ck類的文檔數量;
步驟(6),計算得到該術語ti在每個類中的權重,通過下式取權重最大值為術語ti在語料庫數據集中的權重:
步驟(7),計算得到每一個術語在語料庫數據集中的權重,并降序排列,選出值最大的前N個術語作為特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京信息工程大學,未經南京信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410629761.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種阻燃砂礫墻紙印刷工藝
- 下一篇:一種熱敏用工業預涂原紙的制造方法





