[發(fā)明專利]基于文檔層詞頻重排序的特征選擇方法有效
| 申請?zhí)枺?/td> | 201810820200.X | 申請日: | 2018-07-24 |
| 公開(公告)號: | CN109376235B | 公開(公告)日: | 2021-11-16 |
| 發(fā)明(設(shè)計(jì))人: | 周紅芳;張英杰;劉虹江;張堯;張懿輝;吳珞風(fēng) | 申請(專利權(quán))人: | 西安理工大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 西安弘理專利事務(wù)所 61214 | 代理人: | 談耀文 |
| 地址: | 710048*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 文檔 詞頻 排序 特征 選擇 方法 | ||
1.一種基于文檔層詞頻重排序的特征選擇方法,其特征在于,具體操作步驟如下:
步驟1:獲取已經(jīng)進(jìn)行了詞干提取和去停用詞處理的WAP、RE0、RE1、K1a、K1b、20Newsgroups這六種數(shù)據(jù)集,消除數(shù)據(jù)集中頻繁出現(xiàn)的詞條和幾乎不出現(xiàn)的詞條,采用5折交叉驗(yàn)證法劃分測試集和訓(xùn)練集;
所述頻繁出現(xiàn)的詞條是指詞條出現(xiàn)的文檔頻率超過25%的詞條;
所述幾乎不出現(xiàn)的詞條為詞條出現(xiàn)的文檔少于3篇的詞條;
步驟2:使用基于文檔層詞頻重排序的特征選擇方法,設(shè)置特征詞個(gè)數(shù),生成最優(yōu)特征子集,具體如下:
步驟2.1:計(jì)算出每篇文檔中詞條ti的詞頻,記為tfij,根據(jù)如下公式計(jì)算出類內(nèi)詞頻總和,
其中,k為類別信息標(biāo)號,N為數(shù)據(jù)集的文檔總數(shù),I(dj,Ck)是判斷文檔dj是否屬于類別Ck的公式,
步驟2.2:根據(jù)如下公式求出數(shù)據(jù)集中每篇文檔的詞頻總和,
其中,N為數(shù)據(jù)集的文檔總數(shù);
步驟2.3:按照如下公式,計(jì)算出詞頻的權(quán)重影響因子twki;
步驟2.4:按照如下公式計(jì)算出文本數(shù)量的一個(gè)影響因子Dk,
其中,N為數(shù)據(jù)集的總文檔數(shù),Nk表示屬于類別Ck的文檔數(shù);
步驟2.5:計(jì)算出文檔層的真正率和假正率,再按照如下公式進(jìn)行文檔層的計(jì)算,
其中真正率tpr和假正率fpr的計(jì)算公式為:其中tp、fn、fp和tn表示具體內(nèi)容如下;
其中,tp表示包含詞條ti并且屬于類別Ck的文本數(shù);fn表示不包含詞條ti并且屬于類別Ck的文本數(shù);fp表示包含詞條ti并且不屬于類別Ck的文本數(shù);tn表示不包含詞條ti并且不屬于類別Ck的文本數(shù),tn表示真實(shí)類別為負(fù)例、預(yù)測類別為負(fù)例;
步驟2.6:按照如下公式計(jì)算每個(gè)詞條的權(quán)重值TRDL(ti),然后進(jìn)行排序,根據(jù)特征詞個(gè)數(shù)選擇出最優(yōu)特征子集,
其中k代表數(shù)據(jù)集中類別信息標(biāo)號,P(Ck)代表類別Ck的文本數(shù)占數(shù)據(jù)集總文本數(shù)的比率;
步驟3:使用樸素貝葉斯分類器和支持向量機(jī)分類器對最優(yōu)特征子集依次進(jìn)行訓(xùn)練和分類,訓(xùn)練出分類器的模型,得到分類結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安理工大學(xué),未經(jīng)西安理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810820200.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





