[發明專利]IG TF-IDF文本特征向量生成及文本分類方法有效
| 申請號: | 201811147525.2 | 申請日: | 2018-09-29 |
| 公開(公告)號: | CN109271517B | 公開(公告)日: | 2021-12-31 |
| 發明(設計)人: | 朱志良;梁潔;李德洋;劉國奇;于海 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/279 |
| 代理公司: | 沈陽東大知識產權代理有限公司 21109 | 代理人: | 李運萍 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | ig tf idf 文本 特征向量 生成 分類 方法 | ||
1.一種IG TF-IDF文本特征向量生成及文本分類方法,其特征在于,包括以下步驟:
步驟1:生成文本特征向量:
輸入文本集,每個文本集包括若干文本,若干文本按照其文本類別組成若干數據集;基于IG TF-IDF方法,調節選項參數,生成每個文本的特征向量F(Dj);所述IG TF-IDF為信息增益詞頻-反文檔頻率,即Information Gain,Term Frequency-Inverse DocumentFrequency;
步驟2:訓練分類器:
步驟2.1:將文本集中的特征向量F(Dj)隨機分成5等份,選取其中的4份數據組成訓練集,剩下的1份作為測試集;
步驟2.2:將訓練集輸入分類器進行訓練,得到訓練后的分類器;
步驟3:評估分類性能:
利用訓練后的分類器對測試集中的文本進行分類,并對測試集的分類結果進行評估,得到分類性能指標;根據分類性能指標,可以調節步驟1中的選項參數,直至用戶滿意為止;
步驟4:對目標文本集進行分類:
使用訓練后的分類器對目標文本集進行分類,得到分類結果;所述目標文本集由用戶選定;
所述步驟1具體包括:
步驟1.1:文本預處理;
對文本集中各個文本類型的編碼進行統一,導入文本集中所有文本,對這些文本進行去燥和分詞處理;
所述去燥包括標點符號、數字、停用詞和其他無意義字符;
所述分詞為使用NLPIR分詞器對各個文本進行分詞處理,提取出詞條;
步驟1.2:統計文本特征;
由提取出的詞條構建初始詞匯表;
統計文本集中文本總數目;
統計各個詞條的文本頻率,即包含該詞條的文本在文本總數目中的占比;
統計各個文本類別的文本數目;
統計各個詞條的各個類別文本頻率,即在任意一個文本類別中,包含該詞條的文本在該文本類別的文本數目中的占比;
統計各個文本的各個詞頻,即該文本中每個詞條的出現頻次;
步驟1.3:去除低頻詞:
計算所有詞條的文本頻率DF,對初始詞匯表中的所有詞條進行初次評估,選擇保留一些文本頻率高于設定的最小文本頻率,形成第二詞匯表;
各個詞條的文本頻率df(Ti,C)計算方法為:
其中,count(Ti,C)是指在文本集C中,包含詞條Ti的文本數量;NC代表文本集合C中包含的文本總數目;
取文本頻率df(Ti,C)高于設定的最小文本頻率min_df的詞條,形成第二詞匯表;
min_df=1e-3;
步驟1.4:詞條權重計算:
用IG TF-IDF算法計算每個詞條在文本中的權重,根據詞條個數指標對詞匯表進行過濾,選取每篇文本的前k個詞條組合成為第三詞匯表,并生成文本特征向量,具體實現步驟如下:
計算詞條在總的數據集條件下對該文本的貢獻度,即權值wC(Ti,Dj),利用如下公式:
wC(Ti,Dj)=tf*idf(Ti,C)
C代表文本集,由各文本類別的數據集Cm組成,即C={C1,C2,…,CM};其中反文本頻率idf(Ti,C),其計算方法為:
這里,count(Ti,C)是指在文本集C中,包含詞條Ti的文檔數量;NC代表文本集C中包含的文檔總數目;log是對數函數;
計算詞條在各文本類別的數據集條件下對該文檔的貢獻度利用如下公式:
其中類別反文檔頻率idf(Ti,Cm),利用如下公式:
其中,count(Ti,Cm)是指在第m類數據集Cm中,包含詞條Ti的文檔數量;代表第m類數據集Cm中包含的文檔總數目;
按如下公式計算詞條的權重值:
其中pm是指第m類數據集Cm中的文檔數目在總數據集C的文檔數目的占比;
根據詞條的權重值按從大到小的順序排序,k由每篇文檔的選前k個詞條組合成為新的詞匯表;
根據第三詞匯表及詞條在對應文檔中的權重值表示文檔Dj的特征向量如下:
F(Dj)=[w(T1,Dj),w(T2,Dj),…,w(Tn,Dj)]。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811147525.2/1.html,轉載請聲明來源鉆瓜專利網。





