[發明專利]基于特征二維信息增益加權的樸素貝葉斯文本分類方法有效
| 申請號: | 201810019705.6 | 申請日: | 2018-01-09 |
| 公開(公告)號: | CN108460080B | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 張昀;于舒娟;何偉;朱文峰;金海紅;董茜茜 | 申請(專利權)人: | 南京郵電大學;南京郵電大學南通研究院有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 朱小兵 |
| 地址: | 226001 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 特征 二維 信息 增益 加權 樸素 斯文 分類 方法 | ||
1.基于特征二維信息增益加權的樸素貝葉斯文本分類方法,其特征在于,所述方法包括如下步驟:
步驟A,根據貝葉斯定理計算得到后驗概率P(Cj|Di):
式中,P(Cj)表示類別Cj出現的概率,Cj表示第j個類別;
Di={t1,t2...tm}表示文檔Di所包含的特征詞,m表示特征詞數量,i為自然數;
P(Di)=P(t1,t2...tm)表示各特征詞的聯合分布概率,是一個常數;
P(Di|Cj)為文檔Di屬于類別Cj的概率;
所述樸素貝葉斯文本分類就是求解P(Cj|Di)最大值,根據特征獨立性假設,求解轉化為:
式中,tk∈{t1,t2...tm}表示文檔Di包含的特征詞,1≤k≤m;
表示求表達式的最大值;
C={C1,C2,...,Cj,...,CV},j表示自然數,V表示總的類別數;
表示最終的分類結果,其值等于P(Cj|Di)的最大值;
表示對表達式求積;
P(tk|Cj)表示特征詞tk屬于類別Cj的概率;
步驟B,計算特征類別概率P(tk,Cj):
tf(tk,Cj)表示特征詞tk在Cj類中的出現的頻數;
L=0.01為平滑因子;
步驟C,計算特征文檔概率:
其中,
表示含有特征詞tk的文檔;
表示含有特征詞tk的文檔在類別Cj中出現的篇數;
L=0.01為平滑因子,V表示總的類別數;
步驟D,計算特征類別信息增益IGC:
步驟E,計算特征文檔信息增益IGD:
其中,lb(·)表示以2為底的對數;
E(Cj)為類別Cj的信息熵;
E(Cj|tk)表示特征詞tk的類別條件信息熵;
表示特征詞tk的文檔條件信息熵;
P(tk,Cj),分別為上文求出的特征類別概率和特征文檔概率;
步驟F,進行線性歸一化處理,得到特征二維信息增益:
其中,
max(·)表示求表達式的最大值;
min(·)表示求表達式的最小值;
步驟G,對樸素貝葉斯模型進行加權,得到加權樸素貝葉斯模型:
其中,Wk表示對應特征詞tk的加權值,作為條件概率的冪次方;由于大多數的概率都很小,為了避免出現下溢,對決策規則取對數:
其中ln表示自然對數;
步驟H,將特征二維信息增益與加權樸素貝葉斯模型結合,得到基于特征二維信息增益加權的樸素貝葉斯文本分類方法的模型:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學;南京郵電大學南通研究院有限公司,未經南京郵電大學;南京郵電大學南通研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810019705.6/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





