[發明專利]基于特征二維信息增益加權的樸素貝葉斯文本分類方法有效
| 申請號: | 201810019705.6 | 申請日: | 2018-01-09 |
| 公開(公告)號: | CN108460080B | 公開(公告)日: | 2020-12-08 |
| 發明(設計)人: | 張昀;于舒娟;何偉;朱文峰;金海紅;董茜茜 | 申請(專利權)人: | 南京郵電大學;南京郵電大學南通研究院有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 朱小兵 |
| 地址: | 226001 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 特征 二維 信息 增益 加權 樸素 斯文 分類 方法 | ||
本發明提供基于特征二維信息增益加權的樸素貝葉斯文本分類方法。所述方法獲取文檔的特征詞,根據不同的特征詞出現的類別數和文檔數,得到相應的特征類別概率和特征文檔概率,進而得到特征的二維信息增益;由于信息增益具有反應特征對分類效果提升大小的作用,信息增益越大說明該特征越能表達該類的信息,把特征的二維信息相結合,提高了樸素貝葉斯文本分類器的性能;并且與TFIDF加權樸素貝葉斯文本分類算法、TFIDF*IGC文本分類算法相比,基于特征二維信息增益加權的樸素貝葉斯文本分類方法具有更好的魯棒性,使其對所有類別的分類效果都能保持很好;在同等條件下,本發明的分類性能要優于傳統改進的樸素貝葉斯文本分類方法。
技術領域
本發明屬于機器學習及自然語言處理領域,尤其是涉及基于特征二維信息增益加權的樸素貝葉斯文本分類方法。
背景技術
隨著互聯網不斷發展,文本信息及其多樣化的不斷增加,對于文本分類任務(TextClassification)也提出了更高的要求。樸素貝葉斯算法就是在貝葉斯理論的基礎上增加一個特征獨立性假設,即所有特征之間相互獨立,對于文本分類效果互不影響。在已知文本所含特征之后,根據特征的條件概率和類別的先驗概率得到特征所屬類別的后驗概率,通過比較后驗概率的大小從而達到分類的效果。由于傳統樸素貝葉斯的特征獨立性假設,導致各特征的權重其實是相同的,為了削弱傳統樸素貝葉斯算法特征獨立性假設,許多文獻開始采用加權樸素貝葉斯文本分類算法。由于不同的特征對于分類效果的影響也是不同的,通過對不同的特征采用加權算法賦予不同的權值,從而達到削弱特征獨立性假設的效果。文獻[Salton G,Buckley C.Term-weighting approaches in automatic textretrieval[M].Pergamon Press,Inc.1988.]中首次提出了TFIDF算法,并論證了TFIDF算法在文本分類中的有效性。文獻[張玉芳,陳小莉,熊忠陽.基于信息增益的特征詞權重調整算法研究[J].計算機工程與應用,2007,43(35):159-161.]通過把TFIDF算法與特征信息增益IGC相結合得到了TFIDF*IGC算法,削弱了特征與類別之間的無關性,一定程度上提高了文本分類精度。文獻[李學明,李海瑞,薛亮,等.基于信息增益與信息熵的TFIDF算法[J].計算機工程,2012,38(8):37-40.]將特征的信息增益和信息熵共同融合在TFIDF算法中,進一步削弱了特征與類別之間的無關性,說明了特征加權算法在文本分類中的有效性。文獻[武建軍,李昌兵.基于互信息的加權樸素貝葉斯文本分類算法[J].計算機系統應用,2017,26(7):178-182.]使用互信息對不同類別中的特征項進行分別賦值,一定程度上削弱了假設對分類效果的影響。然而這些改進只是針對一個方面,忽略了特征的屬性是二維的。
發明內容
本發明所要解決的技術問題是克服現有技術的缺陷和不足,提供基于特征二維信息增益加權的樸素貝葉斯文本分類方法。本發明方法是在傳統樸素貝葉斯算法的基礎上增加特征提取優化算法,使傳統樸素貝葉斯算法的特征獨立性假設得到抑制,進而提升文本分類性能。該方法旨在為傳統樸素貝葉斯算法提供一種削弱獨立性假設的方法,為文本分類任務提供準確和快速的分類方法。
為解決上述技術問題,本發明所采用的技術方案是:
基于特征二維信息增益加權的樸素貝葉斯文本分類方法,所述方法包括如下步驟:
步驟A,根據貝葉斯定理計算得到后驗概率P(Cj|Di):
式中,P(Cj)表示類別Cj出現的概率,Cj表示第j個類別;
Di={t1,t2...tm}表示文檔Di所包含的特征詞,m表示特征詞數量,i為自然數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學;南京郵電大學南通研究院有限公司,未經南京郵電大學;南京郵電大學南通研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810019705.6/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





