[發明專利]一種基于樸素貝葉斯模型的文本分類方法在審
| 申請號: | 201910547226.6 | 申請日: | 2019-06-24 |
| 公開(公告)號: | CN110442709A | 公開(公告)日: | 2019-11-12 |
| 發明(設計)人: | 肖清林 | 申請(專利權)人: | 廈門美域中央信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 北京勁創知識產權代理事務所(普通合伙) 11589 | 代理人: | 王志敏 |
| 地址: | 361008 福建省廈門市軟件園*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 貝葉斯模型 文本分類 訓練集 驗證集 工作準確性 信息關鍵詞 模型應用 特征屬性 訓練結果 樣本數據 效率性 分類 構建 校正 工作量 文本 驗證 保證 | ||
一種基于樸素貝葉斯模型的文本分類方法,方法步驟包括:收集樣本數據,構建訓練集和驗證集;選出常見的信息關鍵詞,確定特征屬性;建立樸素貝葉斯模型;利用訓練集對樸素貝葉斯模型進行訓練;利用驗證集對訓練結果進行驗證,并校正完善;模型應用。本發明在樸素貝葉斯模型的基礎上,對文本進行分類,提高了分類工作準確性和效率性,降低了工作人員的工作量,保證了工作的順利進行。
技術領域
本發明涉及領域,尤其涉及一種基于樸素貝葉斯模型的文本分類方法。
背景技術
樸素貝葉斯分類器發源于古典數學理論,有著堅實的數學基礎,以及穩定的分類效率,同時樸素貝葉斯模型所需估計的參數很少,對缺失數據不太敏感,算法也比較簡單,與其他分類方法相比具有最小的誤差率。
相關部門在進行工作時,需要對大量文本進行整理分類,工作量大,工作效率低,容易出錯,因此亟需一種分類方法。
為解決上述問題,本申請中提出一種基于樸素貝葉斯模型的文本分類方法。
發明內容
(一)發明目的
為解決背景技術中存在的技術問題,本發明提出一種基于樸素貝葉斯模型的文本分類方法,本發明在樸素貝葉斯模型的基礎上,通過收集樣本數據,構建訓練集和驗證集;選出常見的信息關鍵詞,確定特征屬性;建立樸素貝葉斯模型;利用訓練集對樸素貝葉斯模型進行訓練;利用驗證集對訓練結果進行驗證,并校正完善;模型應用來對文本進行分類,提高了分類工作準確性和效率性,降低了工作人員的工作量,保證了工作的順利進行。
(二)技術方案
為解決上述問題,本發明提供了一種基于樸素貝葉斯模型的文本分類方法,方法步驟包括:
S1、收集樣本數據,構建訓練集和驗證集;
S2、選出常見的信息關鍵詞,確定特征屬性;以黨員的性別、年齡、工作時間、工作崗位為特征屬性;
S3、建立樸素貝葉斯模型;
S4、利用訓練集對樸素貝葉斯模型進行訓練;根據確定的特征屬性,其中性別記為x1,年齡記為x2,工作時間記為x3,工作崗位記為x3;X代表文本,記為X=(x1,x2,x3);用Y表示類別,記為Y=(c1,c2,c3...cm);計算并收集每個文本所有屬性的聯合概率;
S5、利用驗證集對訓練結果進行驗證,并校正完善;
S6、模型應用;計算待分類文本中的所有P(Y/X),其中P(Y/X)最大項對應的類別Y,即為文本的分類。
優選的,在S1中,采用十折交叉驗證方法,每次選取9份文本作為訓練集, 1份文本作為驗證集。
優選的,在S4中,每個文本所有屬性的聯合概率計算方法為:
其中P(Y/X)為Y的后驗概率,P(Y)為Y的先驗概率,P(X)表示特征概率P(X/Y)表示Y類別中X的特征概率。
優選的,在S7中,模型判斷的準則為:
本發明的上述技術方案具有如下有益的技術效果:
樸素貝葉斯分類器發源于古典數學理論,有著堅實的數學基礎,以及穩定的分類效率,同時樸素貝葉斯模型所需估計的參數很少,對缺失數據不太敏感,算法也比較簡單,與其他分類方法相比具有最小的誤差率。
本發明在樸素貝葉斯模型的基礎上,構建訓練集和驗證集,在訓練的同時對模型不斷完善,再對文本進行分類,提高了分類工作準確性和效率性,降低了工作人員的工作量,保證了工作的順利進行。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門美域中央信息科技有限公司,未經廈門美域中央信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910547226.6/2.html,轉載請聲明來源鉆瓜專利網。





