[發(fā)明專利]一種基于樸素貝葉斯模型的文本分類方法在審
| 申請?zhí)枺?/td> | 201910547226.6 | 申請日: | 2019-06-24 |
| 公開(公告)號: | CN110442709A | 公開(公告)日: | 2019-11-12 |
| 發(fā)明(設(shè)計(jì))人: | 肖清林 | 申請(專利權(quán))人: | 廈門美域中央信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 北京勁創(chuàng)知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11589 | 代理人: | 王志敏 |
| 地址: | 361008 福建省廈門市軟件園*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 貝葉斯模型 文本分類 訓(xùn)練集 驗(yàn)證集 工作準(zhǔn)確性 信息關(guān)鍵詞 模型應(yīng)用 特征屬性 訓(xùn)練結(jié)果 樣本數(shù)據(jù) 效率性 分類 構(gòu)建 校正 工作量 文本 驗(yàn)證 保證 | ||
1.一種基于樸素貝葉斯模型的文本分類方法,其特征在于,方法步驟包括:
S1、收集樣本數(shù)據(jù),構(gòu)建訓(xùn)練集和驗(yàn)證集;
S2、選出常見的信息關(guān)鍵詞,確定特征屬性;
以黨員的性別、年齡、工作時間、工作崗位為特征屬性;
S3、建立樸素貝葉斯模型;
S4、利用訓(xùn)練集對樸素貝葉斯模型進(jìn)行訓(xùn)練;
根據(jù)確定的特征屬性,其中性別記為x1,年齡記為x2,工作時間記為x3,工作崗位記為x3;X代表文本,記為X=(x1,x2,x3);用Y表示類別,記為Y=(c1,c2,c3...cm);計(jì)算并收集每個文本所有屬性的聯(lián)合概率;
S5、利用驗(yàn)證集對訓(xùn)練結(jié)果進(jìn)行驗(yàn)證,并校正完善;
S6、模型應(yīng)用;
計(jì)算待分類文本中的所有P(Y/X),其中P(Y/X)最大項(xiàng)對應(yīng)的類別Y,即為文本的分類。
2.根據(jù)權(quán)利要求1所述的一種基于樸素貝葉斯模型的文本分類方法,其特征在于,在S1中,采用十折交叉驗(yàn)證方法,每次選取9份文本作為訓(xùn)練集,1份文本作為驗(yàn)證集。
3.根據(jù)權(quán)利要求1所述的一種基于樸素貝葉斯模型的文本分類方法,其特征在于,在S4中,每個文本所有屬性的聯(lián)合概率計(jì)算方法為:
其中P(Y/X)為Y的后驗(yàn)概率,P(Y)為Y的先驗(yàn)概率,P(X)表示特征概率P(X/Y)表示Y類別中X的特征概率。
4.根據(jù)權(quán)利要求1所述的一種基于樸素貝葉斯模型的文本分類方法,其特征在于,在S7中,模型判斷的準(zhǔn)則為:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門美域中央信息科技有限公司,未經(jīng)廈門美域中央信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910547226.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種基于貝葉斯網(wǎng)絡(luò)的網(wǎng)站缺陷預(yù)測方法及其實(shí)現(xiàn)系統(tǒng)
- 應(yīng)用處理方法、裝置、存儲介質(zhì)及電子設(shè)備
- 一種遮擋目標(biāo)檢測方法、電子設(shè)備、存儲介質(zhì)及系統(tǒng)
- 基于改進(jìn)先驗(yàn)概率的貝葉斯模型的設(shè)計(jì)洪水方法
- 基于非結(jié)構(gòu)數(shù)據(jù)知識與自適應(yīng)貝葉斯網(wǎng)絡(luò)的戰(zhàn)略博弈與兵棋推演系統(tǒng)
- 一種改進(jìn)貝葉斯優(yōu)化的LightGBM故障診斷方法
- 一種基于蒙特卡洛搜索算法的金融信號挖掘方法與系統(tǒng)
- 基于樸素貝葉斯機(jī)器學(xué)習(xí)模型預(yù)測存儲設(shè)備性能方法系統(tǒng)
- 一種基于稀疏貝葉斯學(xué)習(xí)的橋梁結(jié)構(gòu)損傷識別方法
- 一種以樸素貝葉斯模型和云端安全的大數(shù)據(jù)入侵檢測方法
- 一種訓(xùn)練集的拆分方法及裝置
- 一種訓(xùn)練集的訓(xùn)練方法及裝置
- 多重半監(jiān)督圖像的季節(jié)分類方法、系統(tǒng)、電子設(shè)備和介質(zhì)
- 一種基于特征分布的訓(xùn)練集生成、模型訓(xùn)練方法及裝置
- 訓(xùn)練集的獲取方法、裝置及電子設(shè)備
- 選擇模型訓(xùn)練方法、模型選擇方法、裝置及電子設(shè)備
- 一種工業(yè)物聯(lián)網(wǎng)下的模型智能訓(xùn)練方法
- 一種基于集成學(xué)習(xí)的深度學(xué)習(xí)缺陷圖像識別方法及系統(tǒng)
- 一種基于最優(yōu)訓(xùn)練集的深度學(xué)習(xí)圖像分類方法及系統(tǒng)
- 一種文本立場檢測方法
- 使用一次性交易代碼驗(yàn)證個人身份或權(quán)限的方法和裝置
- 身份驗(yàn)證方法與系統(tǒng)以及服務(wù)器數(shù)據(jù)處理方法和服務(wù)器
- 一種符合DO-178B/C A級軟件的模型驗(yàn)證方法
- 用于現(xiàn)場裝置的驗(yàn)證的裝置和方法
- 一種時間分辨激光誘導(dǎo)擊穿光譜定量方法
- 一種基于深度學(xué)習(xí)的圖形驗(yàn)證碼識別方法
- 樣本集中特征穿越的處理方法及裝置、設(shè)備與可讀介質(zhì)
- 規(guī)則發(fā)布的確定方法、裝置及系統(tǒng)
- 一種基于最優(yōu)訓(xùn)練集的深度學(xué)習(xí)圖像分類方法及系統(tǒng)
- 驗(yàn)證集損失曲線修正方法、裝置、終端設(shè)備及存儲介質(zhì)





