[發(fā)明專利]一種基于樸素貝葉斯的文本分類方法有效
| 申請?zhí)枺?/td> | 201710832802.2 | 申請日: | 2017-09-15 |
| 公開(公告)號: | CN107391772B | 公開(公告)日: | 2020-12-01 |
| 發(fā)明(設(shè)計)人: | 簡海英;呂磊;鄧丕;楊謙;王海;袁志剛;陳煥章;吳紅;張慶;高峰;劉悠;張威 | 申請(專利權(quán))人: | 國網(wǎng)四川省電力公司眉山供電公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/279;G06K9/62;G06Q50/06 |
| 代理公司: | 成都行之專利代理事務(wù)所(普通合伙) 51220 | 代理人: | 梁田 |
| 地址: | 620000 四川*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 樸素 貝葉斯 文本 分類 方法 | ||
本發(fā)明公開了一種基于樸素貝葉斯的文本分類方法,包括:步驟1:將待分類文本利用分詞工具形成特征向量,將特征向量與常用詞進行比較,去掉待分類文本中無意義的詞語;對待分類文本中出現(xiàn)的每一個單詞si進行權(quán)重wi設(shè)置;得到P(w1,...,wn)在訓練文本集Di中出現(xiàn)的概率集Q(w1,...,wn);將Q(w1,...,wn)中屬性相乘得到P(w1,...,wn)在訓練文本集Di中出現(xiàn)的先驗概率P(w|Di);步驟3:訓練文本集Di中的文件數(shù)量除以整個訓練文本集的總數(shù)得到先驗概率P(Di),P(Di)*P(x|Di)得到P(w1,...,wn)在訓練文本集Di中的后驗概率P(Di|w),步驟4:重復(fù)步驟2、3,計算出所有后驗概率;步驟5:在步驟4的結(jié)果中比較出最大的后驗概率P(Di),Di類為P(w1,...,wn)所屬類別,本方法的性能更好,在電力用戶訴求文本分類問題中具備很好的實踐應(yīng)用價值。
技術(shù)領(lǐng)域
本發(fā)明涉及鐵路接觸網(wǎng)檢測領(lǐng)域,具體地,涉及一種基于樸素貝葉斯的文本分類方法。
背景技術(shù)
電力客服部門每天都要面對大量用戶的訴求信息。傳統(tǒng)模式下,接線員將用戶的訴求信息通過主觀判斷進行分類,之后交付給相應(yīng)部門進行處理。這種方式需要人工逐條查看確認,信息化、智能化嚴重不足。
電力用戶訴求文本分類方面的內(nèi)容非常豐富,這些內(nèi)容常見于信息檢索、機器學習、知識挖掘與發(fā)現(xiàn)、模式識別、智能電網(wǎng)、電力科學與應(yīng)用等各種國際會議及相關(guān)的期刊或雜志。比較有代表性的綜述文章有Sebastiani的“Machine Learning in AutomatedText Categorization和Aas的“Text Categorization:A Survey。目前最常使用的文本分類算法有:kNN分類算法、樸素貝葉斯分類算法、支持向量機、神經(jīng)網(wǎng)絡(luò)等。其中,樸素貝葉斯算法由于其良好的執(zhí)行速率和低復(fù)雜度而成為最為流行的數(shù)據(jù)挖掘算法之一。然而,樸素貝葉斯算法有一個嚴重的缺點:假設(shè)各屬性之間相互獨立。但是在電力行業(yè)的用戶訴求文本中,各屬性之間往往存在依賴關(guān)系。因此,傳統(tǒng)的樸素貝葉斯算法并不能在電力行業(yè)的客戶訴求信息分類問題中取得理想效果。
發(fā)明內(nèi)容
本發(fā)明提供了一種基于樸素貝葉斯的文本分類方法,解決了現(xiàn)有的文本分類算法效果不理想的技術(shù)問題,本申請中的方法克服電力用戶訴求信息難以滿足傳統(tǒng)樸素貝葉斯中屬性獨立假設(shè)這一不足,方法的性能更好,在電力用戶訴求文本分類問題中具備很好的實踐應(yīng)用價值。
本發(fā)明提出的基于樸素貝葉斯的文本分類方法可以解決現(xiàn)有技術(shù)中缺點,能夠用于對海量用戶訴求進行實時的自動輿情分析、輿情匯總,并識別其中的關(guān)鍵輿情信息,及時反饋到相關(guān)人員建立應(yīng)急響應(yīng),為正確輿論導(dǎo)向及收集用戶意見提供直接支持的一套信息化平臺。
為實現(xiàn)上述發(fā)明目前,本申請?zhí)峁┝艘环N基于樸素貝葉斯的文本分類方法,所述方法包括:
步驟1:將待分類文本利用分詞工具形成特征向量,將特征向量與常用詞進行比較,去掉待分類文本中無意義的詞語;對待分類文本中出現(xiàn)的每一個單詞si進行權(quán)重wi設(shè)置;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國網(wǎng)四川省電力公司眉山供電公司,未經(jīng)國網(wǎng)四川省電力公司眉山供電公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710832802.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種圖像特效的生成方法和裝置
- 下一篇:一種在線文本管理方法和裝置
- 一種自主融合先驗知識的貝葉斯網(wǎng)絡(luò)方法
- 構(gòu)建解決組合爆炸問題的級聯(lián)貝葉斯網(wǎng)絡(luò)的方法
- 一種可重構(gòu)系統(tǒng)貝葉斯網(wǎng)構(gòu)建方法
- 一種基于貝葉斯網(wǎng)絡(luò)的網(wǎng)站缺陷預(yù)測方法及其實現(xiàn)系統(tǒng)
- 應(yīng)用處理方法、裝置、存儲介質(zhì)及電子設(shè)備
- 一種遮擋目標檢測方法、電子設(shè)備、存儲介質(zhì)及系統(tǒng)
- 基于貝葉斯網(wǎng)絡(luò)推理模型的犯罪重建方法及裝置
- 利用憶阻器本征噪聲實現(xiàn)貝葉斯神經(jīng)網(wǎng)絡(luò)的方法及裝置
- 基于面向?qū)ο筘惾~斯網(wǎng)絡(luò)的中央空調(diào)系統(tǒng)故障診斷方法
- 一種基于貝葉斯神經(jīng)網(wǎng)絡(luò)權(quán)重約束的圖像分類方法





