[發明專利]一種基于改進樸素貝葉斯的電力系統文本數據分類方法在審
| 申請號: | 202011203845.2 | 申請日: | 2020-11-02 |
| 公開(公告)號: | CN112215002A | 公開(公告)日: | 2021-01-12 |
| 發明(設計)人: | 陳松波;郭創新 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F16/35;G06K9/62;G06Q50/06 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 樸素 貝葉斯 電力系統 文本 數據 分類 方法 | ||
1.一種基于改進樸素貝葉斯的電力系統文本數據分類方法,其特征在于,包括以下步驟:
(1)獲取電力違章操作文本數據,標記對應的違章操作類別。
(2)根據文本類型特征進行數據預處理:利用結巴分詞工具將步驟(1)獲取的文本進行分詞,再去除停用詞得到特征字典。
(3)將步驟(1)獲取的文本分別與步驟(2)得到的特征字典進行比較生成d維特征向量;所述d維特征向量的長度為特征字典中的特征詞匯個數d,元素為文本中各特征詞匯出現次數。
(4)構建分類模型,輸入為步驟(3)生成的d維特征向量,模型如下:
其中,A表示文本,ci為文本A的分類標簽,P(ci|A)是文本A的分類標簽為ci的概率;P(ci)是ci類標簽的概率分布;aj是文本A中出現的第j個特征詞匯,j=1~k,k是該文本中特征詞匯個數;P(aj|ci)表示分類標簽為ci的文本中單詞aj出現的概率;wij為權重:
其中,ITFij表示特征詞匯aj在ci類文本中出現次數與除了aj的所有特征單詞在文本中出現次數的比例,IIDFij表示ci類文本中包含特征詞匯的文本數與不包含特征詞匯的文本總數的比率:
其中,K是調整因子,mci是ci類文本的數目,nzj是第z個ci類文本中aj出現的次數,const是常量;Numd(j,i)是包含aj的ci類文本的數量。
(5)將待分類電力系統文本數據輸入步驟(4)構建的分類模型,計算出文本屬于不同分類ci的概率集合P(C|A),集合中的最大值對應的類別標簽ci是模型預測的違章操作類別;其中,C為ci的集合,P(C|A)為P(ci|A)的集合。
2.如權利要求1所述基于改進樸素貝葉斯的電力系統文本數據分類方法,其特征在于,所述違章操作類別包括人員行為違章、工器具違章、安全活動違章、監管違章和兩票違章等。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011203845.2/1.html,轉載請聲明來源鉆瓜專利網。





