[發明專利]一種基于改進樸素貝葉斯的電力系統文本數據分類方法在審
| 申請號: | 202011203845.2 | 申請日: | 2020-11-02 |
| 公開(公告)號: | CN112215002A | 公開(公告)日: | 2021-01-12 |
| 發明(設計)人: | 陳松波;郭創新 | 申請(專利權)人: | 浙江大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216;G06F16/35;G06K9/62;G06Q50/06 |
| 代理公司: | 杭州求是專利事務所有限公司 33200 | 代理人: | 邱啟旺 |
| 地址: | 310058 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 改進 樸素 貝葉斯 電力系統 文本 數據 分類 方法 | ||
本發明公開了一種基于改進樸素貝葉斯的電力系統文本數據分類方法,該方法首先獲取電力違章操作文本及對應類別,然后對文本數據進行預處理得到特征字典并生成特征向量,再根據特征向量構建分類模型,最后利用分類模型預測待分類文本。本發明可以直接應用于電力系統的原始文本數據,快速、準確的將不同類型的文本分類區分開來;具有步驟簡單,時延小,可靠性高等特點;對于不同部門的不同類型的電力文本數據,都可以進行及時有效的檢測。
技術領域
本發明屬于電力系統文本分類的領域,尤其涉及一種基于改進樸素貝葉斯的電力系統文本數據分類方法。
背景技術
為確保電力系統安全運行,供電部門每年都要進行安全大檢查,記錄違規行為。電力文本數據具有的數據體量大、類型豐富、信息密度低、更新速度快的特征。然而,手工分析這些數據將耗費大量的人力成本。因此,對文本數據進行預處理,如文本分類具有重要的現實意義。
文本分類是將一組輸入文本劃分為兩個或多個類,其中每個文本可以屬于一個或多個類。采用基于機器學習的方法,對標注文本進行自動分類訓練,具有較高的分析能力。目前,主要的機器學習方法包括傳統樸素貝葉斯(ConventionalBayes,CNB),決策樹(Decision Tree,DT),K近鄰(K-nearest neighbor,KNN)和支持向量機(Support VectorMachine,SVM)。
目前,關于英語文本分類的研究很多。相對而言,中文文本分類由于起步晚、難度大,仍處于起步階段。中文文本分類的難點在于文本的預處理和分類器的改進,與英文文本相比,中文文本沒有如英文單詞之間的空格以區分兩個單詞,分詞難度較大,如“南京市長江大橋”可以被分為“南京市/長江大橋”或“南京/市長/江大橋”,不同分詞方法將引起歧義。此外,文本作為一種非結構數據,本身存在諸多難點需要克服。文本作為語言的一種表示形式以及種類多樣,不同語種的語法不同,無統一且機器可理解的形式與規則。從語言學的角度看,文本本身存在諸多語言學現象,使得理解過程中容易出現歧義和模糊,為機器理解增添難度。因此,如何提高文本分類的準確性是中文文本分類的關鍵。
在文本分類中,文本通常被表示為計算機輸入的特征向量。該方法易于實現,對文本內容的表達能力強,但文本的矢量化會帶來高維的問題,隨著文本數量的增加而加劇,高維問題主要是由于特征空間中的特征項過多,高維度的運算一方面會增加分類計算的復雜度,另一方面會影響分類精度。這一問題通常通過去掉部分停用詞(如數字,介詞等)和采用更具代表性的詞作為特征詞來解決。
傳統上,TF-IDF(term frequency–inverse document frequency)算法是一種基于統計的計算方法,全稱是詞頻-逆文檔頻率,通常用于評估文檔集中單詞對文檔的重要性。
為了解決上述問題,本發明采用JIEBA分詞法對中文文本進行分詞處理,并改進了傳統的TF-IDF算法,結合改進樸素貝葉斯算法(ImprovingBayes,INB),提出了一種基于改進詞頻-逆文檔頻率(Improving Term Frequency-Inverse Document Frequency,ITF-IDF)的樸素貝葉斯分類方法。
發明內容
本發明的目的在于針對現有技術的不足,提供一種基于改進樸素貝葉斯的電力系統文本數據分類方法。本發明準確度高、可靠性高,且直接作用于電力系統原始文本數據。
本發明的目的是通過以下技術方案來實現的:一種基于改進樸素貝葉斯的電力系統文本數據分類方法,包括以下步驟:
(1)獲取電力違章操作文本數據,標記對應的違章操作類別;
(2)根據文本類型特征進行數據預處理:利用結巴分詞工具將步驟(1)獲取的文本進行分詞,再去除停用詞得到特征字典;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學,未經浙江大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011203845.2/2.html,轉載請聲明來源鉆瓜專利網。





