[發明專利]一種基于機器學習的文本數據自動分類方法在審
| 申請號: | 202010180834.0 | 申請日: | 2020-03-16 |
| 公開(公告)號: | CN111339304A | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 陳廣輝;李蓓蓓;蔡翀;陳焰華;蘇偉華 | 申請(專利權)人: | 閃捷信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06K9/62 |
| 代理公司: | 浙江千克知識產權代理有限公司 33246 | 代理人: | 裴金華 |
| 地址: | 311100 浙江省杭州市余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 文本 數據 自動 分類 方法 | ||
本發明提供一種基于機器學習的文本數據自動分類方法,涉及數據處理技術領域,包括以下步驟:S1:接收待處理的文本數據;S2:判斷文本數據的類型是否為已知類型,若是則直接執行步驟S4;反之則執行步驟S3;S3:將數據進行聚類學習,形成至少一個聚類結果;S4:對聚類結果進行人工干預修正,形成至少一個分類結果及其分類模型;S5:獲取文本數據分類結果。本發明一種基于機器學習的文本數據自動分類方法通過結合機器學習中的聚類和分類技術,再加以適當的人工干預,實現文本數據的自動分類,為數據資產管理和數據保護搭起堅實的基礎工作。
技術領域
本發明涉及數據處理技術領域,
尤其是,本發明涉及一種基于機器學習的文本數據自動分類方法。
背景技術
近年來,全球數據泄漏事件頻發。
面對頻發的數據安全事件和愈來愈嚴格的數據安全保護要求,企業都已認識到數據安全保護的重要性,安全的首要前提必然是明確我要保護什么。但企業首先面臨的是不知道自己有哪些敏感數據、都是什么類型的等等難題,為了解決這些問題,我們必須對數據進行分類。做好數據的分類,企業才能夠清晰地認識自身的數據,是企業管理并保護數據的前提。
因此為了解決上述問題,設計一種合理的基于機器學習的文本數據自動分類方法對我們來說是很有必要的。
發明內容
本發明的目的在于提供一種通過結合機器學習中的聚類和分類技術,再加以適當的人工干預,實現文本數據的自動分類,為數據資產管理和數據保護搭起堅實的基礎工作的基于機器學習的文本數據自動分類方法。
為達到上述目的,本發明采用如下技術方案得以實現的:
一種基于機器學習的文本數據自動分類方法,包括以下步驟:
S1:接收待處理的文本數據;
S2:判斷文本數據的類型是否為已知類型,若是則直接執行步驟S4;反之則執行步驟S3;
S3:將數據進行聚類學習,形成至少一個聚類結果;
S4:對聚類結果進行人工干預修正,形成至少一個分類結果及其分類模型(分類器);
S5:獲取文本數據分類結果。
作為本發明的優選,執行步驟S1時,文本數據包括純文本(txt)數據,doc(x) 、xls(x)、ppt(x)文件中的文本數據以及pdf文件中文本數據。。
作為本發明的優選,執行步驟S2之前,將接收的文本數據轉換成響應的文本類型。
作為本發明的優選,步驟S3具體包括:
S31:抽取文本數據中的文本內容;
S32:對抽取的文本內容進行中文分詞,剔除無用的停用詞;
S33:使用K-Means聚類方法進行聚類。
作為本發明的優選,執行步驟S3時,聚類的參數設置包括聚類個數。
作為本發明的優選,執行步驟S33時,聚類個數為系統自適應生成。
作為本發明的優選,步驟S4具體包括:
S41:獲取聚合結果保存為文檔,并對聚合結果設置標簽名;
S42:對文檔進行類別修正,增加關鍵詞,調整權重;
S43:對調整修正后的結果進行監督學習分類,生成分類模型。
作為本發明的優選,執行步驟S4之后,加入新的文檔,進行驗證分類結果的正確性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于閃捷信息科技有限公司,未經閃捷信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010180834.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種像素級激光脈沖檢測與測量電路
- 下一篇:一種高效型空氣分離設備





