[發明專利]一種安全合規驅動的數據分類方法在審

申請號：	202210198596.5	申請日：	2022-03-02
公開（公告）號：	CN114625873A	公開（公告）日：	2022-06-14
發明（設計）人：	陳興蜀;楊敏;羅永剛;譚柳燕	申請（專利權）人：	四川大學
主分類號：	G06F16/35	分類號：	G06F16/35;G06F40/289;G06F40/216;G06K9/62
代理公司：	成都禾創知家知識產權代理有限公司 51284	代理人：	劉凱
地址：	610065 四川***	國省代碼：	四川;51
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種安全合規驅動數據分類方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種安全合規驅動的數據分類方法，其特征在于，包括以下步驟：

步驟1：將收集到的數據進行人工打標簽；

步驟2：數據預處理：對原始數據經過預處理去除噪聲數據，利用中文分詞工具Jieba將所有字段進行分詞處理，形成分詞短語列表；

步驟3：特征提?。簩⒎衷~之后的短語列表，利用TF-IDF技術為每個詞生成向量，將文本處理成機器能夠處理的形式；

步驟4：特征選擇：采用卡方統計量篩選出對文本分類有價值的特征；

步驟5：基于文本分類算法，將篩選之后的特征輸入機器學習算法Gen-DT中進行訓練得到分類模型，從而對新的、未知的數據能區分該數據屬于通用數據或是領域特定數據。

2.如權利要求1所述的安全合規驅動的數據分類方法，其特征在于，所述步驟2具體為：將收集到的數據轉成word文檔，使用python-docx包提取文檔中的所有表格，然后從固定列中提取要分類的字段；將提取出的字段中重復的字段進行去重處理，最后調用python中文分詞工具Jieba庫，將所有字段進行分詞，形成分詞短語列表。

3.如權利要求1所述的安全合規驅動的數據分類方法，其特征在于，TF-IDF計算公式為：

其中，t_j表示特征詞，w(t_j)是特征詞的權重，TF為詞頻，IDF為逆文檔頻率；N(t_j)表示特征詞在文檔中的頻率，n是文檔中特征詞的總數，m是文檔的總數，M(t_j)表示包含該特征詞的文檔數量。

4.如權利要求1所述的安全合規驅動的數據分類方法，其特征在于，所述卡方統計量計算公式為：

其中，A為類別c中包含特征詞t的文檔數，B為其他類包含t的文檔數，C為類別c中不包含t的文檔數，D為不包含t的其他類文檔數；卡方值越大，說明t越能代表類別c。

5.如權利要求1所述的安全合規驅動的數據分類方法，其特征在于，所述文本分類算法Gen-DT具體包括：

步驟5.1：生成初始決策樹：根據訓練樣本集，使用基尼指數進行特征選擇并進行預剪枝，構造決策樹T；

步驟5.2：增強決策樹的泛化能力：設置決策路徑準確率閾值Th，使用測試集對決策樹進行效果評估，并計算每個葉子節點的準確率，將低于閾值的樣本取出使用SVM模型訓練，并將節點更新為SVM節點，得到泛化能力增強的決策樹。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于四川大學，未經四川大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202210198596.5/1.html，轉載請聲明來源鉆瓜專利網。