[發明專利]一種安全合規驅動的數據分類方法在審
| 申請號: | 202210198596.5 | 申請日: | 2022-03-02 |
| 公開(公告)號: | CN114625873A | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 陳興蜀;楊敏;羅永剛;譚柳燕 | 申請(專利權)人: | 四川大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F40/216;G06K9/62 |
| 代理公司: | 成都禾創知家知識產權代理有限公司 51284 | 代理人: | 劉凱 |
| 地址: | 610065 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 安全 合規 驅動 數據 分類 方法 | ||
1.一種安全合規驅動的數據分類方法,其特征在于,包括以下步驟:
步驟1:將收集到的數據進行人工打標簽;
步驟2:數據預處理:對原始數據經過預處理去除噪聲數據,利用中文分詞工具Jieba將所有字段進行分詞處理,形成分詞短語列表;
步驟3:特征提?。簩⒎衷~之后的短語列表,利用TF-IDF技術為每個詞生成向量,將文本處理成機器能夠處理的形式;
步驟4:特征選擇:采用卡方統計量篩選出對文本分類有價值的特征;
步驟5:基于文本分類算法,將篩選之后的特征輸入機器學習算法Gen-DT中進行訓練得到分類模型,從而對新的、未知的數據能區分該數據屬于通用數據或是領域特定數據。
2.如權利要求1所述的安全合規驅動的數據分類方法,其特征在于,所述步驟2具體為:將收集到的數據轉成word文檔,使用python-docx包提取文檔中的所有表格,然后從固定列中提取要分類的字段;將提取出的字段中重復的字段進行去重處理,最后調用python中文分詞工具Jieba庫,將所有字段進行分詞,形成分詞短語列表。
3.如權利要求1所述的安全合規驅動的數據分類方法,其特征在于,TF-IDF計算公式為:
其中,tj表示特征詞,w(tj)是特征詞的權重,TF為詞頻,IDF為逆文檔頻率;N(tj)表示特征詞在文檔中的頻率,n是文檔中特征詞的總數,m是文檔的總數,M(tj)表示包含該特征詞的文檔數量。
4.如權利要求1所述的安全合規驅動的數據分類方法,其特征在于,所述卡方統計量計算公式為:
其中,A為類別c中包含特征詞t的文檔數,B為其他類包含t的文檔數,C為類別c中不包含t的文檔數,D為不包含t的其他類文檔數;卡方值越大,說明t越能代表類別c。
5.如權利要求1所述的安全合規驅動的數據分類方法,其特征在于,所述文本分類算法Gen-DT具體包括:
步驟5.1:生成初始決策樹:根據訓練樣本集,使用基尼指數進行特征選擇并進行預剪枝,構造決策樹T;
步驟5.2:增強決策樹的泛化能力:設置決策路徑準確率閾值Th,使用測試集對決策樹進行效果評估,并計算每個葉子節點的準確率,將低于閾值的樣本取出使用SVM模型訓練,并將節點更新為SVM節點,得到泛化能力增強的決策樹。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川大學,未經四川大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210198596.5/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





