[發(fā)明專利]一種安全合規(guī)驅(qū)動的數(shù)據(jù)分類方法在審
| 申請?zhí)枺?/td> | 202210198596.5 | 申請日: | 2022-03-02 |
| 公開(公告)號: | CN114625873A | 公開(公告)日: | 2022-06-14 |
| 發(fā)明(設(shè)計)人: | 陳興蜀;楊敏;羅永剛;譚柳燕 | 申請(專利權(quán))人: | 四川大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F40/216;G06K9/62 |
| 代理公司: | 成都禾創(chuàng)知家知識產(chǎn)權(quán)代理有限公司 51284 | 代理人: | 劉凱 |
| 地址: | 610065 四川*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 安全 合規(guī) 驅(qū)動 數(shù)據(jù) 分類 方法 | ||
本發(fā)明公開了一種安全合規(guī)驅(qū)動的數(shù)據(jù)分類方法,首先確定適用于目標(biāo)組織的數(shù)據(jù)安全相關(guān)的法律法規(guī),政策標(biāo)準(zhǔn),并將這些政策文件作為外部知識庫,作為人工標(biāo)記數(shù)據(jù)的支撐,通用數(shù)據(jù)為法律法規(guī)中定義的或是行業(yè)共有的數(shù)據(jù),領(lǐng)域特定數(shù)據(jù)為目標(biāo)行業(yè)自身運營管理過程中產(chǎn)生的業(yè)務(wù)數(shù)據(jù);接著,通過數(shù)據(jù)字段提取、去重、中文分詞等步驟從原始的PDF文檔中得到待分類數(shù)據(jù);然后通過TF?IDF、卡方統(tǒng)計等特征工程步驟將文本表示成機器可以處理的向量形式;最后,利用Gen?DT算法訓(xùn)練分類模型,不斷優(yōu)化模型參數(shù),使之區(qū)分通用數(shù)據(jù)和領(lǐng)域數(shù)據(jù)的性能指標(biāo)達到最優(yōu)。本發(fā)明可用于有效地幫助組織安全管理人員快速識別受法律法規(guī)保護的數(shù)據(jù),同時為后續(xù)的定級提供有利的支撐。
技術(shù)領(lǐng)域
本發(fā)明涉及文本分類技術(shù)領(lǐng)域,具體為一種安全合規(guī)驅(qū)動的數(shù)據(jù)分類方法。
背景技術(shù)
大數(shù)據(jù)時代推動了諸多行業(yè)的蓬勃發(fā)展,全面激發(fā)了數(shù)據(jù)驅(qū)動分析的潛力。大數(shù)據(jù)為商 業(yè)、政治、教育、醫(yī)療等領(lǐng)域帶來了巨大的經(jīng)濟利益,滲透到了人民生活的方方面面。然而, 隨著數(shù)據(jù)量的不斷增長,其安全性和隱私性也引起了廣泛的關(guān)注。
隨著數(shù)據(jù)泄露事件的頻繁發(fā)生,人們意識到實施數(shù)據(jù)安全保護的重要性。數(shù)據(jù)分類作為 實現(xiàn)數(shù)據(jù)安全的支撐,其重要性被提到了前所未有的高度。常見的數(shù)據(jù)分類應(yīng)用場景包括新 聞主題發(fā)現(xiàn)、垃圾郵件檢測、情感分析、疾病診斷、圖像分類等,沒有研究針對安全合規(guī)分 類的相關(guān)工作。基于此背景,研究一種特定于數(shù)據(jù)安全合規(guī)的分類方法,是新形勢下的迫切 需求。
發(fā)明內(nèi)容
針對上述問題,本發(fā)明的目的在于提供一種安全合規(guī)驅(qū)動的數(shù)據(jù)分類方法,能夠使對于 存儲、傳輸或處理與公民有關(guān)的數(shù)據(jù)的行業(yè)來說,快速識別受法律法規(guī)保護的數(shù)據(jù),便于采 取適當(dāng)?shù)陌踩A(yù)防措施,以滿足合規(guī)要求;還能夠為不同行業(yè)確定本行業(yè)數(shù)據(jù)的敏感程度提 供有利的法律法規(guī)參考依據(jù)。技術(shù)方案如下:
一種安全合規(guī)驅(qū)動的數(shù)據(jù)分類方法,包括以下步驟:
步驟1:將收集到的數(shù)據(jù)進行人工打標(biāo)簽;
步驟2:數(shù)據(jù)預(yù)處理:對原始數(shù)據(jù)經(jīng)過預(yù)處理去除噪聲數(shù)據(jù),利用中文分詞工具Jieba將 所有字段進行分詞處理,形成分詞短語列表;
步驟3:特征提取:將分詞之后的短語列表,利用TF-IDF技術(shù)為每個詞生成向量,將文 本處理成機器能夠處理的形式;
步驟4:特征選擇:采用卡方統(tǒng)計量篩選出對文本分類有價值的特征;
步驟5:基于文本分類算法,將篩選之后的特征輸入機器學(xué)習(xí)算法Gen-DT中進行訓(xùn)練得 到分類模型,從而對新的、未知的數(shù)據(jù)能區(qū)分該數(shù)據(jù)屬于通用數(shù)據(jù)或是領(lǐng)域特定數(shù)據(jù)。
進一步的,所述步驟2具體為:將收集到的數(shù)據(jù)轉(zhuǎn)成word文檔,使用python-docx包提 取文檔中的所有表格,然后從固定列中提取要分類的字段;將提取出的字段中重復(fù)的字段進 行去重處理,最后調(diào)用python中文分詞工具Jieba庫,將所有字段進行分詞,形成分詞短語 列表。
更進一步的,TF-IDF計算公式為:
其中,tj表示特征詞,w(tj)是特征詞的權(quán)重,TF為詞頻,IDF為逆文檔頻率;N(tj)表示 特征詞在文檔中的頻率,n是文檔中特征詞的總數(shù),m是文檔的總數(shù),M(tj)表示包含該特征 詞的文檔數(shù)量。
更進一步的,所述卡方統(tǒng)計量計算公式為:
其中,A為類別c中包含特征詞t的文檔數(shù),B為其他類包含t的文檔數(shù),C為類別c中不包 含t的文檔數(shù),D為不包含t的其他類文檔數(shù);卡方值越大,說明t越能代表類別c。
更進一步的,所述文本分類算法Gen-DT具體包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川大學(xué),未經(jīng)四川大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210198596.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





