[發(fā)明專利]一種數(shù)據(jù)分類分級模型的訓練方法、裝置及電子設(shè)備有效
| 申請?zhí)枺?/td> | 202011631556.2 | 申請日: | 2020-12-30 |
| 公開(公告)號: | CN112966100B | 公開(公告)日: | 2022-05-31 |
| 發(fā)明(設(shè)計)人: | 孫亞東;王志海;王聞馨;喻波;魏力 | 申請(專利權(quán))人: | 北京明朝萬達科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/126;G06F16/28;G06K9/62 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100142 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 分類 分級 模型 訓練 方法 裝置 電子設(shè)備 | ||
本發(fā)明提供了一種數(shù)據(jù)分類分級模型的訓練方法、裝置、及電子設(shè)備。所述方法包括:從預設(shè)語料庫中挑選m份語料作為訓練樣本;根據(jù)預設(shè)的數(shù)據(jù)分類分級標準對m份語料進行預處理,將每份語料轉(zhuǎn)換為對應(yīng)的數(shù)據(jù)模型,并確定m份語料各自對應(yīng)的數(shù)據(jù)類別和數(shù)據(jù)級別;對每份語料對應(yīng)的數(shù)據(jù)模型進行編碼,得到每份語料對應(yīng)的特征矩陣;將m份語料對應(yīng)的特征矩陣輸入到預先建立的數(shù)據(jù)分類分級模型中,得到m份語料各自對應(yīng)的預測類別和預測級別;確定數(shù)據(jù)分類分級模型對應(yīng)的混淆矩陣;重復執(zhí)行上述步驟,直至所述混淆矩陣滿足預設(shè)條件,得到訓練完成的分類分級模型。本發(fā)明能夠根據(jù)預設(shè)的數(shù)據(jù)分類分級標準進行模型訓練,提高了數(shù)據(jù)分類分級模型的準確度。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)安全領(lǐng)域,具體地涉及一種數(shù)據(jù)分類分級模型的訓練方 法、裝置及電子設(shè)備。
背景技術(shù)
隨著大數(shù)據(jù)技術(shù)的發(fā)展,企業(yè)將各種數(shù)據(jù)資源形成統(tǒng)一的數(shù)據(jù)資源池, 并授權(quán)給不同用戶使用,這在滿足各個用戶的數(shù)據(jù)使用需求的同時,也增加 了敏感數(shù)據(jù)泄漏的風險。傳統(tǒng)基于堵漏方式的邊界數(shù)據(jù)防護已經(jīng)無法滿足企 業(yè)數(shù)據(jù)安全管控需求。
為了解決這一問題,現(xiàn)有技術(shù)通常采用數(shù)據(jù)防泄漏系統(tǒng)進行數(shù)據(jù)安全管 控,以防止企業(yè)敏感數(shù)據(jù)泄漏。數(shù)據(jù)防泄漏系統(tǒng)采用定義敏感數(shù)據(jù)關(guān)鍵字的 方式,識別待發(fā)送數(shù)據(jù)中是否包括已定義的敏感數(shù)據(jù),如定義身份證號、人 員姓名為敏感數(shù)據(jù),當檢測到待發(fā)送數(shù)據(jù)中存在敏感數(shù)據(jù)時,對敏感數(shù)據(jù)進 行脫敏處理之后再進行數(shù)據(jù)發(fā)送。但是如果待發(fā)送數(shù)據(jù)中包括財務(wù)數(shù)據(jù)、工 藝標準、質(zhì)量控制等較為復雜的信息,那么依靠關(guān)鍵字定義的數(shù)據(jù)防泄漏系 統(tǒng)即無法準確識別出哪些是敏感數(shù)據(jù),哪些是非敏感數(shù)據(jù),從而導致數(shù)據(jù)泄漏。
發(fā)明內(nèi)容
本發(fā)明提供一種數(shù)據(jù)分類分級模型的訓練方法、裝置、電子設(shè)備及存儲 介質(zhì),以解決現(xiàn)有技術(shù)中數(shù)據(jù)防泄漏系統(tǒng)的識別數(shù)據(jù)的準確度差的問題。
根據(jù)本發(fā)明的第一方面,提供了一種數(shù)據(jù)分類分級模型的訓練方法,所 述方法包括:
從預設(shè)語料庫中挑選m份語料作為訓練樣本,每份語料包括至少一個數(shù) 據(jù)實體,每個數(shù)據(jù)實體包括至少一個屬性特征;
根據(jù)預設(shè)的數(shù)據(jù)分類分級標準對所述m份語料進行預處理,將每份語料 轉(zhuǎn)換為對應(yīng)的數(shù)據(jù)模型,以及確定m份語料各自對應(yīng)的數(shù)據(jù)類別和數(shù)據(jù)級 別;
根據(jù)每份語料中包含的數(shù)據(jù)實體和所述數(shù)據(jù)實體包含的屬性特征,對每 份語料對應(yīng)的數(shù)據(jù)模型進行編碼,得到每份語料對應(yīng)的特征矩陣;
將所述m份語料對應(yīng)的特征矩陣輸入到預先建立的數(shù)據(jù)分類分級模型 中,得到m份語料各自對應(yīng)的預測類別和預測級別;
根據(jù)所述m份語料各自對應(yīng)的數(shù)據(jù)類別和數(shù)據(jù)級別,以及所述m份語 料各自對應(yīng)的預測類別和預測級別,確定所述數(shù)據(jù)分類分級模型對應(yīng)的混淆 矩陣;
重復執(zhí)行上述步驟,直至所述數(shù)據(jù)分類分級模型對應(yīng)的混淆矩陣滿足預 設(shè)條件,得到訓練完成的數(shù)據(jù)分類分級模型。
根據(jù)本發(fā)明的第二方面,提供了一種數(shù)據(jù)分類分級模型的訓練裝置,所 述裝置包括:
訓練樣本挑選模塊,用于從預設(shè)語料庫中挑選m份語料作為訓練樣本, 每份語料包括至少一個數(shù)據(jù)實體,每個數(shù)據(jù)實體包括至少一個屬性特征;
語料預處理模塊,用于根據(jù)預設(shè)的數(shù)據(jù)分類分級標準對所述m份語料進 行預處理,將每份語料轉(zhuǎn)換為對應(yīng)的數(shù)據(jù)模型,以及確定m份語料各自對應(yīng) 的數(shù)據(jù)類別和數(shù)據(jù)級別;
數(shù)據(jù)編碼模塊,用于根據(jù)每份語料中包含的數(shù)據(jù)實體和所述數(shù)據(jù)實體包 含的屬性特征,對每份語料對應(yīng)的數(shù)據(jù)模型進行編碼,得到每份語料對應(yīng)的 特征矩陣;
數(shù)據(jù)輸入模塊,用于將所述m份語料對應(yīng)的特征矩陣輸入到預先建立的 數(shù)據(jù)分類分級模型中,得到m份語料各自對應(yīng)的預測類別和預測級別;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京明朝萬達科技股份有限公司,未經(jīng)北京明朝萬達科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011631556.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





