[發(fā)明專利]一種從非結(jié)構(gòu)化數(shù)據(jù)中提取敏感信息的方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110304719.4 | 申請(qǐng)日: | 2021-03-22 |
| 公開(kāi)(公告)號(hào): | CN113065330A | 公開(kāi)(公告)日: | 2021-07-02 |
| 發(fā)明(設(shè)計(jì))人: | 黃誠(chéng);郭勇延;劉嘉勇 | 申請(qǐng)(專利權(quán))人: | 四川大學(xué) |
| 主分類號(hào): | G06F40/211 | 分類號(hào): | G06F40/211;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06F16/33 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 610065 四川*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)構(gòu) 數(shù)據(jù) 提取 敏感 信息 方法 | ||
本申請(qǐng)涉及信息安全技術(shù)領(lǐng)域,提供了一種非結(jié)構(gòu)化數(shù)據(jù)中提取敏感信息的方法。所述敏感信息涵蓋GB/T 35273?2017《信息安全技術(shù)個(gè)人信息安全規(guī)范》中包含的個(gè)人敏感信息類型。所述方法包括:使用解析工具對(duì)各種非結(jié)構(gòu)文檔文本進(jìn)行解析獲取其中的文本內(nèi)容。對(duì)非結(jié)構(gòu)化文本進(jìn)行預(yù)處理,具體包括特殊信息替換、文本清洗和文本分割得到文本序列。采用基于深度學(xué)習(xí)的序列標(biāo)注模型(BERT?BiLSTM?Attention)對(duì)文本序列中的敏感信息進(jìn)行自動(dòng)標(biāo)注。所述方法結(jié)合了基于文本內(nèi)容和基于上下文語(yǔ)義分析技術(shù),可以更加全面、準(zhǔn)確的提取敏感信息。
技術(shù)領(lǐng)域
本發(fā)明涉及一種從非結(jié)構(gòu)化數(shù)據(jù)中提取敏感信息的方法,屬于信息安全技術(shù)領(lǐng)域。
背景技術(shù)
隨著互聯(lián)網(wǎng)的普及和人們對(duì)互聯(lián)網(wǎng)的依賴,大量涉及個(gè)人隱私的敏感信息在互聯(lián)網(wǎng)上存儲(chǔ)和傳播,大規(guī)模的敏感信息泄露事件層出不窮。這些信息一旦被泄露、非法提供或?yàn)E用可能導(dǎo)致重大的合同或法律責(zé)任,嚴(yán)重?fù)p害個(gè)人形象和聲譽(yù),危及人身和財(cái)產(chǎn)安全。然而,包含敏感信息的數(shù)據(jù)大多是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或者不完整的非結(jié)構(gòu)化數(shù)據(jù),比如文本、圖像、音頻、視頻等各種格式和類型的文件。所以,對(duì)敏感信息的保護(hù)首先要做到的是找到一種敏感信息提取方法,從而可以在大規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)中全面、快速、準(zhǔn)確的提取敏感信息,然后通過(guò)相關(guān)的隱私保護(hù)策略對(duì)其加以保護(hù)。
近年來(lái),對(duì)于敏感信息泄露的識(shí)別一直是學(xué)術(shù)界研究的熱點(diǎn)。目前現(xiàn)有的敏感信息識(shí)別技術(shù)主要可以歸為兩類,分別是基于文本內(nèi)容分析和基于上下文語(yǔ)義分析。基于文本內(nèi)容分析是對(duì)存儲(chǔ)和傳輸中的數(shù)據(jù),通常是對(duì)非結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容本身進(jìn)行檢測(cè),比如正則匹配技術(shù)、數(shù)據(jù)指紋技術(shù)。基于上下文語(yǔ)義分析則是通過(guò)對(duì)待檢測(cè)的數(shù)據(jù)周圍相關(guān)的上下文信息進(jìn)行上下文分析,常見(jiàn)的技術(shù)包括機(jī)器學(xué)習(xí)、自然語(yǔ)言處理技術(shù)。
上述兩種敏感信息提取方法,基于文本內(nèi)容分析技術(shù)雖然可以對(duì)敏感信息進(jìn)行精確的提取,但是該技術(shù)適用的敏感信息非常有限,要求信息具有明顯的特征,例如可以構(gòu)建正則表達(dá)式、特定的數(shù)據(jù)指紋等。基于上下文語(yǔ)義分析通常基于機(jī)器學(xué)習(xí),利用數(shù)據(jù)上下文特征提取數(shù)據(jù)中的敏感信息,該方法無(wú)需直接對(duì)敏感信息進(jìn)行檢測(cè),但是收集上下文信息具有一定難度。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是提供一種從非結(jié)構(gòu)化數(shù)據(jù)中提取敏感信息的方法。該方法融合了基于文本內(nèi)容分析和基于上下文語(yǔ)義分析。在基于文本內(nèi)容分析,對(duì)信息安全領(lǐng)域具有特殊規(guī)則的信息預(yù)處理為自然語(yǔ)言形式;在基于上下文語(yǔ)義分析方面,構(gòu)建了一個(gè)基于深度學(xué)習(xí)的序列標(biāo)注模型(BERT-BiLSTM-Attention),其中采用動(dòng)態(tài)詞向量BERT對(duì)敏感信息中一詞多義的特殊情況根據(jù)語(yǔ)境生成不同的詞向量,并采用BiLSTM-Attention模型提取文本序列中的上下文特征,從而標(biāo)注文本中的敏感信息。該方法能夠在海量非結(jié)構(gòu)化數(shù)據(jù)中準(zhǔn)確、高效的提取敏感信息。
為了達(dá)到上述目的,本發(fā)明提供一種從非結(jié)構(gòu)化數(shù)據(jù)中提取敏感信息的方法。根據(jù)國(guó)家標(biāo)準(zhǔn)GB/T 35273-2017《信息安全技術(shù)個(gè)人信息安全規(guī)范》,所述敏感信息的類型具體包括個(gè)人基本資料,個(gè)人身份信息,網(wǎng)絡(luò)身份標(biāo)識(shí)信息,個(gè)人健康生理信息,個(gè)人教育工作信息,個(gè)人財(cái)產(chǎn)信息,個(gè)人通信信息,聯(lián)系人信息,個(gè)人上網(wǎng)記錄,個(gè)人常用設(shè)備信息,個(gè)人位置信息。
所述方法包括:
步驟1、使用預(yù)處理解析工具從文本文檔中解析并提取出非結(jié)構(gòu)化文本。所述文本文檔具體包括純文本文檔和富文本文檔;
步驟2、對(duì)步驟1所述的非結(jié)構(gòu)化文本進(jìn)行預(yù)處理:對(duì)文本中的特殊信息進(jìn)行替換、文本清洗和文本分割得到文本序列;
步驟3、構(gòu)建基于深度學(xué)習(xí)的序列標(biāo)注模型對(duì)文本序列中的敏感信息進(jìn)行標(biāo)注。所述序列標(biāo)注模型稱為BERT-BiLSTM-Attention模型。通過(guò)BERT-BiLSTM-Attention模型對(duì)步驟2所述的文本序列中的敏感信息進(jìn)行標(biāo)注。
可選地,所述步驟2中文本的預(yù)處理過(guò)程包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川大學(xué),未經(jīng)四川大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110304719.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 可測(cè)量片外橫向偏導(dǎo)的橫向偏差三敏感柵叉指金屬應(yīng)變片
- 可測(cè)量偏置位置軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測(cè)量偏置敏感柵中心軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測(cè)量偏置敏感柵外側(cè)軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測(cè)量偏置敏感柵中心橫向偏導(dǎo)的橫向偏差三敏感柵叉指金屬應(yīng)變片
- 三軸硅微加速度計(jì)
- 三軸硅微加速度計(jì)
- 一種用于大噸位傳感器的自定位應(yīng)變計(jì)
- 用于簡(jiǎn)化懸臂梁傳感器的全橋箔式電阻應(yīng)變計(jì)
- 一種敏感文件管理方法





