[發(fā)明專利]一種從非結(jié)構(gòu)化數(shù)據(jù)中提取敏感信息的方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110304719.4 | 申請(qǐng)日: | 2021-03-22 |
| 公開(公告)號(hào): | CN113065330A | 公開(公告)日: | 2021-07-02 |
| 發(fā)明(設(shè)計(jì))人: | 黃誠;郭勇延;劉嘉勇 | 申請(qǐng)(專利權(quán))人: | 四川大學(xué) |
| 主分類號(hào): | G06F40/211 | 分類號(hào): | G06F40/211;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06F16/33 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610065 四川*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)構(gòu) 數(shù)據(jù) 提取 敏感 信息 方法 | ||
1.一種從非結(jié)構(gòu)化數(shù)據(jù)中提取敏感信息的方法,其特征在于,所述方法能夠從非結(jié)構(gòu)化數(shù)據(jù)中提取敏感信息;所述敏感信息涵蓋GB/T 35273-2017 《信息安全技術(shù) 個(gè)人信息安全規(guī)范》中涉及的個(gè)人敏感信息,具體類型包括個(gè)人基本資料,個(gè)人身份信息,網(wǎng)絡(luò)身份標(biāo)識(shí)信息,個(gè)人健康生理信息,個(gè)人教育工作信息,個(gè)人財(cái)產(chǎn)信息,個(gè)人通信信息,聯(lián)系人信息,個(gè)人上網(wǎng)記錄,個(gè)人常用設(shè)備信息,個(gè)人位置信息;
所述方法包括:
步驟1、使用預(yù)處理解析工具從文本文檔中解析并提取出非結(jié)構(gòu)化文本;
步驟2、對(duì)非結(jié)構(gòu)化文本進(jìn)行預(yù)處理:對(duì)文本中的特殊信息進(jìn)行替換、文本清洗和文本分割得到文本序列;
步驟3、采用基于深度學(xué)習(xí)的序列標(biāo)注模型(BERT-BiLSTM-Attention)對(duì)文本序列中的敏感信息進(jìn)行標(biāo)注。
2.根據(jù)權(quán)利要求1所述的非結(jié)構(gòu)化數(shù)據(jù)中敏感信息提取方法,其特征在于,所述步驟2中,數(shù)據(jù)預(yù)處理的過程為:
步驟21、特殊信息替換:所述特殊信息為信息安全領(lǐng)域中具有特殊格式,構(gòu)造出正則表達(dá)式的信息:IP地址、MAC地址、API KEY/Token、密鑰、郵箱地址、URL,將這類信息使用正則匹配提取并替換為“信息類型 信息屬性”的自然語言形式;
步驟22、文本清洗:刪除所有的非ASCII碼的字符并且刪除每行開頭和結(jié)束位置的空白符;將大寫字母轉(zhuǎn)化為小寫字母;對(duì)于英文文本的預(yù)處理,使用NLTK庫對(duì)每個(gè)詞進(jìn)行詞形還原;
步驟23、文本分割:文本的分句按行將文本分為若干個(gè)句子;對(duì)文本中的每個(gè)句子使用WordPiece方法分詞,最終得到文檔的文本序列集X。
3.根據(jù)權(quán)利要求1所述的非結(jié)構(gòu)化數(shù)據(jù)中敏感信息提取方法,其特征在于,所述步驟3中,序列標(biāo)注模型(BERT-BiLSTM-Attention)提取敏感信息的過程包括:
步驟31、詞嵌入層:將步驟2所述的文本序列X輸入動(dòng)態(tài)詞向量模型BERT,得到文本序列對(duì)應(yīng)的詞向量E;
步驟32、雙向LSTM層:將步驟31所述的詞向量輸入雙向LSTM層提取文本上下文特征,產(chǎn)生對(duì)應(yīng)的隱狀態(tài)表示H;
步驟33、Attention層:將步驟32所述的隱狀態(tài)輸入Attention層,提取文本序列中的關(guān)鍵信息,生成新的隱狀態(tài)表示L;
步驟34、全連接層:將步驟33所述的新的隱狀態(tài)表示作為全連接層的輸入,使用激活函數(shù)softmax計(jì)算每個(gè)詞的類別概率分布,得到對(duì)應(yīng)的標(biāo)注標(biāo)簽,標(biāo)注策略采用BIO策略,B為敏感信息的起始位置,I為敏感信息其他部分,O為非敏感信息;
步驟35、根據(jù)BIO標(biāo)注原則和步驟34所述的標(biāo)注標(biāo)簽,提取其中的敏感信息實(shí)體,得到敏感信息抽取模型。
4.根據(jù)權(quán)利要求1所述的基于上下文的敏感信息提取方法,其特征在于,BERT-BiLSTM-Attention模型的訓(xùn)練過程包括:
步驟a、收集包含敏感信息的文檔,按照步驟2所述的方法進(jìn)行預(yù)處理,人工對(duì)其中的敏感信息按照BIO策略進(jìn)行標(biāo)注,得到訓(xùn)練集;
步驟b、采用BERT預(yù)訓(xùn)練模型對(duì)步驟a所述的訓(xùn)練集文本序列生成詞向量;
步驟c、訓(xùn)練BiLSTM-Attention序列標(biāo)注模型;
步驟d、對(duì)模型進(jìn)行評(píng)估,通過參數(shù)調(diào)整改進(jìn)模型;
步驟e、結(jié)束訓(xùn)練,輸出訓(xùn)練好的序列標(biāo)注模型。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于四川大學(xué),未經(jīng)四川大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110304719.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 可測量片外橫向偏導(dǎo)的橫向偏差三敏感柵叉指金屬應(yīng)變片
- 可測量偏置位置軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測量偏置敏感柵中心軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測量偏置敏感柵外側(cè)軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測量偏置敏感柵中心橫向偏導(dǎo)的橫向偏差三敏感柵叉指金屬應(yīng)變片
- 三軸硅微加速度計(jì)
- 三軸硅微加速度計(jì)
- 一種用于大噸位傳感器的自定位應(yīng)變計(jì)
- 用于簡化懸臂梁傳感器的全橋箔式電阻應(yīng)變計(jì)
- 一種敏感文件管理方法





