[發(fā)明專利]文本脫敏方法、裝置、電子設備和計算機可讀存儲介質在審
| 申請?zhí)枺?/td> | 202010795184.0 | 申請日: | 2020-08-10 |
| 公開(公告)號: | CN112001174A | 公開(公告)日: | 2020-11-27 |
| 發(fā)明(設計)人: | 代慶國;羅英群;呂令廣 | 申請(專利權)人: | 深圳中興網(wǎng)信科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F40/279;G06F40/216;G06F16/335;G06F21/62 |
| 代理公司: | 北京友聯(lián)知識產(chǎn)權代理事務所(普通合伙) 11343 | 代理人: | 尚志峰;王淑梅 |
| 地址: | 518109 廣東省深圳市龍華*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 方法 裝置 電子設備 計算機 可讀 存儲 介質 | ||
本發(fā)明提出了一種文本脫敏方法、裝置、電子設備和計算機可讀存儲介質。其中,文本脫敏方法包括:獲取待處理文本和隱馬爾科夫模型;根據(jù)分詞庫對待處理文本進行分詞處理,得到詞匯信息;根據(jù)詞匯信息和隱馬爾科夫模型,確定詞匯信息對應的語境信息;基于語境信息滿足預設語境信息,則對詞匯信息進行脫敏處理。本發(fā)明提出的方法,通過隱馬爾科夫模型識別非結構化文本的語境,能夠進一步篩選隱私詞語,提高隱私詞語的識別精度,滿足不同用戶的脫敏需求,有效提高隱私詞語的識別處理效率,而且避免使用正則的方式進行查找隱私數(shù)據(jù),無需強制用戶編輯任何數(shù)據(jù)規(guī)則,降低用戶工作量,同時,防止人工標注的人為的錯誤。
技術領域
本發(fā)明涉及電子設備技術領域,具體而言,涉及一種文本脫敏方法、一種文本脫敏裝置、一種電子設備和一種計算機可讀存儲介質。
背景技術
現(xiàn)有技術下,為了保證數(shù)據(jù)使用的安全,一般使用脫敏的方法對隱私數(shù)據(jù)進行替換,已有脫敏方法多數(shù)都是針對結構化數(shù)據(jù),例如數(shù)據(jù)庫。使用規(guī)則的方式進行識別,例如指定數(shù)據(jù)庫表的字段名稱等進行脫敏。
行業(yè)數(shù)據(jù)隱私保護的日益重要,行業(yè)用戶使用的脫敏方式存在以下問題:目前多數(shù)數(shù)據(jù)處理方法主要針對結構化數(shù)據(jù)進行處理,對半結構化數(shù)據(jù)多數(shù)都是采用正則表達式的模式匹配的方法,找出關鍵數(shù)據(jù)進行脫敏。已有的敏感數(shù)據(jù)識別大都是基于規(guī)則發(fā)現(xiàn)和人工定義的方法,基于規(guī)則發(fā)現(xiàn)的方法可以有效識別符合規(guī)則定義的敏感數(shù)據(jù),但是會遺漏掉大量無規(guī)則的敏感數(shù)據(jù),降低敏感數(shù)據(jù)識別的準確率;另一方面基于人工定義的方式在數(shù)據(jù)量比較大的情況下,會增加用戶的負擔,降低系統(tǒng)的可用性與易用性。
發(fā)明內容
本發(fā)明旨在至少解決現(xiàn)有技術或相關技術中存在的技術問題之一。
為此,本發(fā)明的第一方面在于提出了一種文本脫敏方法。
本發(fā)明的第二方面在于提出了一種文本脫敏裝置。
本發(fā)明的第三方面在于提出了一種電子設備。
本發(fā)明的第四方面在于提出了一種計算機可讀存儲介質。
有鑒于此,根據(jù)本發(fā)明的第一方面,提出了一種文本脫敏方法,包括:獲取待處理文本和隱馬爾科夫模型;根據(jù)分詞庫對待處理文本進行分詞處理,得到詞匯信息;根據(jù)詞匯信息和隱馬爾科夫模型,確定詞匯信息對應的語境信息;基于語境信息滿足預設語境信息,則對詞匯信息進行脫敏處理。
本發(fā)明提供的文本脫敏方法,將待處理文本結合分詞庫進行分詞,獲得詞匯信息,其中,詞匯信息包括多個詞匯文本以及對應的詞匯位置和語義。將詞匯信息輸入至預設的隱馬爾科夫模型(Hidden Markov Model,HMM)中進行計算,確定出詞匯信息最接近的語境信息,并對比語境信息和脫敏相關的預設語境信息。若語境信息滿足預設語境信息,說明待處理文本中存在滿足脫敏語境規(guī)則的文字,則找出關鍵的語境中的隱私數(shù)據(jù)結構,對隱私數(shù)據(jù)進行脫敏處理,以對某些敏感數(shù)據(jù)通過脫敏規(guī)則進行數(shù)據(jù)的變形。從而通過隱馬爾科夫模型識別非結構化文本的語境,能夠進一步篩選隱私詞語,提高隱私詞語的識別精度,滿足不同用戶的脫敏需求,有效提高隱私詞語的識別處理效率,而且避免使用正則的方式進行查找隱私數(shù)據(jù),無需強制用戶編輯任何數(shù)據(jù)規(guī)則,降低用戶工作量,同時,防止人工標注的人為的錯誤。
另外,根據(jù)本發(fā)明提供的上述技術方案中的文本脫敏方法,還可以具有如下附加技術特征:
在上述技術方案中,進一步地,對文本詞匯信息進行脫敏處理的步驟,具體包括:比對詞匯信息中的詞匯文本和隱私詞匯;基于詞匯文本符合隱私詞匯,則將詞匯文本標記為敏感數(shù)據(jù);根據(jù)脫敏規(guī)則對敏感數(shù)據(jù)進行脫敏處理。
在該技術方案中,在詞匯信息的語境信息滿足預設語境信息的情況下,比對詞匯信息中的詞匯文本和隱私詞匯,也即查找關鍵語境中的隱私數(shù)據(jù)結構。若詞匯文本符合隱私詞匯,說明該詞匯為敏感數(shù)據(jù),此時根據(jù)脫敏規(guī)則對敏感數(shù)據(jù)進行脫敏處理。從而將涉及到數(shù)據(jù)安全的敏感數(shù)據(jù)屏蔽,有效的保障了文本中敏感數(shù)據(jù)的安全性、完整性和可用性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳中興網(wǎng)信科技有限公司,未經(jīng)深圳中興網(wǎng)信科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010795184.0/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





