[發明專利]一種基于分類置換的中文姓名數據脫敏方法在審
| 申請號: | 201910485787.8 | 申請日: | 2019-06-05 |
| 公開(公告)號: | CN110222153A | 公開(公告)日: | 2019-09-10 |
| 發明(設計)人: | 李輝;趙柯純;龔政;孟雪 | 申請(專利權)人: | 西安電子科技大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F21/62 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 范巍 |
| 地址: | 710071 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 脫敏 姓氏 姓名數據 名字 向量 向量形式 置換 向量相似度 數據庫 隨機選擇 中文 語料庫 分類 轉換 存儲 保留 | ||
本發明公開了一種基于分類置換的中文姓名數據脫敏方法,包括以下步驟:1)對中文人名語料庫中的數據按照姓氏和名字分成兩類數據,并將其轉換為向量形式;2)將兩類數據及其向量形式存儲到數據庫中;3)獲取待脫敏姓名數據;4)將待脫敏姓名數據的姓氏及名字分別轉換為向量形式;5)獲取數據庫中與待脫敏姓名的姓氏向量相似度最大的K個姓氏向量;6)在K個姓氏向量中隨機選擇一個對待脫敏姓名的姓氏進行置換;7)獲取數據庫中與待脫敏姓名的名字向量相似度最大的N個名字向量;8)在N個名字向量中隨機選擇一個對待脫敏姓名的名字進行置換,得脫敏后的數據,該方法能夠使得名字脫敏后保留姓名本身具有的特點。
技術領域
本發明屬于信息安全技術領域,涉及一種基于分類置換的中文姓名數據脫敏方法。
背景技術
大數據時代下的多源異構數據含有大量關鍵信息,這些信息對企業和個人具有巨大的商業價值,與此同時這些信息也包含了大量的個人隱私數據,其中又以個人姓名能指向更多具體的個人隱私數據為重中之重。這些敏感信息一旦泄露不但可能會給個人帶來各種困擾,嚴重的可能損害其個人聲譽以及對人身和財產安全造成危害。此外,發布真實的用戶數據供研究者分析和數據挖掘,這在為科研做出重大貢獻的同時也成為了泄露大量用戶隱私的渠道之一。
數據脫敏是指對某些敏感信息通過脫敏規則進行數據的變形,去除敏感性,實現敏感隱私數據的可靠保護。提出數據脫敏是為了在數據保護和數據可用性之間取得平衡,在涉及客戶安全數據或者一些商業性敏感數據的情況下,在不違反系統規則條件下對真實數據進行脫敏改造然后提供給他人進行開發、測試或統計分析。
語言是知識和思維的載體,自然語言處理(Natural Language Processing,NLP)是計算機科學,人工智能,語言學關注計算機和人類語言之間的相互作用的領域。詞嵌入是自然語言處理中語言模型與表征學習技術的統稱,簡言之,它是指每個單詞或詞組在預定義的向量空間中被映射為實數域上的向量?,F有很多種用于構建詞嵌入表示的模型,其中word2vec和GloVe是廣泛使用的實現之一。如今,在自然語言處理領域,多采用詞向量以及深度神經網絡結合的方式來進行文本分類。因此,本發明提出將自然語言處理技術與數據脫敏結合在一起,運用自然語言處理技術中基于詞向量的中文文本分類功能。
目前,現有對于中文姓名的脫敏技術大概包含以下幾種:
a)直接將姓名數據均置換成類似“張三”“李四”這種常見姓名,但是這種方法會造成整個數據表中只有相同的幾種姓名數據,無法看出數據的分布情況,不利于數據的統計。
b)對姓名數據進行隨機置換,將原姓名每個中文字符的編碼進行偏移隨機長度以生成另外一個中文字符,但這種隨機方法會使生成的脫敏后姓名數據完全喪失中文姓名原有的特征,而且生僻字較多。
c)構建一個中文姓名碼表,然后將原來的名字進行哈希映射替換。這樣數據的多樣性和分布性得以保留,但是需要大量的時間以及空間開銷,而且構建的姓名數據數量有限,依然無法做到真正的分布特征的保留。
綜上所述,現有的中文姓名脫敏技術存在會造成脫敏后姓名數據失去本身的特點以及不利于數據統計分析再利用的問題。
發明內容
本發明的目的在于克服上述現有技術的缺點,提供了一種基于分類置換的中文姓名數據脫敏方法,該方法能夠使得名字脫敏后保留姓名本身具有的特點,利于數據的統計分析再利用。
為達到上述目的,本發明所述的基于分類置換的中文姓名數據脫敏方法包括以下步驟:
1)對中文人名語料庫中的數據按照姓氏和名字分成兩類數據,并將得到的兩類數據轉換為向量形式;
2)將步驟1)得到的兩類數據及其向量形式存儲到數據庫中;
3)獲取待脫敏姓名數據;
4)將待脫敏姓名數據的姓氏及名字分別轉換為向量形式;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安電子科技大學,未經西安電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910485787.8/2.html,轉載請聲明來源鉆瓜專利網。





