[發明專利]一種保留分布特征的姓名脫敏方法有效
| 申請號: | 201910366230.2 | 申請日: | 2019-05-05 |
| 公開(公告)號: | CN110175468B | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 張江鑫;張名民;李建元;蔣立靚;沈曉宇;錢裕佳 | 申請(專利權)人: | 浙江工業大學;銀江股份有限公司 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 保留 分布 特征 姓名 方法 | ||
一種保留分布特征的姓名脫敏方法,從一個或多個數據庫中收集待脫敏姓名數據;檢驗待脫敏姓名數據的合規性;姓、名頻率密度及權重空間表建立,用混合線性同余發生器產生均勻隨機數,用拒絕采樣原理進行采樣,根據采樣結果統計得出姓、名概率密度表,根據概率密度表生成權重表,根據權重表生成權重區間表;將待脫敏姓名轉化為Unicode碼,根據相關算法進行計算得出結果;以結果為索引,結合前面所生成的權重區間表得出相關脫敏結果。本發明可行性強,能很好的保留脫敏結果的分析價值、能保證脫敏過程結果的一致性、能保證脫敏過程的多樣性。
技術領域
本發明涉及數據處理領域,尤其涉及一種保留分布特征的姓名脫敏方法。
背景技術
隨著大數據時代的來臨,數據呈爆炸式增長。無論是各種企業還是政府都越來越重視這份寶貴的財富。大數據是把雙刃劍,用好了能很好的促進企業的發展、減少企業成本,亦能提高政府部門管理效率、提升人民生活的幸福感,但是如果這把利劍被不法分子掌握在了手里,也會對人民、企業甚至國家造成重大的傷害。尤其是各個企業、政府部門為了實現數據的利用最大化,各單位之間就必須要實現數據的共享交換,以打破數據壁壘,連通數據孤島,在交換共享的過程中,數據泄露的風險也在不斷的提升。不可避免的,在交換的數據之中,一定會存在各種各樣的個人隱私數據,隨著數據交換的不斷進行,不可避免的,敏感數據泄露的風險也在與日俱增。數據脫敏又稱數據變形、數據漂白。主要方法有算法轉換、替代、混洗、數值變換、加密、模糊、截斷等。相比于數據加密“粗暴的”將一串明文加密成沒有任何意義的一串字符,一種好的脫敏方法能盡可能的保留數據價值,同時消除原始數據的一些隱私痕跡,從而達到既能有效的保護數據,又能提高數據利用率的目的,并且,相較于加密算法的“笨重”,數據脫敏要輕巧的多,所涉及的算法時間復雜度也相對較低,轉換速度快,在個人隱私數據的共享交換之中,姓名信息是一個人重要的隱私信息,通常姓名信息是一個人給外界最直觀的信息,雖然每個人的姓名可能會與他人重復,但是若是再結合其他相關信息,很容易讓人定位到現實生活中的具體某一個人。所以,做好姓名信息的脫敏工作十分重要。
在一部分現有的姓名脫敏方法中,直接對姓名進行截斷或者模糊處理,如原始姓名“凌破天”變為脫敏后的姓名“凌某某”或者“凌**”,脫敏之后數據完全喪失獨立特征,大量重復,會對數據庫之間的數據串聯,個體數據分析等造成嚴重影響。還有的姓名脫敏方法中,通過對數據庫中的漢語姓名分解成單個漢字,然后將漢字編碼得到編碼數據,之后采用若干初等變換方法將編碼次序置亂,最后使用互補、映射得到脫敏碼,組合得到漢語姓名的全部脫敏結果,這種脫敏方法中雖然用到了漢字編碼,并對編碼求補數,進行編碼變換等,能夠有效保障了數據唯一性和可標識別性,使得數據庫在處理過程中無信息損失,但是脫敏后的數據是一串數字,喪失了姓名的相關特征,并且脫敏的轉換方法過于簡單,一旦泄露轉換規則,就能逆推出未脫敏前的姓名,存在安全隱患。還有一些姓名脫敏方法中,針對所述待脫敏姓名中的每一個漢字,從預存的多級字庫中,查找該漢字所屬級別的字庫;其中,不同級別字庫中的漢字的屬性存在不同,同一級別字庫中的漢字的屬性相同;按照預設的單字變換算法,確定該漢字在所屬級別的字庫中對應的脫敏后的漢字,基于所述待脫敏姓名中的每一個漢字對應的脫敏后的漢字,生成脫敏后的姓名。該方法雖然可以將待脫敏姓名中的每一個漢字脫敏成同級別字庫中的漢字,從而使脫敏后的姓名仍然保持原有的屬性,但是預存的字庫并不一定能滿足一些特有的應用場景,并且雖然對姓名的分布特征有一定的保留,但是還是有所欠缺,并沒有很好的保留分布特征。
發明內容
為了克服現有的姓名脫敏方法的無法較好保留分布特征的不足,本發明提供一種能很好的保留分布特征的姓名脫敏方法。
本發明為了解決上述技術問題采用的技術方案如下:
一種保留分布特征的姓名脫敏方法,包括如下步驟:
(1)收集待脫敏姓名數據;
(2)判斷姓名數據是否符合規范,將異常數據放入異常數據集單獨處理;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學;銀江股份有限公司,未經浙江工業大學;銀江股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910366230.2/2.html,轉載請聲明來源鉆瓜專利網。





