[發明專利]一種中文姓名數據的脫敏方法及裝置在審

申請號：	201710214603.5	申請日：	2017-04-01
公開（公告）號：	CN106951562A	公開（公告）日：	2017-07-14
發明（設計）人：	牛俊嶺;胡艷波;袁森	申請（專利權）人：	北京數聚世界信息技術有限公司
主分類號：	G06F17/30	分類號：	G06F17/30;G06F17/27
代理公司：	北京超凡志成知識產權代理事務所(普通合伙)11371	代理人：	徐彥圣
地址：	100000 北京市海***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種中文姓名數據方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及信息安全技術領域，具體而言，涉及一種中文姓名數據的脫敏方法及裝置。

背景技術

隨著大數據時代的到來，從大數據中做挖掘分析，可以發現巨大的商業價值。但是這些挖掘利用同時也帶來了巨大的安全問題，例如在數據中可能存在個人姓名隱私數據，因此，在業務分析、開發測試和審計監管等使用過程中如何保護這些數據也就成為非常重要的安全需求。一般情況下，選擇對個人姓名的隱私保護會選擇數據脫敏的方式。

數據脫敏，又稱為數據漂白、數據去隱私化或數據變形，指對某些敏感信息通過脫敏過程進行數據變形，實現敏感隱私數據的可靠保護。這樣就可以在開發、測試和其他非生產環境以及外包環境中安全地使用脫敏后的真實數據集。

研究人員發現，現有技術中為了保護客戶的隱私，通常將客戶的姓名均脫敏為同一個常用的名字，比如“張三”、“李四”等，但是這種方法造成所有姓名均一樣，無法看出客戶的分布情況，不利于做數據統計，若為了改變這種情況對客戶的姓名進行隨機變換，又會造成所得的姓名不符合中文姓名的特點。

綜上，現有的姓名脫敏方法通常會造成失去姓名本身的屬性特點，從而在用于數據分析時價值不大的問題。

發明內容

有鑒于此，本發明的目的在于提供一種中文姓名數據的脫敏方法及裝置，以提高脫敏后的姓名的真實性。

第一方面，本發明實施例一種中文姓名數據的脫敏方法，包括：

獲取待脫敏姓名；

針對所述待脫敏姓名中的每一個漢字，從預存的多級字庫中，查找該漢字所屬級別的字庫；其中，不同級別的字庫中的漢字的屬性存在不同，同一級別字庫中的漢字的屬性相同；

按照預設的單字變換算法，確定該漢字在所屬級別的字庫中對應的脫敏后的漢字；

基于所述待脫敏姓名中的每一個漢字對應的脫敏后的漢字，生成脫敏后的姓名。

結合第一方面，本發明實施例提供了第一方面的第一種可能的實施方式，針對待脫敏姓名中的任一漢字，按照預設的單字變換算法，確定該任一漢字在所屬級別的字庫中對應的脫敏后的漢字，包括：

按照預設的單字變換算法，確定在該任一漢字所屬級別的字庫中，所述脫敏后的漢字相對該任一漢字的位置偏移量；

根據該任一漢字在所屬級別的字庫中的位置，以及確定的所述位置偏移量，確定所述脫敏后的漢字。

結合第一方面的第一種可能的實施方式，本發明實施例提供了第一方面的第二種可能的實施方式，所述根據該任一漢字在所屬級別的字庫中的位置，以及確定的所述位置偏移量，確定所述脫敏后的漢字，包括：

根據以下公式確定所述脫敏后的漢字：

nResPos＝(nPos+nBias+K)mod nLevelLength；

其中，nResPos為該任一漢字對應的脫敏后的漢字在所屬級別的字庫中的位置序號，nPos為該任一漢字在所屬字庫中的位置序號，nBias為所述脫敏后的漢字相對該任一漢字的位置偏移量，K為設置的非負整數，nLevellength為所述任一漢字所屬級別的字庫的漢字個數；mod為取模運算。

結合第一方面的第二種可能的實施方式，本發明實施例提供了第一方面的第三種可能的實施方式，按照以下公式確定所述脫敏后的漢字相對該任一漢字的位置偏移量：

nBias＝nLevelLength*nNameLen/M

其中，nNameLen為待脫敏姓名的字數，M為設置的正整數。

結合第一方面，本發明實施例提供第一方面的第四種可能的實施方式，當所述待脫敏姓名中的任一漢字不是該待脫敏姓名中的第一個漢字時，從預存的多級字庫中，查找該漢字所屬級別的字庫之前，還包括：

將所述多級字庫的前兩個級別的字庫中的漢字按照第一個級別字庫中的漢字在前，第二個級別字庫中的漢字在后的順序進行合并，作為新級別的字庫；其中，每個漢字在合并后的字庫中相對在所屬的原級別字庫中的其它漢字的位置不變。

結合第一方面，本發明實施例提供了第一方面的第五種可能的實施方式，所述確定該漢字在所屬級別的字庫中對應的脫敏后的漢字之后，還包括：

獲取已脫敏姓名；

針對所述已脫敏姓名中的每一個脫敏漢字，從所述預存的多級字庫中，查找該已脫敏漢字所屬級別的字庫；

按照預設的單字還原算法，確定該已脫敏漢字在所屬級別的字庫中對應的脫敏前的漢字；

基于所述已脫敏姓名中的每一個已脫敏漢字對應的脫敏前的漢字，生成脫敏前的姓名。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京數聚世界信息技術有限公司，未經北京數聚世界信息技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710214603.5/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】