[發明專利]一種中文姓名數據的脫敏方法及裝置在審
| 申請號: | 201710214603.5 | 申請日: | 2017-04-01 |
| 公開(公告)號: | CN106951562A | 公開(公告)日: | 2017-07-14 |
| 發明(設計)人: | 牛俊嶺;胡艷波;袁森 | 申請(專利權)人: | 北京數聚世界信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京超凡志成知識產權代理事務所(普通合伙)11371 | 代理人: | 徐彥圣 |
| 地址: | 100000 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 姓名 數據 方法 裝置 | ||
技術領域
本發明涉及信息安全技術領域,具體而言,涉及一種中文姓名數據的脫敏方法及裝置。
背景技術
隨著大數據時代的到來,從大數據中做挖掘分析,可以發現巨大的商業價值。但是這些挖掘利用同時也帶來了巨大的安全問題,例如在數據中可能存在個人姓名隱私數據,因此,在業務分析、開發測試和審計監管等使用過程中如何保護這些數據也就成為非常重要的安全需求。一般情況下,選擇對個人姓名的隱私保護會選擇數據脫敏的方式。
數據脫敏,又稱為數據漂白、數據去隱私化或數據變形,指對某些敏感信息通過脫敏過程進行數據變形,實現敏感隱私數據的可靠保護。這樣就可以在開發、測試和其他非生產環境以及外包環境中安全地使用脫敏后的真實數據集。
研究人員發現,現有技術中為了保護客戶的隱私,通常將客戶的姓名均脫敏為同一個常用的名字,比如“張三”、“李四”等,但是這種方法造成所有姓名均一樣,無法看出客戶的分布情況,不利于做數據統計,若為了改變這種情況對客戶的姓名進行隨機變換,又會造成所得的姓名不符合中文姓名的特點。
綜上,現有的姓名脫敏方法通常會造成失去姓名本身的屬性特點,從而在用于數據分析時價值不大的問題。
發明內容
有鑒于此,本發明的目的在于提供一種中文姓名數據的脫敏方法及裝置,以提高脫敏后的姓名的真實性。
第一方面,本發明實施例一種中文姓名數據的脫敏方法,包括:
獲取待脫敏姓名;
針對所述待脫敏姓名中的每一個漢字,從預存的多級字庫中,查找該漢字所屬級別的字庫;其中,不同級別的字庫中的漢字的屬性存在不同,同一級別字庫中的漢字的屬性相同;
按照預設的單字變換算法,確定該漢字在所屬級別的字庫中對應的脫敏后的漢字;
基于所述待脫敏姓名中的每一個漢字對應的脫敏后的漢字,生成脫敏后的姓名。
結合第一方面,本發明實施例提供了第一方面的第一種可能的實施方式,針對待脫敏姓名中的任一漢字,按照預設的單字變換算法,確定該任一漢字在所屬級別的字庫中對應的脫敏后的漢字,包括:
按照預設的單字變換算法,確定在該任一漢字所屬級別的字庫中,所述脫敏后的漢字相對該任一漢字的位置偏移量;
根據該任一漢字在所屬級別的字庫中的位置,以及確定的所述位置偏移量,確定所述脫敏后的漢字。
結合第一方面的第一種可能的實施方式,本發明實施例提供了第一方面的第二種可能的實施方式,所述根據該任一漢字在所屬級別的字庫中的位置,以及確定的所述位置偏移量,確定所述脫敏后的漢字,包括:
根據以下公式確定所述脫敏后的漢字:
nResPos=(nPos+nBias+K)mod nLevelLength;
其中,nResPos為該任一漢字對應的脫敏后的漢字在所屬級別的字庫中的位置序號,nPos為該任一漢字在所屬字庫中的位置序號,nBias為所述脫敏后的漢字相對該任一漢字的位置偏移量,K為設置的非負整數,nLevellength為所述任一漢字所屬級別的字庫的漢字個數;mod為取模運算。
結合第一方面的第二種可能的實施方式,本發明實施例提供了第一方面的第三種可能的實施方式,按照以下公式確定所述脫敏后的漢字相對該任一漢字的位置偏移量:
nBias=nLevelLength*nNameLen/M
其中,nNameLen為待脫敏姓名的字數,M為設置的正整數。
結合第一方面,本發明實施例提供第一方面的第四種可能的實施方式,當所述待脫敏姓名中的任一漢字不是該待脫敏姓名中的第一個漢字時,從預存的多級字庫中,查找該漢字所屬級別的字庫之前,還包括:
將所述多級字庫的前兩個級別的字庫中的漢字按照第一個級別字庫中的漢字在前,第二個級別字庫中的漢字在后的順序進行合并,作為新級別的字庫;其中,每個漢字在合并后的字庫中相對在所屬的原級別字庫中的其它漢字的位置不變。
結合第一方面,本發明實施例提供了第一方面的第五種可能的實施方式,所述確定該漢字在所屬級別的字庫中對應的脫敏后的漢字之后,還包括:
獲取已脫敏姓名;
針對所述已脫敏姓名中的每一個脫敏漢字,從所述預存的多級字庫中,查找該已脫敏漢字所屬級別的字庫;
按照預設的單字還原算法,確定該已脫敏漢字在所屬級別的字庫中對應的脫敏前的漢字;
基于所述已脫敏姓名中的每一個已脫敏漢字對應的脫敏前的漢字,生成脫敏前的姓名。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京數聚世界信息技術有限公司,未經北京數聚世界信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710214603.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:頭戴式耳機
- 下一篇:能防止過期不使用的輸液瓶放置裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





