[發明專利]基于字符串唯一性與可重復性置換輸出的方法在審

申請號：	201811301201.X	申請日：	2018-11-02
公開（公告）號：	CN109408534A	公開（公告）日：	2019-03-01
發明（設計）人：	程永新;謝濤;孫釗雄;郭振宇	申請（專利權）人：	上海新炬網絡信息技術股份有限公司
主分類號：	G06F16/245	分類號：	G06F16/245;G06F16/28
代理公司：	上海科律專利代理事務所(特殊普通合伙) 31290	代理人：	袁亞軍;金碎平
地址：	201707 上海市青浦區外青***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	唯一性緩存庫置換目標值數據可重復性敏感數據字符串輸出集合緩存保留數據處理效率集群環境敏感信息輸出特性數據共享數據通過隱藏數據源數據庫接收源可重復目標庫原有的源數據字典庫寫入字典查找返回重復保證
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種基于字符串唯一性與可重復性置換輸出的方法，包括：S1：將字典庫中的數據通過Java程序緩存到Redis緩存庫的字典緩存庫中；S2：將源數據庫的敏感數據，通過Java程序分批輸送到Redis程序中；S3：Redis程序通過步驟S2接收源數據，查找Redis緩存庫中的數據，并將敏感數據置換為目標值；S4：Redis程序將目標值數據集合返回給Java程序；S5：Java程序將目標值數據集合寫入到目標庫；S6：重復步驟S2?S5，完成所有源數據的置換輸出。本發明隱藏數據敏感信息的同時，保留數據原有的業務意義；支持集群環境下的數據共享，提高處理效率；保證數據的唯一性和可重復輸出特性。

技術領域

本發明涉及一種數據脫敏方法，尤其涉及一種基于字符串唯一性與可重復性置換輸出的方法。

背景技術

在當前大數據的時代，數據被業界公認為是企業的最寶貴資產之一，通過對其累積的數據進行分析，以便實時掌握市場動態并迅速做出策略應對，或為其制定精準有效的營銷策略提供決策支持，也可以幫助企業為消費者提供更加及時和個性化的服務。但一旦數據發生外泄，不僅會給企業信譽帶來風險的同時，也使消費者因個人信息泄露而承擔未知的潛在危險，例如釣魚網站、欺詐網站、病毒木馬、偽基站、垃圾短信和騷擾電話等各種網絡詐騙和騷擾的罪魁禍首主要來自于個人信息的泄露。

為保障具有敏感信息的數據不外泄，可根據制定的脫敏規則對數據進行漂白，或稱數據脫敏。一般來說，只要將帶有敏感信息的數據通過排序，加密，生成隨機值替換等手段即可隱藏敏感信息，但一些具有業務意義的特殊數據，通過以上所述的手段進行脫敏，將會破壞數據的業務意義，為了保留數據的業務意義，現有技術的做法是通過窮舉一個具有相似業務意義的數據集合(下文稱為字典)，然后按順序或隨機去替換具有敏感信息的數據(下文稱為源數據)，以達到掩蓋數據敏感信息，并保留原本業務意義的目的。現有技術具體方式如下：

1)直接改造源數據信息：處理程序從源數據庫加載源數據，處理程序根據制定的規則對源數據進行加密，排序，生成隨機置換等方式生成目標值，最后將目標值輸出到目標庫中。

2)在本地文件存儲字典數據進行敏感數據置換：預先將字典值集合存儲在本地文件(如excel，cvs，text等文本文件)，通過處理程序，將需要脫敏的敏感源從源數據庫中加載到處理程序內存，每個敏感源根據制定好的規則，到字典文件中查找符合規則的置換值，最后將置換值輸出到目標庫中。

現有技術存在以下缺點：

1、無法同時確保數據的唯一性和數據可重復輸出：現有技術通過源數據的特征，計算出一個位置數字，用來對應字典表中某個位置的字典值，該做法雖然可以確保數據可重復輸出(即相同源數據脫敏出相同目標值)，但由于字典表的字典數量是有窮，而源數據在理論上的數量是無窮，用一個有窮得集合去表示一個無窮集合，必定會出現重復數據(即不同源數據脫敏出相同目標值)，無法保證數據的唯一性。

2、數據無法共享：用本地緩存處理脫敏數據，利用其內存的快速讀寫性能，并且無需消耗因遠程網絡導致的時間延時，可以最大限度提高脫敏處理效率。但隨著大數據時代的到來，單純一臺機器的性能對處理大數據量的運算時已顯得力不從心，而超級計算機的幾個又極其昂貴，為了應付上述大數據量運算，業界采用集群技術，將多臺相互獨立的、通過高速網絡互連的計算機，組成一個獨立服務器，在付出較低成本的情況下獲得高性能的數據處理能力。但由于集群中每臺計算機都是獨立存在，如果利用計算機的本地緩存處理脫敏數據處理同一任務，無法讓每臺計算機之間的數據共享，所以本地緩存處理脫敏數據只適合在單機運行環境下，在集群環境下的數據無法實現共享。

3、低效率：用數據庫處理脫敏數據，可以解決上述第2點數據無法在集群環境下實現共享問題。但數據中因為數據需要落地文件，I/O瓶頸嚴重影響脫敏性能，無法保證脫敏效率，并且程序訪問數據庫是通過遠程網絡連接，所以每次訪問數據庫都需要消耗網絡延時，而且訪問頻率也高，消耗網絡延時將越長。

因此，需要一種數據的可重復輸出與唯一性同時實現的高效的數據脫敏方法。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于上海新炬網絡信息技術股份有限公司，未經上海新炬網絡信息技術股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201811301201.X/2.html，轉載請聲明來源鉆瓜專利網。