[發明專利]數據漂白方法和裝置有效
| 申請號: | 202010597178.4 | 申請日: | 2020-06-28 |
| 公開(公告)號: | CN111753331B | 公開(公告)日: | 2023-09-19 |
| 發明(設計)人: | 黃琳莉;黃煜輝;劉帥 | 申請(專利權)人: | 中國銀行股份有限公司 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62;G06F16/215;G06Q40/02 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 王天堯;吳學鋒 |
| 地址: | 100818 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 漂白 方法 裝置 | ||
1.一種數據漂白方法,其特征在于,包括:
獲取生產數據;
對生產數據進行數據預處理,確定預處理數據;
將預處理數據進行特征工程,確定特征數據;
根據特征數據對預處理數據進行漂白處理,確定脫敏數據;
對生產數據進行數據預處理,確定預處理數據,包括:
從生產數據中獲取數據表、關聯字段和主表,確定關聯數據集;
對關聯數據集進行相關性檢驗,去除冗余數據,確定精簡數據集;
對精簡數據集進行標準格式化處理,確定標準數據集;
去除標準數據集中的臟數據和無效用戶數據,確定預處理數據;
從生產數據中獲取數據表、關聯字段和主表,確定關聯數據集,包括:
從生產數據中獲取多張數據表、關聯字段和主表;
對每張數據表的每個字段統計原始空值總量占比,將原始空值總占比大于第一閾值的字段剔除掉,確定多張低空值數據表;
通過關聯字段,將主表與多張低空值數據表進行匹配,統計無法匹配數據量占比,若該低空值數據表的無法匹配數據量占比大于第一閾值,則棄用這張低空值數據表,反之保留,確定多張待關聯數據表;
通過關聯字段,將多張待關聯數據表拼接成一張寬表,確定關聯數據集。
2.如權利要求1所述的方法,其特征在于,對關聯數據集進行相關性檢驗,去除冗余數據,確定精簡數據集,包括:
根據關聯數據集,確定關聯數據集特征;
將關聯數據集特征中的特征進行比較;
在關聯數據集特征的特征之間的相關性高于第二閾值時,刪除其中數據量少的特征;
在設有目標特征時,檢驗其他特征與目標特征的相關性,在相關性低于第三閾值時,刪除該特征;
將保留的關聯數據集特征的冗余數據剔除,確定精簡數據集。
3.如權利要求1所述的方法,其特征在于,對精簡數據集進行標準格式化處理,確定標準數據集,包括:
對精簡數據集進行標準格式化處理,校驗修正精簡數據集中特征的標準格式,統一時間特征和數值特征的表示格式,確定標準數據集。
4.如權利要求1所述的方法,其特征在于,去除標準數據集中的臟數據和無效用戶數據,包括:
將標準數據集中不符合數據處理要求的用戶數據按照刪除規則刪除;
將標準數據集按行統計有效信息率,將有效信息率低于第四閾值的行數據刪除。
5.如權利要求1所述的方法,其特征在于,將預處理數據進行特征工程,確定特征數據,包括:
從預處理數據中獲取基礎敏感數據;其中,所述基礎敏感數據,包括:個人基礎敏感數據和銀行企業基礎敏感數據;
將基礎敏感數據進行特征工程,提取特征數據;其中,所述特征數據,包括:個人敏感數據特征和銀行企業敏感數據特征。
6.如權利要求5所述的方法,其特征在于,所述個人基礎敏感數據,至少包括:身份證號碼,電話號碼,地址信息,郵箱信息;
所述提取特征數據,包括:
從身份證號碼中提取區域碼、年齡和性別特征數據;
從電話號碼中提取運營商和區域信息特征數據;
從地址信息中提取周邊網點、大型商超、公共文化設施和公共交通站點特征數據;
從郵箱信息中提取郵箱類型、所屬單位和網齡特征數據。
7.如權利要求5所述的方法,其特征在于,所述銀行企業基礎敏感數據,至少包括:銀行系統客戶號和企業信息;
所述提取特征數據,包括:
從銀行系統客戶號中提取客戶注冊時長特征數據;
從企業信息中提取企業規模、創建時長、是否五百強企業特征數據。
8.如權利要求1所述的方法,其特征在于,根據特征數據對預處理數據進行漂白處理,確定脫敏數據,包括:
根據特征數據,從預處理數據中找出敏感信息;
在通用場景下,將敏感信息替換為統一值,確定脫敏數據;
在反欺詐應用場景下,將敏感信息使用MD5加密,確定脫敏數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國銀行股份有限公司,未經中國銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010597178.4/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





