[發明專利]一種基于生成式對抗網絡的涉密地理表格類數據保護方法有效
| 申請號: | 202110249303.7 | 申請日: | 2021-03-08 |
| 公開(公告)號: | CN113051604B | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 宋軍;楊帆;陳諾;徐衡 | 申請(專利權)人: | 中國地質大學(武漢) |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62;G06V10/774;G06V10/82;G06K9/62;G06N3/04 |
| 代理公司: | 武漢知產時代知識產權代理有限公司 42238 | 代理人: | 彭建怡 |
| 地址: | 430000 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 生成 對抗 網絡 地理 表格 數據 保護 方法 | ||
本發明提供一種基于生成式對抗網絡的涉密地理表格類數據保護方法,包括以下:獲取原始涉密表格類型數據;對涉密表格類型數據進行預處理,得到預處理后的訓練數據;利用預處理好的訓練數據訓練GDPGAN模型,得到訓練好的模型;利用訓練好的模型生成虛假數據;將虛假數據替代原始數據進行發布,保護原始數據。本發明提供的有益效果是:將DCGAN和圖卷積神經網絡結合,有效學習原始數據中歐式空間數據和非歐式空間數據,解決了GAN網絡不能很好地提取表格數據屬性間關聯性問題。同時通過調節高斯噪聲對原數據的擾動程度,控制我們需要生成的虛假數據的質量,很好地保護了涉密地理表格類型數據。
技術領域
本發明涉及數據安全領域,尤其涉及一種基于生成式對抗網絡的涉密地理表格類數據保護方法。
背景技術
現有涉密數據保護中往往存在以下問題:
(1)現有的大多數數據保護對象集中在涉密柵格或圖像數據,針對涉密表格類數據的研究較少。
(2)現有的對統計表格數據的保護方式大多是表格數據的加密傳輸,如專利CN200910306593.3,對涉密統計表格數據發布的保護研究較少。
(3)當前基于生成式對抗網絡的敏感數據保護方法主要集中在圖像類型數據,研究文本或表格類型數據較少。已有的基于生成式對抗網絡的文本數據保護方法絕大部分僅考慮關聯性較弱的保護對象,例如病人信息統計表格數據。
(4)現有的利用生成對抗網絡保護表格數據方法,只是單純利用普通的GAN網絡進行虛假數據生成,沒有考慮表格數據之間可能存在的相關性,例如一統計鉆孔內化學元素含量信息的表格數據,表格中有效硫與氯或有效鋅與鉛等化學元素含量在數值大小上具有較強的相關性。即當有效硫(有效鋅)元素含量增大時,氯(鉛)元素的含量也將會隨之增大。CN201910038938.5,該專利單純地使用GAN網絡來進行虛假數據生成,未考慮數據之間的關聯性。這種現象一方面降低了虛假數據的可用性,另一方面,很容易被發現這是一個虛假數據。
發明內容
有鑒于此,為了解決現有技術中的不足,本發明提出一種基于生成式對抗網絡的涉密地理表格類數據保護方法,該方法通過生成并發布與真實數據非常接近的虛假數據,達到保護涉密數據的目的。
本發明提供的一種基于生成式對抗網絡的涉密地理表格類數據保護方法,具體包括以下步驟:
S101:獲取原始涉密表格類型數據;
S102:對涉密表格類型數據進行預處理,得到預處理后的訓練數據;
S103:利用預處理好的訓練數據訓練GDPGAN模型,得到訓練好的模型;
S104:利用訓練好的模型生成虛假數據;
S105:將虛假數據替代原始數據進行發布,保護原始數據。
進一步地,所述涉密表格類型數據包括統計類表格類型的數據和地理關聯性類型數據。
進一步地,步驟S102具體為:
S201:將涉密表格中的每一條記錄轉換成方陣形式;
S202:對方陣添加高斯噪聲,形成經過噪聲擾動后的訓練數據。
進一步地,步驟S103具體為:
S301:利用隨機噪聲,生成隨機向量Z;
S302:將隨機向量Z輸入至GDPGAN模型的生成器G,生成得到原始涉密表格類型數據的虛假數據;
S303:將生成的虛假數據和預處理后的訓練數據一起輸入至GDPGAN模型的兩個判別器D1和D2中;判別器D1用于二分類,區分輸入的數據來自真實數據集合或虛假數據集合;判別器D2基于圖卷積神經網絡,用于對不同關聯圖進行分類;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國地質大學(武漢),未經中國地質大學(武漢)許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110249303.7/2.html,轉載請聲明來源鉆瓜專利網。





