[發明專利]一種提供隱私保護的數據采集和回歸分析方法有效
| 申請號: | 201811193850.2 | 申請日: | 2018-10-12 |
| 公開(公告)號: | CN109409125B | 公開(公告)日: | 2022-05-31 |
| 發明(設計)人: | 王玉峰;顧敏 | 申請(專利權)人: | 南京郵電大學 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62;G16H50/70;G06Q10/04;G06Q10/10 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 母秋松;董建林 |
| 地址: | 210003 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提供 隱私 保護 數據 采集 回歸 分析 方法 | ||
本發明公開了一種提供隱私保護的數據采集和回歸分析方法,采用差分隱私來保護數據提供者的隱私,并通過補償機制來激勵提供者提供真實的數據。首先,在回歸模型的分析模塊,本方法采用嶺回歸模型,將損失函數展開成多項式混沌的形式,并在每個多項式前面的系數上加入拉普拉斯噪聲,從而保證訓練得到的回歸模型既保護了數據提供者的隱私,又保證了模型的準確性;然后,在報酬支付模塊,計算出除去數據提供者提供的數據得到的回歸模型,與整體的回歸模型進行比較,將以上兩者的誤差作為每個數據提供者報酬的量度,換言之,誤差越小,也就是數據越準確,那么相應的報酬越多。簡言之,通過隱私保護和適當的報酬,本方法能激勵更真實的匯報數據,訓練得到更準確的模型。
技術領域
本發明涉及一種提供隱私保護的數據采集和回歸分析方法,屬于數據處理技術領域。
背景技術
目前,擬合線性模型可能是最基礎和最基本的學習任務,具有從統計學到醫學以及社會學等多種方面的應用。在許多情況下,從中進行回歸學習得到模型的數據不是由執行回歸任務的分析師掌握的,而必須從個人中獲取。這些場景顯然包括醫學試驗和人口普查,以及挖掘在線行為數據,這是目前大規模發生的一種做法。
如果數據是由個人持有的,這對他們來說必然存在隱私泄露的問題。為激勵他們更真實地提供自己的信息,訓練得到更準確的回歸模型,一方面我們要對他們的隱私提供一定的保護,另一方面要給他們提供適當的報酬。
差分隱私是釋放敏感信息的同時保護個人隱私的最先進的模型。本發明采用差分隱私的方法,將拉普拉斯噪聲加入到回歸模型的訓練中,保證回歸模型準確性的同時進行了隱私保護。
發明內容
目的:為了克服現有技術中存在的不足,本發明提供一種提供隱私保護的數據采集和回歸分析方法。
技術方案:為解決上述技術問題,本發明采用的技術方案為:
一種提供隱私保護的數據采集和回歸分析方法,包括如下步驟:
步驟1:假設有n個數據提供者,從數據提供者i處獲取d維屬性參數向量xi∈Rd和個人可操縱的響應變量yi,Rd是d維屬性參數向量的集合,用X=[xi]i∈[n]∈Rn×d表示屬性參數矩陣,Rn×d表示d維屬性參數向量矩陣集合,用y=[yi]i∈[n]∈Rn表示響應變量向量,Rn表示響應變量向量集合;設訓練出的回歸模型為yi=θTxi,在損失函數L(θ;X,y)中加入拉普拉斯噪聲,并由求出最佳的預測函數系數θ*,最終得到預測函數yi=θ*Txi。
作為優選方案,還包括步驟2,所述步驟2:計算除去數據提供者i提供的數據時的回歸參數θ-i,與θ*比較,計算兩者之間的誤差,誤差越大,報酬越小。
作為優選方案,所述步驟1具體步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京郵電大學,未經南京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811193850.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





