[發明專利]一種機器學習中隱私可用均衡的軌跡訓練數據擾動機制有效
| 申請號: | 202011495017.0 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112613231B | 公開(公告)日: | 2022-09-20 |
| 發明(設計)人: | 李欣姣;吳國偉;姚琳 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06N3/08;G06N20/00;G06K9/62 |
| 代理公司: | 大連理工大學專利中心 21200 | 代理人: | 李曉亮;潘迅 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 機器 學習 隱私 可用 均衡 軌跡 訓練 數據 擾動 機制 | ||
1.一種機器學習中隱私可用均衡的軌跡訓練數據擾動機制,其特征在于,步驟如下:
(1)首先在獲取軌跡訓練數據集后,根據用戶對記錄聯動攻擊、屬性聯動攻擊和成員推理攻擊的防御要求,構建隱私擾動參數取值范圍公式,隱私擾動參數的取值范圍公式構成隱私模型,使擾動后的軌跡訓練數據集面臨記錄聯動攻擊、屬性聯動攻擊和成員推理攻擊的安全性達到用戶要求;其中,計算隱私擾動參數取值范圍和構建隱私模型的過程如下:
(1.1)首先,獲取軌跡訓練數據集和用戶對記錄聯動攻擊、屬性聯動攻擊和成員推理攻擊的防御參數α、β、γ;統計軌跡訓練數據集的準標識符屬性、隱私屬性和屬性個數信息;
(1.2)基于防御參數α建立隱私擾動參數取值范圍公式,防御記錄聯動攻擊;基于用戶對記錄聯動攻擊的防御要求,準標識符被識別的概率應小于防御參數α,即所有準標識符屬性取值被擾動后與原準標識符屬性取值相同的概率之積小于防御參數α:
其中,QAIi表示第i條記錄的準標識符;QAIij表示第i條記錄準標識符的第j個屬性;nQAI表示準標識符屬性的數量;表示被隱私擾動后的準標識符;為隱私擾動的過程,表示擾動后的準標識符屬性與原準標識符屬性相同的概率;
帶入隱私擾動參數,計算隱私擾動參數取值范圍:
其中,∈j表示第j個屬性上的隱私擾動參數取值;
(1.3)構建相關敏感屬性對集CA;基于均方根系數計算所有敏感屬性對的相關性;δCA為屬性相關性閾值,將敏感屬性對的相關性與δCA作比較,若大于δCA,則將敏感屬性對加入到相關敏感屬性對集CA中;若不大于δCA則不加入相關敏感屬性對集CA中;
(1.4)針對相關敏感屬性對集CA中的屬性對,按照防御參數β,建立擾動參數取值范圍公式,抵御屬性聯動攻擊;基于用戶對屬性聯動攻擊的防御要求,相關敏感屬性對被識別的概率應當小于防御參數β,即相關敏感屬性對中的任一屬性被擾動后與原屬性取值相同的概率應小于防御參數β:
其中,CAi1和CAi2表示一組相關屬性對;和表示擾動后的相關屬性對;
表示擾動前后的屬性相同的概率;
帶入隱私擾動參數,計算隱私擾動參數取值范圍:
(1.5)基于差分隱私定義和用戶對成員推理攻擊的防御參數γ,構建數據修改前后的概率公式,防御成員推理攻擊;基于用戶對成員推理攻擊的防御要求,同一條記錄在擾動后與原記錄可識別的概率應小于防御參數γ,即某一條數據的存在與否對軌跡訓練數據集的影響很小時,軌跡訓練數據集滿足γ差分隱私:
其中,和ATTi表示來自相差一條數據的相鄰數據集的第i條記錄;表示擾動后的M(ATTij)表示擾動后的ATTi;
帶入隱私擾動參數,計算隱私擾動參數取值范圍:
∑∈i≤γ
其中,∈i表示i個屬性上的隱私擾動參數取值;
(2)基于軌跡訓練數據集的屬性修改權重、屬性信息熵、模型分類個數、屬性敏感度構建隱私擾動參數取值公式,形成數據可用性模型,并結合步驟(1)的隱私模型得出隱私擾動參數最優取值,使得在保證數據隱私性的同時保證數據的可用性,達到隱私可用均衡的目的;其中,構建隱私擾動參數取值公式和數據可用性模型的過程如下:
(2.1)首先對軌跡訓練數據集進行訓練并記錄模型正確率;可用性模型以屬性為單位,逐個單次為不同屬性增加一個伯努利參數,進行模型訓練和測試,記錄單個屬性增加參數前后模型的正確率,將正確率下降的差值由大到小排列,并將正確率映射到[0,1]區間,記為屬性修改權重amw;
(2.2)計算并記錄每個屬性的信息熵ENT、模型輸出分類個數C和屬性敏感度Δ,屬性敏感度為單個屬性的單個取值對模型輸出結果的最大影響,通過修改測試集數據得出;
(2.3)構建隱私擾動參數求值公式:
其中,k1、k2、k3、k4和b表示參數的權重,amwi表示第i個屬性的屬性修改權重;ENTi表示第i個屬性的信息熵,結合(1)的隱私模型計算隱私擾動參數集∈={∈A,∈B,...∈N}并排序;
(3)在獲得隱私擾動參數集之后,使用符合本地化差分隱私的擾動機制對軌跡訓練數據集進行擾動;其中,數據擾動的過程如下:
(3.1)擾動機制逐一對屬性取值進行加噪,當屬性為離散數據時,使用差分隱私指數機制對數據進行加噪;
(3.2)當屬性為連續數據時,將連續數據屬性的取值映射到[-1,1]區間上并使用隨機響應機制對連續數據進行擾動,步驟如下:判斷屬性的隱私擾動參數∈是否小于0.61:若∈<0.61,使用Duchi隨機響應機制擾動數據;若∈≥0.61,使用PM隨機響應機制擾動機制。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011495017.0/1.html,轉載請聲明來源鉆瓜專利網。





