[發明專利]一種基于安全多方計算的卡方分箱方法有效
| 申請號: | 202110999974.5 | 申請日: | 2021-08-27 |
| 公開(公告)號: | CN113688354B | 公開(公告)日: | 2023-06-09 |
| 發明(設計)人: | 何道敬;孫黎彤;杜潤萌;張民;張熙;廖清 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F17/18 | 分類號: | G06F17/18;G06F21/60;G06F21/62;G06N20/20 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 安全 多方 計算 卡方分箱 方法 | ||
本發明公開了一種基于安全多方計算的卡方分箱方法,對于聯邦學習的特征工程,提出一種新的卡方值計算方法,不需要加密所有的特征數據發送給數據應用方進行特征預處理,而是先將特征數據按類別分組,混入虛假分組,并對分組類別進行標記后加密發送給數據應用方,加密分組類別將會大幅度減少加密處理的數據量,數據應用方不需要解密所有特征數據,避免了巨大的資源損耗;數據提供方發送給數據應用方的是特征數據的分組信息,數據應用方解密后獲取的是特征數據的分組信息,不包含特征數據的實際內容,并且該分組信息添加了虛假分組信息,將真實分組和虛假分組進行編碼標記,相比傳輸脫敏數據和將真實數據加密后傳輸來說,提高了數據隱私的安全性。
技術領域
本發明屬于聯邦學習領域,特別涉及一種基于安全多方計算的卡方分箱方法。
背景技術
在聯邦學習開始前首先需要構建一個數據集,而不是直接使用原始數據進行建模。將原始數據轉換為數據集的任務稱為特征工程。
特征選擇是特征工程中重要的一步,一般在建立分類模型時,首先,需要對連續變量離散化,特征離散化后,模型會更穩定,降低了模型過擬合的風險。在特征選擇的過程中常常會進行分箱操作,分箱就是將連續型的特征數據離散化。分箱的好處有很多,例如:它對異常數據有更強的魯棒性,解決了異常數據對建模的干擾;特征數據離散化之后,每個特征數據有單獨的權重,為邏輯回歸模型引入了非線性,能夠提升模型表達能力;分箱還可以將特征的缺失值作為獨立一類別帶入模型,并且特征離散化之后形成的稀疏向量內積乘法運算速度快,計算結果方便存儲,容易擴展等等。對于精確的離散化,將數據按照類別劃分區間,如果兩個相鄰的區間具有非常相似的類分布,則這兩個區間可以合并,否則他們應當保持分開,而低卡方值表明相鄰兩個區間內具有相似的類分布。特征數據分箱后計算特征數據的卡方值,卡方值越小,分布越相似,可以合并為一箱。
無論是特征離散化還是特征預測能力評估,在聯邦學習特征預處理過程中,需要缺乏特征標簽數據的一方將自己的特征數據發送給有特征標簽的一方進行聯合特征預處理。
現有的大多數聯邦學習框架中,一部分方法為滿足隱私保護需求在計算中令數據提供方使用公鑰加密所有的特征矩陣,然后將密文矩陣發送給數據應用方,數據應用方拿到數據后使用私鑰解密進行計算。在大規模數據收集中,這種方法顯然會造成巨大的資源損耗和性能下降。另一部分直接傳遞脫敏數據進行計算,無法保護數據隱私安全,也不符合法律規范,還有一部分參與者自己單獨進行訓練,將訓練結果融合,不能充分地發揮數據地價值。
發明內容
本發明的目的是提出一種新的基于安全多方計算的卡方分箱方法,對于數據精確的離散化,先將數據按照類別劃分區間,如果兩個相鄰的區間具有非常相似的類分布,則這兩個區間可以合并,否則他們應當保持分開,而低卡方值表明相鄰兩個區間內具有相似的類分布。特征數據分箱后計算特征數據的卡方值,卡方值越小,分布越相似,可以合并為一箱。
實現本發明目的的具體技術方案是:
一種基于安全多方計算的卡方分箱方法,包括下述步驟:
步驟1:數據提供方通過同態加密系統生成一對公鑰pk和私鑰sk,將特征數據X={x0,x1,...,xn-1},id∈[0,n-1]進行分組,將特征數據X中類別相同的數據的id劃分為一個區間,共記作s個分組,記作xt,t∈[0,s-1],其中n,s為正整數,并且標記真實分組xt的類別為1,使用公鑰pk將該分組類別加密,記作Ex=E(1),得到真實分組信息Groupt(xt,Ex);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110999974.5/2.html,轉載請聲明來源鉆瓜專利網。





