[發(fā)明專利]一種基于同態(tài)加密的線性回歸縱向聯(lián)邦學習方法在審
| 申請?zhí)枺?/td> | 202210064492.5 | 申請日: | 2022-01-20 |
| 公開(公告)號: | CN114547643A | 公開(公告)日: | 2022-05-27 |
| 發(fā)明(設計)人: | 何道敬;袁露 | 申請(專利權(quán))人: | 華東師范大學;上海境山科技有限公司 |
| 主分類號: | G06F21/60 | 分類號: | G06F21/60;G06F21/62;G06N20/00 |
| 代理公司: | 上海藍迪專利商標事務所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 同態(tài) 加密 線性 回歸 縱向 聯(lián)邦 學習方法 | ||
本發(fā)明公開了一種基于同態(tài)加密的線性回歸縱向聯(lián)邦學習方法,包括步驟:a)建模訓練;b)兩種預測。建模訓練:采用minist數(shù)據(jù)集,步驟如下:owner即數(shù)據(jù)應用方,利用Paillier生成公私鑰對,consumer即數(shù)據(jù)持有,計算特征值與特征矩陣的乘積發(fā)送給owner,owner計算預測標簽通過與實際Y對比得到然后計算梯度,利用梯度來更新特征值的權(quán)重,直到模型達收斂范圍,訓練結(jié)束。預測方法1:無第三方,consumer計算特征值與特征矩陣的乘積發(fā)給owner,計算預測值返回給consumer。預測方法2:基于差分隱私,Carol整合雙方特征參數(shù)后發(fā)給consumer,consumer計算預測標簽將結(jié)果發(fā)給Carol。本發(fā)明創(chuàng)新點:訓練階段,梯度始終加密,無第三方,未暴露過多特征參數(shù);預測階段可防止合謀攻擊。
技術領域
本發(fā)明屬于縱向聯(lián)邦學習領域,特別涉及去除第三方的基于同態(tài)加密的線性回歸縱向聯(lián)邦學習建模訓練,以及基于差分隱私的模型預測方法。
背景技術
隨著互聯(lián)網(wǎng)技術的發(fā)展,機器學習越來越多的參與到社會建設的方方面面,然而當前機器學習始終面臨兩大挑戰(zhàn):一是數(shù)據(jù)安全難以得到保障,數(shù)據(jù)泄露問題頻發(fā);二是由于網(wǎng)絡安全隔離和行業(yè)隱私,不同行業(yè)、不同部門之間存在數(shù)據(jù)壁壘。導致數(shù)據(jù)形成―孤島無法安全共享,而僅憑各部門獨立數(shù)據(jù)訓練的機器學習模型性能無法達到全局最優(yōu)化。為了解決以上問題,谷歌率先提出聯(lián)邦學習技術,其通過將機器學習的數(shù)據(jù)存儲和模型訓練階段轉(zhuǎn)移至本地用戶,而僅與中心服務器交互模型更新的方式有效保障了用戶的隱私安全。
聯(lián)邦學習應用場景不同,客戶端之間持有的數(shù)據(jù)集特征各不相同。假設Dm代表客戶端m持有的數(shù)據(jù),I表示樣本ID,Y表示數(shù)據(jù)集的標簽信息,X表示數(shù)據(jù)集的特征信息,因此一個完整的訓練數(shù)據(jù)集D應由(I,Y,X)構(gòu)成。根據(jù)參與訓練客戶端的數(shù)據(jù)集特征信息X的不同,聯(lián)邦學習被分為橫向聯(lián)邦學習、縱向聯(lián)邦學習和聯(lián)邦遷移學習。
由于安全多方計算(Secure multiparty computation,即MPC)相關技術熱度持續(xù)高升,有許多研究中使用MPC技術直接加密數(shù)據(jù)集進行機器學習訓練,雖然保護了數(shù)據(jù)隱私安全,但是計算開銷和通信開銷呈指數(shù)級增加,在大數(shù)據(jù)環(huán)境下,這顯然更加是一種挑戰(zhàn)。聯(lián)邦學習也應運而生,谷歌率先公開了聯(lián)邦學習框架FATE,其中縱向聯(lián)邦學習支持多個參與方聯(lián)合數(shù)據(jù)集,在數(shù)據(jù)中心形成一個完整的數(shù)據(jù)池進行模型訓練,在此過程中每個參與方數(shù)據(jù)都得到了保護,共同建模提高了模型的擬合度,自身模型無損耗。還有學者將聯(lián)邦學習引入到更加豐富的應用場景中,根據(jù)參與方之間數(shù)據(jù)分布的差異,形成了完整的聯(lián)邦學習框架包括橫向聯(lián)邦學習框架、縱向聯(lián)邦學習框架和聯(lián)邦遷移學習框架。
線性回歸是目前流行病學和醫(yī)學的疾病診斷、金融行業(yè)經(jīng)濟預測等最常用的分析方法,從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學關系式,對這些關系式的可信程度進行各種統(tǒng)計檢驗,并從影響某一特定變量的諸多變量中找出顯著變量。目前聯(lián)邦學習框架中大多使用泰勒展開來進行預測,這樣會大大損失模型的精確度,同時大多數(shù)都有第三方存在,這個第三方在最開始為數(shù)據(jù)各方分配公鑰,第三方持有對應私鑰。各個參與方利用該公鑰對訓練數(shù)據(jù)的中間結(jié)果進行加密后通信,第三方用私鑰解密來自各方的中間結(jié)果,計算得出此次迭代的中間結(jié)果更新。這個過程中,第三方獲得了其他參與方的隱私數(shù)據(jù),參與方的隱私信息仍然存在暴露的危險。而且應用公鑰系統(tǒng)會導致復雜性過高。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于同態(tài)加密的線性回歸縱向聯(lián)邦學習方法。在訓練階段,利用梯度構(gòu)建乘法對,相比于Fate的訓練方法,本發(fā)明直接去除第三方,數(shù)據(jù)隱私得到更好的保護,同時訓練過程中始終利用梯度來更新參數(shù),在保證系統(tǒng)安全性的同時,大大降低了系統(tǒng)的復雜性和提高系統(tǒng)的效率。訓練結(jié)束后,提供兩種模型預測方法,去除第三方的預測方法,簡單高效,能迅速得到結(jié)果,基于差分隱私的預測方法,在借助第三方的算力同時,加入拉普拉斯噪音能有效防止數(shù)據(jù)被反推出來,避免了全集的設定,高效且安全。
實現(xiàn)本發(fā)明目的的具體技術方案是:
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華東師范大學;上海境山科技有限公司,未經(jīng)華東師范大學;上海境山科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210064492.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 人臉識別方法和系統(tǒng)
- 一種面向隱私保護的浮點數(shù)全同態(tài)加密方法
- 基于截斷多項式的對稱全同態(tài)加密方法
- 一種基于同態(tài)加密的整數(shù)密文算術運算方法
- 一種數(shù)據(jù)安全共享系統(tǒng)及方法
- 一種數(shù)據(jù)加密方法、裝置、設備及介質(zhì)
- 一種基于Intel QAT的同態(tài)加密卸載方法
- 一種基于同態(tài)承諾的區(qū)塊鏈隱私保護方法及區(qū)塊鏈系統(tǒng)
- 一種車聯(lián)網(wǎng)中基于同態(tài)加密的聯(lián)邦學習隱私保護方法
- 一種同態(tài)加密請求的路由方法和裝置





