[發明專利]基于BGW協議的隱私保護機器學習激活函數的運算方法在審
| 申請號: | 202010571112.8 | 申請日: | 2020-06-22 |
| 公開(公告)號: | CN111859267A | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 韓偉力;湯定一 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F17/15 | 分類號: | G06F17/15;G06N3/08 |
| 代理公司: | 上海正旦專利代理有限公司 31200 | 代理人: | 王潔平 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bgw 協議 隱私 保護 機器 學習 激活 函數 運算 方法 | ||
本發明屬于網絡空間安全領域,具體為一種基于BGW協議的隱私保護機器學習激活函數的運算方法。本發明將安全多方計算協議與機器學習激活函數結合,以提供安全高效的機器學習激活函數為目標,實現了基于BGW協議的機器學習激活函數。安全多方計算友好的機器學習激活函數可以是安全ReLU函數或安全Sigmoid函數。本發明可用于基于安全多方計算協議的機器學習模型或框架實現相關激活函數,而不會泄露中間過程信息。
技術領域
本發明屬于網絡空間安全技術領域,具體為一種基于BGW協議的隱私保護機器學習激活函數的運算方法。
背景技術
機器學習已廣泛應用于各自實際場景。比如,互聯網公司收集海量用戶行為數據訓練更精確的推薦模型。醫院收集健康數據生成診斷模型。金融企業使用歷史交易記錄訓練更準確的欺詐模型。
在機器學習中,數據規模對于模型準確率起著重要作用。然而,分布在多個數據源或個人中的數據不能簡單合并。如GDPR之類與隱私問題相關的法規,企業保持競爭優勢方面的考慮和數據主權相關的問題使得數據無法被公開共享。基于安全多方計算的隱私保護機器學習,允許不同主體在其聯合數據上訓練各自模型,而不會泄露除最終模型之外的任何信息。
所有機器學習算法都可以表示為數據流圖。數據流圖由節點和邊組成。數據流圖中的每個節點代表一個運算符或矩陣形式的輸入輸出數據。節點通過有向邊相連,這表示訓練過程的數據流。運算符定義了在前向傳播和反向傳播中需要執行的操作,并被抽象為可在需要時使用的基礎計算組件。當且僅當已經計算了指向該節點的所有節點時,才會執行該節點上定義的操作。在這種構造中,在同一數據流圖上定義了正向傳播和反向傳播,這確保了正向傳播和反向傳播的一致性。
節點分為三類:輸入節點,權重節點和算子節點。
輸入節點代表輸入矩陣,即用于訓練模型的訓練數據。
權重節點是模型中的權重矩陣。它是模型訓練的參數,需要在訓練之前進行初始化,并在每輪訓練之后進行更新。
算子節點負責包括矩陣加法和矩陣乘法在內的運算。每個運算符節點需要定義Forward方法和Grad方法,分別表示運算符在正向傳播和反向傳播期間需要執行的操作。
每個節點都維護兩個矩陣:forward,grad。forward矩陣維護正向傳播的結果,正向傳播按拓撲序依次計算每個算子。而grad矩陣維護反向傳播的結果,反向傳播按逆拓撲序依次計算每個算子。
有限域中帶符號整數表示
帶符號整數通過函數fld:被編碼在整數域其中q2k,通過類似于二進制補碼的形式將帶符號整數編碼在整數域。
函數LTZ
Octavian Catrina等人于2010年提出了秘密共享整數比較操作的優化算法。
[s]←LTZ([a],k)
LTZ協議用于比較秘密共享的帶符號整數[a]與0的大小,其中k表示帶符號整數的有效位數。如果[a]0,則[s]值為1,否則值為0。在本文中使用中括號括起來的數表示秘密共享數。
發明內容
本發明的目的在于提出一種基于BGW協議的隱私保護機器學習激活函數的運算方法;本發明可用于基于安全多方計算協議的機器學習模型或框架實現相關激活函數,而不會泄露中間過程信息。能使得基于BGW協議的機器學習框架與現有使用明文訓練的機器學習框架,在訓練相同模型時,得到的模型在測試集上的準確率基本持平。
本發明的技術方案具體如下介紹。
本發明提供一種基于BGW協議的隱私保護機器學習激活函數的運算方法,激活函數為安全ReLU函數,安全ReLU函數中的ReLU算子定義了前向傳播階段和反向傳播階段需要執行的操作;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010571112.8/2.html,轉載請聲明來源鉆瓜專利網。





