[發明專利]一種數據處理方法、裝置及設備在審
| 申請號: | 202110102757.1 | 申請日: | 2021-01-26 |
| 公開(公告)號: | CN112819156A | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 曹佳炯;丁菁汀 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08;G06N20/00 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 朱文杰 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 設備 | ||
本說明書實施例公開了一種數據處理方法、裝置及設備,該方法包括:獲取聯邦學習框架中的數據提供機構提供的待檢測的目標數據;將所述目標數據輸入到第一數據風險檢測模型中,得到第一輸出結果,并將所述目標數據輸入到第二數據風險檢測模型中,得到第二輸出結果,所述第一數據風險檢測模型為基于所述聯邦學習框架中的數據提供機構提供的第一樣本數據進行監督訓練得到,第二數據風險檢測模型為基于所述聯邦學習框架中的數據提供機構提供的第二樣本數據和所述第二樣本數據所屬的數據提供機構的機構標識通過信息重建的方式進行監督訓練得到;如果所述第一輸出結果和所述第二輸出結果不匹配,則確定所述目標數據為包含毒素信息的數據。
技術領域
本說明書涉及計算機技術領域,尤其涉及一種數據處理方法、裝置及設備。
背景技術
機器學習和深度學習近年來得到了極大應用,但由于隱私問題,各個機構的數據無法進行彼此之間的共享,因此,聯邦學習被提出以解決上述數據孤島問題。
但是,在聯邦學習框架中可能會存在一些惡意的攻擊行為,例如某一個數據提供機構或者多個數據提供機構通過上傳攜帶有毒素信息的數據,來干擾第三方平臺對模型的梯度的計算結果,由于聯邦學習框架中第三方平臺對于任何機構來說都是被信任的平臺,因此不會對惡意的數據提供機構提供的毒素信息有任何感知,從而使得其它機構的模型的性能急劇下降,損害了整個聯邦學習的可靠性和有效性。常用的對于攜帶有毒素信息的數據(尤其是樣本數據)的防御機制,往往很難應用于聯邦學習框架下,為此,需要提供一種毒素信息的防御能力更高、并可以提高聯邦學習可靠性和有效性的技術方案。
發明內容
本說明書實施例的目的是提供一種毒素信息的防御能力更高、并可以提高聯邦學習可靠性和有效性的技術方案。
為了實現上述技術方案,本說明書實施例是這樣實現的:
本說明書實施例提供的一種數據處理方法,所述方法包括:獲取聯邦學習框架中的數據提供機構提供的待檢測的目標數據。將所述目標數據輸入到第一數據風險檢測模型中,得到第一輸出結果,并將所述目標數據輸入到第二數據風險檢測模型中,得到第二輸出結果,所述第一數據風險檢測模型為基于所述聯邦學習框架中的數據提供機構提供的第一樣本數據進行監督訓練得到,第二數據風險檢測模型為基于所述聯邦學習框架中的數據提供機構提供的第二樣本數據和所述第二樣本數據所屬的數據提供機構的機構標識通過信息重建的方式進行監督訓練得到。如果所述第一輸出結果和所述第二輸出結果不匹配,則確定所述目標數據為包含毒素信息的數據。
本說明書實施例提供的一種數據處理裝置,所述裝置包括:數據獲取模塊,獲取聯邦學習框架中的數據提供機構提供的待檢測的目標數據。毒素信息檢測模塊,將所述目標數據輸入到第一數據風險檢測模型中,得到第一輸出結果,并將所述目標數據輸入到第二數據風險檢測模型中,得到第二輸出結果,所述第一數據風險檢測模型為基于所述聯邦學習框架中的數據提供機構提供的第一樣本數據進行監督訓練得到,第二數據風險檢測模型為基于所述聯邦學習框架中的數據提供機構提供的第二樣本數據和所述第二樣本數據所屬的數據提供機構的機構標識通過信息重建的方式進行監督訓練得到。毒素信息確定模塊,如果所述第一輸出結果和所述第二輸出結果不匹配,則確定所述目標數據為包含毒素信息的數據。
本說明書實施例提供的一種數據處理設備,包括:處理器;以及被安排成存儲計算機可執行指令的存儲器,所述可執行指令在被執行時使所述處理器:獲取聯邦學習框架中的數據提供機構提供的待檢測的目標數據。將所述目標數據輸入到第一數據風險檢測模型中,得到第一輸出結果,并將所述目標數據輸入到第二數據風險檢測模型中,得到第二輸出結果,所述第一數據風險檢測模型為基于所述聯邦學習框架中的數據提供機構提供的第一樣本數據進行監督訓練得到,第二數據風險檢測模型為基于所述聯邦學習框架中的數據提供機構提供的第二樣本數據和所述第二樣本數據所屬的數據提供機構的機構標識通過信息重建的方式進行監督訓練得到。如果所述第一輸出結果和所述第二輸出結果不匹配,則確定所述目標數據為包含毒素信息的數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110102757.1/2.html,轉載請聲明來源鉆瓜專利網。





