[發明專利]在數據隱私保護下執行機器學習的方法和系統在審
| 申請號: | 202110336435.3 | 申請日: | 2018-09-28 |
| 公開(公告)號: | CN112948889A | 公開(公告)日: | 2021-06-11 |
| 發明(設計)人: | 郭夏瑋;涂威威;姚權銘 | 申請(專利權)人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62;G06N20/00 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 蘇銀虹;曾世驍 |
| 地址: | 100085 北京市海淀區清*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 隱私 保護 執行 機器 學習 方法 系統 | ||
提供了一種在數據隱私保護下執行機器學習的方法和系統,所述方法包括:獲取包括多條目標數據記錄的目標數據集;獲取關于源數據集的多個遷移項,其中,所述多個遷移項之中的每個遷移項用于在源數據隱私保護下將對應的一部分源數據集的知識遷移到目標數據集;分別利用所述多個遷移項之中的每個遷移項來獲得與每個遷移項對應的第一目標機器學習模型,以獲得多個第一目標機器學習模型;利用所述多個第一目標機器學習模型獲得第二目標機器學習模型,其中,在獲得所述多個第一目標機器學習模型的過程中和/或獲得第二目標機器學習模型的過程中,在目標數據隱私保護方式下利用了所述多條目標數據記錄中的全部或部分。
技術領域
本發明總體說來涉及人工智能領域中的數據安全技術,更具體地說,涉及一種在數據隱私保護下執行機器學習的方法和系統、以及利用具有數據隱私保護的機器學習模型進行預測的方法和系統。
背景技術
眾所周知,機器學習往往需要大量的數據以通過計算的手段從大量數據中挖掘出有價值的潛在信息。盡管隨著信息技術的發展產生了海量的數據,然而,當前環境下,人們對數據的隱私保護越來越重視,這使得即使理論上可用于機器學習的數據很多,也因為不同數據源出于其對自身所擁有的數據的隱私保護上的考慮,而不愿或不能將其數據直接共享給其他有需要的數據使用者,從而使得實際上可用于機器學習的數據仍然可能不足,由此導致無法有效地利用機器學習基于更多的相關數據挖掘出能夠創造更多價值的信息。此外,即使已經從其他數據源獲取到含有隱私信息的數據或者機構本身擁有含有隱私信息的數據,基于這些數據訓練出的機器學習模型仍然可能泄露數據的隱私信息。
另外,雖然目前存在一些對數據進行隱私保護的方式,但是實際操作中卻往往難以同時兼顧數據隱私保護和受隱私保護數據的后續可用性這兩者,從而導致機器學習效果不佳。
鑒于此,需要既保證數據中的隱私信息不被泄露,同時在能夠保證受隱私保護的數據的后續可用性的情況下有效利用不同數據源的數據進行機器學習的技術。
發明內容
根據本公開示例性實施例,提供了一種在數據隱私保護下執行機器學習的方法,所述方法可包括:獲取包括多條目標數據記錄的目標數據集;獲取關于源數據集的多個遷移項,其中,所述多個遷移項之中的每個遷移項用于在源數據隱私保護下將對應的一部分源數據集的知識遷移到目標數據集;分別利用所述多個遷移項之中的每個遷移項來獲得與每個遷移項對應的第一目標機器學習模型,以獲得多個第一目標機器學習模型;利用所述多個第一目標機器學習模型獲得第二目標機器學習模型,其中,在獲得所述多個第一目標機器學習模型的過程中和/或獲得第二目標機器學習模型的過程中,在目標數據隱私保護方式下利用了所述多條目標數據記錄中的全部或部分。
可選地,所述對應的一部分源數據集可以是通過將源數據集按照數據屬性字段劃分而獲得的源數據子集。
可選地,獲取關于源數據集的多個遷移項的步驟可包括:從外部接收關于源數據集的多個遷移項。
可選地,獲取關于源數據集的多個遷移項的步驟可包括:獲取包括多條源數據記錄的源數據集,其中,源數據記錄和目標數據記錄包括相同的數據屬性字段;將源數據集按照數據屬性字段劃分為多個源數據子集,其中,每個源數據子集中的數據記錄包括至少一個數據屬性字段;在源數據隱私保護方式下,基于每個源數據子集,針對第一預測目標訓練與每個源數據子集對應的源機器學習模型,并將訓練出的每個源機器學習模型的參數作為與每個源數據子集相關的遷移項。
可選地,獲得與每個遷移項對應的第一目標機器學習模型的步驟可包括:在不使用目標數據集的情況下,直接將每個遷移項作為與其對應的第一目標機器學習模型的參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于第四范式(北京)技術有限公司,未經第四范式(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110336435.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





