[發明專利]數據模型訓練方法和裝置有效
| 申請號: | 201810256461.3 | 申請日: | 2018-03-26 |
| 公開(公告)號: | CN108520181B | 公開(公告)日: | 2022-04-22 |
| 發明(設計)人: | 石佩林;王曉勇 | 申請(專利權)人: | 聯想(北京)有限公司 |
| 主分類號: | G06F21/60 | 分類號: | G06F21/60;G06F21/62;G06N20/00 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 楊靜 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據模型 訓練 方法 裝置 | ||
本公開提供了一種數據模型訓練方法,包括:獲取訓練集,所獲取的該訓練集中包括多條訓練數據,對該訓練集進行第一隱私保護處理,得到加密訓練集。使用該加密訓練集對數據模型進行訓練,得到模型參數。對所得到的模型參數進行第二隱私保護處理,得到加密模型參數,基于該加密模型參數生成加密數據模型。其中,第一隱私保護處理使得加密訓練集不同于訓練集、且加密訓練集與訓練集的訓練結果相同;第二隱私保護處理使得加密模型參數不同于模型參數,且基于加密模型參數生成的加密數據模型與基于模型參數生成的數據模型在輸入相同時具有相同的輸出結果。本公開還提供了一種數據模型訓練裝置、以及一種計算機設備。
技術領域
本公開涉及一種數據模型訓練方法和裝置。
背景技術
近年來,人工智能強制崛起,人們領略到了人工智能技術的巨大潛力,人工智能技術中,數據是載體,智能是目標,而機器學習是從數據通往智能的技術途徑。機器學習的本質是計算機利用已有的數據訓練出某種數據模型,并利用此數據模型進行預測的過程。
在實現本公開構思的過程中,發明人發現現有技術基于機器學習或深度學習進行數據模型訓練的過程中,訓練數據以及訓練結束后得到的模型參數往往是公開的,處于攻擊者想獲取便可獲取的不安全狀態,很容易被攻擊者惡意利用。
發明內容
本公開的一個方面提供了一種數據模型訓練方法,包括:獲取訓練集,所獲取的該訓練集中包括多條訓練數據,對該訓練集進行第一隱私保護處理,得到加密訓練集。使用該加密訓練集對數據模型進行訓練,得到模型參數。對所得到的模型參數進行第二隱私保護處理,得到加密模型參數,基于該加密模型參數生成加密數據模型。
其中,第一隱私保護處理使得加密訓練集不同于訓練集、且加密訓練集與訓練集的訓練結果相同;第二隱私保護處理使得加密模型參數不同于模型參數,且基于加密模型參數生成的加密數據模型與基于模型參數生成的數據模型在輸入相同時具有相同的輸出結果。
可選地,訓練集中還包括一條或多條標記數據,則上述對訓練集進行第一隱私保護處理是指對訓練集中的訓練數據進行第一隱私保護處理,上述使用加密訓練集對數據模型進行訓練是指使用訓練集中經過第一隱私保護處理的訓練數據對數據模型進行訓練。進一步地,該方法還包括:訓練結束后,判斷所述訓練集中的標記數據的值是否發生變化,是則確定所述加密數據模型無效。
可選地,訓練集中的訓練數據和標記數據按照均勻分布混合。
可選地,訓練集中的訓練數據附有標記位,上述對訓練集進行第一隱私保護處理,得到加密訓練集包括:對訓練集中的訓練數據進行第一隱私保護處理,得到多條附有標記位的加密訓練數據,組成加密訓練集。進一步地,該方法還包括:訓練結束后,判斷加密訓練集中是否存在未附有標記位的數據,是則確定加密數據模型無效。
可選地,該方法還包括:獲取驗證集,在上述基于加密模型參數生成加密數據模型之后,將驗證集中的各驗證數據的輸入項輸入至加密數據模型,統計輸出結果與相應驗證數據的輸出項的匹配率,當匹配率高于預設閾值時,確定加密數據模型有效,否則確定加密數據模型無效。其中,驗證集中包括一條或多條驗證數據,每條驗證數據均包括適配于基于模型參數生成的數據模型的輸入項和輸出項。
可選地,上述對訓練集進行第一隱私保護處理包括:根據該訓練集,確定第一隨機分布噪聲函數,基于第一隨機分布噪聲函數對該訓練集進行加噪處理。并且/或者,上述對模型參數進行第二隱私保護處理包括:根據該模型參數,確定第二隨機分布噪聲函數,基于第二隨機分布噪聲函數對模型參數進行加噪處理。
可選地,第一隨機分布噪聲函數包括拉普拉斯分布噪聲函數、指數分布噪聲函數、或高斯分布噪聲函數中的任一項,并且/或者,第二隨機分布噪聲函數包括拉普拉斯分布噪聲函數、指數分布噪聲函數、或高斯分布噪聲函數中的任一項。
本公開的另一個方面提供了一種數據模型訓練裝置,包括:輸入模塊、加密模塊、訓練模塊和輸出模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于聯想(北京)有限公司,未經聯想(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810256461.3/2.html,轉載請聲明來源鉆瓜專利網。





