[發明專利]一種基于數據分離的聯合模型訓練方法及系統在審
| 申請號: | 202210156754.0 | 申請日: | 2022-02-21 |
| 公開(公告)號: | CN115544534A | 公開(公告)日: | 2022-12-30 |
| 發明(設計)人: | 閆軍;劉毅 | 申請(專利權)人: | 超級視線科技有限公司 |
| 主分類號: | G06F21/60 | 分類號: | G06F21/60;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 河北省張家口市橋東區站前東大街*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 分離 聯合 模型 訓練 方法 系統 | ||
本發明公開一種基于數據分離的聯合模型訓練方法及系統,包括中心節點建立中心模型并進行初始化賦值,得到初始化模型;分支節點對初始分支模型訓練,得到分支模型梯度;中心節點根據多個分支模型的梯度計算中心節點的梯度并根據中心節點的梯度數據更新中心模型參數;并評估更新后的中心模型是否滿足訓練指標。本發明將業務方數據與合作方數據分離,使業務方和合作方在進行模型聯合訓練時無法訪問到其他參與方的數據,保證了各參與方的數據安全;能夠充分利用業務方和合作方計算資源,將聯合訓練的算力需求分散到更多的系統中,減少了模型訓練時的計算資源瓶頸問題;能夠提升模型健壯性,兼顧業務方數據特性和合作方數據特性。
技術領域
本發明涉及人工智能領域,特別是深度神經網絡技術,以及分布式計算技術領域。
背景技術
隨著人工智能理論和技術的不斷發展,其社會影響日益擴大,越來越多的產業得到人工智能技術的賦能。深度學習技術作為人工智能的重要組成部分,已逐漸成為學術界和工業界的研究熱點之一。深度學習技術實踐的一個重要特點是,首先將所要解決的問題抽象為一個優化問題,然后在大量數據中不斷優化模型。這些數據經歷了人工的收集和整理,能夠描述問題的輸入和期望的輸出。深度學習模型通過在足夠多次的迭代優化之后,學習到數據中隱含的模式,最終生成模型結果。因此,數據是深度學習技術開展過程中的重要元素,它在某種程度上決定了最終模型的功能和性能水平。
運用深度學習技術解決問題的一般場景是,業務方負責搜集和整理業務數據,并負責組織計算資源搭建深度學習模型訓練環境。但是,近年來隨著人工智能技術應用不斷深入,所需解決的問題日趨復雜。這類問題通常需要更加龐大的數據集作為模型訓練的基礎。例如,包含更多樣化的樣本的數據集有利于模型處理特例問題,包含更多維度信息的數據集有利于模型進一步優化問題的解,包含更多樣本數量的數據集能夠增強模型的魯棒性等等。總之,為了解決更加復雜的問題,業務方需要搜集更加廣泛的數據。然而,業務方的數據資源是有限的,業務方本身的數據有時難以支持所有業務需求。新的業務需求促使業務方尋找相應的合作伙伴,借此引入合作方數據,以期訓練更加健壯的深度學習模型。在這樣的場景下,數據安全問題通常會作為合作的基礎,業務方需要在利用各個參與方的數據的同時,保護好各參與方的數據安全。
常用的數據安全保護機制是數據加密技術。數據加密技術是為提高信息系統和數據的安全性和保密性,防止秘密數據被外部破譯而采用的主要技術手段之一。按照作用的不同,數據加密技術可分為數據傳輸加密技術、數據存儲加密技術、數據完整性的鑒別技術和密鑰管理技術。參與方在提供數據支持時,需要考慮數據傳輸和數據存儲過程中對數據進行加密處理,防止數據以明文的形式出現。因此,在正常的數據加密的情況下,業務方僅能通過密文形式訪問到合作方的數據。但是,深度學習模型的訓練是基于訓練數據的,深度學習技術通過在大量數據中不斷迭代來學習數據中蘊含的某些特征。如果數據加密技術對數據的更改破壞了數據的統計特性,則可能會造成模型在訓練過程中無法獲取有效的信息,導致訓練不能收斂,最終無法建立模型。所以,一般的數據加密技術通常難以直接用于深度學習模型的訓練過程。
常用的同態加密技術(Homomorphic Encryption)可以用于深度學習模型訓練過程。同態加密技術能夠對訓練數據進行加密,加密后的數據僅允許密鑰擁有者解密和訪問。同態加密技術同時保證在加密數據集上的計算與在明文數據集上的計算等價,從而保證基于密文訓練集的模型與基于明文訓練的模型具有同等的性能水平,進一步支持業務方直接將加密數據用于深度學習。因此,在深度學習模型聯合訓練時,同態加密技術是確保各個參與方數據安全性的解決方案之一。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于超級視線科技有限公司,未經超級視線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210156754.0/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





