[發明專利]基于不可學習噪聲生成器的數據保護方法、設備、介質在審
| 申請號: | 202211601288.9 | 申請日: | 2022-12-13 |
| 公開(公告)號: | CN115952536A | 公開(公告)日: | 2023-04-11 |
| 發明(設計)人: | 李頡;曾益;吳晨濤;紀呼嘯;余翔;王超 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F21/62 | 分類號: | G06F21/62;G06V10/764;G06V10/774 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 宣慧蘭 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 不可 學習 噪聲 生成器 數據 保護 方法 設備 介質 | ||
本發明涉及基于不可學習噪聲生成器的數據保護方法、設備、介質,所述方法包括如下步驟:獲取目標數據集以及隨機的生成器種子,針對所述生成器種子,采用預設的輔助分類模型進行優化,獲取優選的生成器種子,完成噪聲生成器進行初始化;根據所述優選的生成器種子,生成基于標簽分類的不可學習噪聲,針對所述目標數據集中的每個樣本,加入所述不可學習噪聲,獲取不可學習數據集。與現有技術相比,本發明通過加噪前使用輔助分類模型進行訓練,在使用生成器加噪過程中讓具有相同標簽的圖像的噪聲具有相似的特征,解決或部分解決現有的基于標簽的噪聲容易導致原始數據泄露的問題。
技術領域
本發明涉及大數據與人工智能領域,尤其是涉及一種基于不可學習噪聲生成器的數據保護方法、設備、介質。
背景技術
數據知識產權和隱私保護方法是深度學習領域中一項重要的問題。近年來深度學習在計算機視覺、自然語言處理等領域已經取得了突破性的進展,這在一定程度上歸功于網絡空間中數據量的指數級增長和計算機數據處理能力的不斷增強。伴隨著大規模數據集如ImageNet、JFT-300M等的使用,神經網絡模型在一些任務上的準確程度甚至已經超過了人類。
然而大部分深度學習數據集都是研究人員從網上爬取得到的,這就會涉及到個人數據隱私的問題;同時,很多大規模數據集的采集與標注都傾注了大量的人力、物力,因此數據集的知識產權也是一個非常重要的話題。無論是未經授權的數據采集還是模型訓練,都會帶來關于個人隱私、知識產權方面的糾紛。對于商用的數據集來說,不誠實的用戶會私自爬取公開提供的預覽圖像來用作深度神經網絡模型的訓練集,從而給數據擁有者造成損失;對于私人使用的圖像,其中包含的所有者的個人隱私可能被侵犯。此外,這些圖像還可能被用來訓練一些用于不道德甚至非法目的的神經網絡模型。
近年來,面對深度學習中數據知識產權和隱私保護中的這些關鍵問題,研究人員已經提出了一些解決機器學習場景下的數據集知識產權保護和數據隱私問題的方法。這些方法大致可以分成三類:訓練過程中的隱私保護技術、訓練完成后的侵權推斷技術以及訓練開始前的數據擾動技術,即不可學習樣本。
訓練過程中的隱私保護技術是指在模型多方合作訓練過程中對訓練數據或者梯度數據進行一定的修改,從而使其他參與者無法從梯度更新信息中反推出訓練數據;訓練完成后的侵權推斷技術是依據訓練完成的模型對訓練數據和非訓練數據的不同的表現,推斷出模型訓練集是否包含某個數據集;而不可學習噪聲則是通過在數據集中添加肉眼無法察覺到的噪聲,使其無法訓練出一個有效的模型。
訓練過程中的隱私保護技術在保護數據隱私方面取得了重大進展,但它的假設是,數據擁有者授權了神經網絡模型的訓練;侵權推斷技術在白盒情況和黑盒情況下都取得了一定的成功,然而上述方法都需要數據集擁有者去追蹤訓練好的神經網絡模型,而且數據集擁有者仍然需要花費時間和精力去進行維權;而不可學習噪聲則解決了在未授權場景下對侵犯數據之產權行為的預防。
目前傳統的不可學習噪聲分為基于標簽、基于樣本兩種形式。基于標簽的噪聲與圖像所標注的標簽有一對一的對應關系,而基于樣本的噪聲與圖像本身有一對一的對應關系。傳統的不可學習噪聲存在以下瓶頸:
(1)基于標簽的噪聲很容易導致原始圖片的泄露:如果其中一個原始圖像被泄露,那么攻擊者就可以推斷出該類所有圖像的噪聲。此外,用一些統計方法,噪音也很容易被檢測出來。
(2)基于樣本的噪聲比較難被檢測出來,但如果數據擁有者希望同時保存原始圖像樣本和不可學習樣本,這種方法需要雙倍的存儲空間。
(3)基于樣本的噪聲表現不如基于標簽的噪聲的表現好。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種基于不可學習噪聲生成器的數據保護方法、設備、介質,通過加噪前使用輔助分類模型進行訓練,在加噪過程中讓具有相同標簽的圖像的噪聲具有相似的特征,從而解決或部分解決現有的基于標簽的噪聲容易導致原始數據泄露的問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211601288.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種線束連接器的焊點保護結構及其應用方法
- 下一篇:一種組合式烘干設備





