[發(fā)明專利]數(shù)據(jù)防竊取方法和相關(guān)產(chǎn)品在審
| 申請?zhí)枺?/td> | 201910897929.1 | 申請日: | 2019-09-20 |
| 公開(公告)號: | CN110795703A | 公開(公告)日: | 2020-02-14 |
| 發(fā)明(設(shè)計)人: | 胡海波;鄭樺迪;葉青青;方成方;時杰 | 申請(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號: | G06F21/14 | 分類號: | G06F21/14;G06F21/60;G06F21/62;G06N20/00;G06K9/62;G06K9/46 |
| 代理公司: | 44202 廣州三環(huán)專利商標代理有限公司 | 代理人: | 郝傳鑫;熊永強 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 標簽 特征向量 目標數(shù)據(jù) 人工智能領(lǐng)域 獲取目標 模型預(yù)測 目標標簽 輸出目標 特征提取 擾動 竊取 預(yù)測 申請 | ||
本申請實施例公開了人工智能領(lǐng)域中的一種數(shù)據(jù)防竊取方法和相關(guān)產(chǎn)品,該方法可包括:獲取目標數(shù)據(jù);將所述目標數(shù)據(jù)輸入至識別模型進行識別處理,得到第一標簽;所述第一標簽為所述目標數(shù)據(jù)所屬的標簽,所述識別處理包括:所述識別模型對所述目標數(shù)據(jù)進行特征提取處理以得到第一特征向量;所述識別模型根據(jù)所述第一特征向量,預(yù)測得到所述第一標簽;在確定存在第二特征向量的情況下,輸出目標標簽;所述第二特征向量為與所述第一特征向量之間的距離小于第一閾值的特征向量,且其經(jīng)由所述識別模型預(yù)測得到的第二標簽與所述第一標簽不同;所述目標標簽為對所述第一標簽進行擾動處理得到的標簽;可以有效防止識別模型(一種AI模型)的參數(shù)被獲取。
技術(shù)領(lǐng)域
本申請涉及人工智能領(lǐng)域,尤其涉及一種數(shù)據(jù)防竊取方法和相關(guān)產(chǎn)品。
背景技術(shù)
隨著人工智能(Artificial Intelligence,AI)的快速發(fā)展,機器學習系統(tǒng)逐漸開始在語音識別、圖像處理、醫(yī)療決策、系統(tǒng)安全等領(lǐng)域發(fā)揮重大作用。目前,許多機器學習服務(wù)提供商通過收集大量的標注數(shù)據(jù)來訓(xùn)練一個高效的AI模型,并將AI模型預(yù)測服務(wù)封裝成特定接口供外部調(diào)用。例如阿里云圖像識別,騰訊云文字識別,百度AI語音識別等等。AI模型本身的安全問題引起了很多研究人員的注意,例如模型竊取攻擊。
模型竊取攻擊是指攻擊者通過分析機器學習系統(tǒng)(即AI模型)的輸入(即查詢內(nèi)容)、輸出(即輸出的標簽或者分數(shù))和其他外部信息(例如網(wǎng)絡(luò)類型、網(wǎng)絡(luò)結(jié)構(gòu)等),推測出該機器學習系統(tǒng)的網(wǎng)絡(luò)參數(shù)。模型竊取攻擊會造成一些安全問題,例如知識產(chǎn)權(quán)的竊取、數(shù)據(jù)泄露等。樣本收集和訓(xùn)練AI模型需要耗費大量的計算資源和人力調(diào)參,訓(xùn)練出來的AI模型是重要的知識產(chǎn)權(quán)。模型竊取攻擊會使得AI模型持有者遭受財產(chǎn)損失。另外,攻擊者根據(jù)被竊取的AI模型,進行推理攻擊會造成訓(xùn)練樣本中的個人數(shù)據(jù)泄露。例如通過推斷特定人員是否存在于訓(xùn)練某種疾病網(wǎng)絡(luò)的訓(xùn)練樣本中,從而可以判斷受害人是否患有該疾病。因此,一套行之有效的AI模型防竊取技術(shù)對機器學習服務(wù)商來說尤為重要。
為防止AI模型的參數(shù)被竊取,Kesarwani等人提出了一種基于監(jiān)測用戶查詢記錄的竊取風險系統(tǒng)。該竊取風險系統(tǒng)實現(xiàn)的一種監(jiān)控方法是通過監(jiān)測用戶的查詢在特征空間的覆蓋率來發(fā)出高竊取風險預(yù)警。在該監(jiān)控方法中,該竊取風險系統(tǒng)根據(jù)用戶發(fā)起的查詢歷史,計算出整體的特征覆蓋區(qū)域;當個體的覆蓋率或者多個共同的覆蓋率達到預(yù)設(shè)上限,系統(tǒng)就會發(fā)出高竊取風險預(yù)警。然而,在該監(jiān)控方法至少存在以下缺點:1)需要假設(shè)用戶合謀的情況,因此要同時考慮多個用戶查詢分布且要并發(fā)處理,復(fù)雜度高;2)主要通過提前中斷了可疑用戶的服務(wù)達到保護,容易產(chǎn)生大量的誤報,并且每一個已經(jīng)返回的查詢結(jié)果是沒有得到保護的。因此,需要研究新的AI模型防竊取方法。
發(fā)明內(nèi)容
本申請實施例公開了一種數(shù)據(jù)防竊取方法和相關(guān)產(chǎn)品,可以有效防止識別模型(一種AI模型)的參數(shù)被獲取。
第一方面,本申請實施例提供了一種數(shù)據(jù)防竊取方法,該方法可包括:獲取目標數(shù)據(jù),該目標數(shù)據(jù)包括一個或多個計算機可處理的信號;將該目標數(shù)據(jù)輸入至識別模型進行識別處理,得到第一標簽;該第一標簽為該目標數(shù)據(jù)所屬的標簽,該識別處理包括:該識別模型對該目標數(shù)據(jù)進行特征提取處理以得到第一特征向量;該識別模型根據(jù)該第一特征向量,預(yù)測得到該第一標簽;在確定存在第二特征向量的情況下,輸出目標標簽;該第二特征向量為與該第一特征向量之間的距離小于第一閾值的特征向量,且其經(jīng)由該識別模型預(yù)測得到的第二標簽與該第一標簽不同;該目標標簽為對該第一標簽進行擾動處理得到的標簽。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910897929.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





