[發明專利]基于語義一致性的具有隱私保護的分布式近似性搜索方法有效
| 申請號: | 201810342218.3 | 申請日: | 2018-04-17 |
| 公開(公告)號: | CN108509651B | 公開(公告)日: | 2019-03-12 |
| 發明(設計)人: | 胡鳴珂;崔志鍇;胡海峰 | 申請(專利權)人: | 胡海峰 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F21/62 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 李吉寬 |
| 地址: | 210003 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 轉換矩陣 語義一致性 近似性 拉格朗日乘子 目標函數 隱私保護 通信 搜索 大規模數據 數據隱私性 傳輸通信 分類標記 近鄰節點 搜索過程 訓練算法 有效解決 原始信息 初始化 集中式 求解 更新 構建 數據庫 存儲 視頻 圖像 引入 交換 | ||
本發明公開了基于語義一致性的具有隱私保護的分布式近似性搜索方法。首先在各個節點的數據庫中對圖像、視頻、文件進行分類標記,初始化轉換矩陣和拉格朗日乘子,然后引入語義一致性構建目標函數,求解上述目標函數,更新轉換矩陣。近鄰節點進行通信,并判斷各節點的轉換矩陣是否趨于一致,更新拉格朗日乘子,最后進行近似性搜索過程。本發明解決了大規模數據在存儲,計算時所需規模過大,集中式地訓練算法模型已不再適合的問題。而且通過使用轉換矩陣進行節點間的通信,節點間的通信不交換原始信息,能有效解決傳輸通信過大的問題,同時能對節點上的數據隱私性進行有效保護。
技術領域
本發明屬于機器學習領域,主要涉及在分布式環境下采用距離度量學習確保樣本的一致性,具體涉及基于語義一致性的具有隱私保護的分布式近似性搜索方法。
背景技術
隨著社交網絡、電子商務、移動互聯網等的不斷發展,數據需要存儲、處理的規模越來越大,單機系統已無法滿足日益增長的需求。Google、Alibaba等互聯網公司成功催生了云計算和大數據這兩大熱門領域,云計算和大數據都是構建在分布式存儲之上的應用。云存儲的核心是后端的大規模分布式存儲系統,大數據不僅需要存儲海量的數據,還要通過合適的框架和工具對這些數據進行分析,得到其中有用的部分,如果沒有分布式的存儲就談不上對大數據進行分析。雖然分布式系統的研究已經進行了很多年,但直到近些年,互聯網大數據的興起才使得分布式系統大規模地應用在工程實踐中。分布式系統是利用多臺計算機協同解決單臺計算機所不能解決的計算、存儲問題,分布式系統與單機系統最大的區別就在于問題的規模。它是由多個節點組成的系統,往往將一臺服務器或者服務器上的一個進程稱為一個節點,這些節點一般不是孤立的,而是通過網絡來互相通信,傳遞信息。另外,由于智能手機等移動終端的快速發展,智能手機存儲了大量的圖片、文本和視頻等信息,智能手機也可以看做是一個獨立的節點,智能手機之間通過基站或者相互之間通過分布式協作來提高數據處理能力。
隱私保護是數據挖掘中的一個重要研究方向,正是由于數據挖掘的廣泛應用,使得隱私保護受到極大的關注。分布式計算中,各節點之間必然要進行相互的通信,在通信的過程中,就可能存在節點隱私泄露的情況。如何在保護隱私的同時有效地進行分布式的存儲和計算是當今研究的一個熱點。目前,分布式環境下隱私保護的方法主要有數據擾動、加密存儲、安全多方計算等。數據擾動是指對原始數據采取封閉或隱藏的方式,產生新的數據源,但這種方式會大大降低數據精確性,從而影響分析結果。加密存儲是一種公認的數據保護技術,主要通過加密和解密的方式保護隱私數據。安全多方計算技術,屬于密碼學研究的范疇,通過一些基礎的協議構建出保護隱私協議的方案。但以上算法均需要增加額外的計算和存儲開銷。
另外,機器學習中廣泛采用的歐式距離不能很好地反映樣本之間的語義信息,比如“哈士奇”和“吉娃娃”都屬于類別“狗”,但“哈士奇”可能和“狼”看起來更接近,它們的歐氏距離比“哈士奇”和“吉娃娃”的歐氏距離更近,因此通過訓練學習到一個優化的轉換矩陣,通過轉換矩陣映射到新的空間,在新的空間中同種類別的樣本它們之間的距離更近,這樣就更可能找到語義近鄰,提高搜索的精度。而馬氏距離能通過轉換矩陣的不斷優化,將原始的特征空間映射到新的特征空間,使得具有相同標記的樣本在新的特征空間中的距離盡可能的小,具有不同標記的樣本之間的距離不斷拉大,這樣在新的特征空間中更加符合語義一致性。
綜上所述,現有技術中對于如何利用馬氏距離環境下具有相同標記的樣本在新的特征空間中的距離較小的優點解決分布式計算時節點間傳輸原始數據容易造成信息泄露的問題尚沒有公開的披露。
發明內容
本發明的目的在于提供一種基于語義一致性的具有隱私保護的分布式近似性搜索方法,主要用于解決圖像,視頻,文本等樣本數目大,無法精確的找到語義近鄰,同時分布式計算時節點間傳輸原始數據容易造成信息的泄露,傳輸量過大的問題,本方法的主要目的是通過分布式訓練,以較低的計算開銷訓練得到全局優化的轉換矩陣,同時保護分布式訓練中各節點的數據隱私,并實現查詢樣本的語義一致性近鄰搜索。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于胡海峰,未經胡海峰許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810342218.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種違禁視頻內容檢索系統
- 下一篇:數據處理系統及方法





