[發明專利]一種安全多方數值型記錄匹配方法有效
| 申請號: | 201810067980.5 | 申請日: | 2018-01-24 |
| 公開(公告)號: | CN108334577B | 公開(公告)日: | 2020-02-07 |
| 發明(設計)人: | 申德榮;韓姝敏;聶鐵錚;寇月;于戈 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2458;G06F16/28;G06F21/62 |
| 代理公司: | 21234 沈陽優普達知識產權代理事務所(特殊普通合伙) | 代理人: | 張志偉 |
| 地址: | 110169 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似度 記錄匹配 匹配成功 記錄 數據源 數值型屬性 安全快速 三個步驟 生成密鑰 數據對象 數據集成 高效性 模運算 有效地 安全 加密 查詢 查找 重復 優化 保證 統一 | ||
本發明公開一種安全有效的多方數值型記錄匹配方法,屬于數據質量和數據集成領域,具體方法為:各數據源間統一參數、生成密鑰,接著,進行以下三個步驟,(1)利用類模運算加密各數據源中的數值型記錄,(2)安全地查詢出各數值型屬性中的最大最小值,并優化地計算兩者間的相似度作為各記錄在該屬性中的相似度,(3)通過各記錄在各屬性中的相似度,判斷是否匹配成功。采用本發明的多方數值型記錄匹配方法,可以在更短的時間內,更加安全有效地識別出重復的數據對象;通過證明若屬性中最大最小值的相似度大于閾值,則任意兩個屬性值的相似度均大于閾值,只需安全快速地查找出各屬性的最大最小值,即可判斷各數值型記錄是否匹配成功,保證了高效性。
技術領域
本發明屬于數據集成和數據安全領域,主要涉及一種安全有效的多方數值型記錄匹配方法。
背景技術
隨著科技的不斷進步,數據正快速的增長和累積。減少數據冗余,實現數據共享已成為大數據時代的首要任務。記錄鏈接,也稱為實體識別、實體解析、實體匹配、記錄連接、重復探測、記錄去重、實體辨析、引用消歧、重復數據刪除,它是指從一個或多個數據源中匹配出代表現實世界中同一實體的記錄。記錄鏈接的應用范圍很廣泛,包括企業客戶信息管理、欺詐預防、醫療衛生、目錄整合、衛星和遙感數據的識別等。但是,當記錄信息涉及到個人隱私或敏感信息時,我們必須要考慮記錄信息的隱私保護問題。因此,近年來國內外掀起了研究隱私保護下的記錄鏈接(Privacy-preserving record linkage,PPRL)的熱潮。PPRL技術可以保證在記錄鏈接的過程中,只有最終匹配結果被各數據源間共享,其他未匹配的記錄信息均未被泄露。例如,在分散的醫療體系中,某人的醫療信息可能分布在多個醫院,找出同一個人在不同醫院的診斷信息有利于更準確的分析病情,但由于涉及到患者隱私,各醫院并不希望暴露患者的醫療信息。PPRL技術可以既找出某位患者在各醫院的醫療信息,又保證各醫院其他患者的醫療信息不被泄露。因此,PPRL技術不僅具有理論研究價值,而且有著重要和迫切的實際應用價值。
PPRL主要包括三個步驟:數據安全分塊、數據對象相似度安全計算和數據對象對匹配決定。首先,數據安全分塊用于安全地縮小搜索空間,減少無用的數據對象比較,提升識別速度;數據安全分塊是一個可選步驟。其次,安全地計算數據對象之間的相似度是PPRL的一個重要環節,需要保證數據對象對加密后的相似度與原數據對象對的相似度相近,即若相似度越大,則該數據對象對匹配的可能性越大;相似度計算要用到相似度計算函數。最后,當獲得了數據對象相似度之后,需要利用數據對象相似度來決定數據對象之間是否匹配(重復),當前已有多種匹配決定的方法。
目前已有的PPRL方法存在兩方面不足:1)只適用于兩個數據源,對于三個及以上的多方PPRL方法的研究還很少。這是因為想要找到一個可以安全合理度量多條記錄相似度的方法并不容易,而且適用于兩個數據源的相似度度量方法大多數并不適用于多數據源。2)現有隱私保護處理方法只適用于字符串屬性,對于數值型屬性的隱私保護方法研究較少。若將處理字符串的隱私保護方法應用于數值型屬性,處理后的數值型屬性間的相似度很容易與原屬性值間的相似度差別很大,因此需要提出適用于數值型屬性的隱私保護方法。多個參與方和數值型屬性在現實中的很多應用中常見,因此,研究安全有效的多方數值型記錄匹配方法具有重要的現實意義。
發明內容
針對已有安全多方記錄匹配方法的不足,如只適用于字符型數據、加密過程復雜、時間代價大等不足,本發明提供了一種適用于數值型記錄的高效的安全多方記錄匹配方法。
一種安全多方數值型記錄匹配方法,包括以下步驟:
步驟1.多方數據源數值型記錄的加密;給定參與方個數P,利用類模運算(smod)對數值型記錄加密,P個參與方統一公共匹配屬性A={an|1≤n≤d};
數值型記錄的定義:1)某一條記錄中全部屬性的屬性值均為數值型,則該記錄為數值型記錄;2)某一條記錄中部分屬性的屬性值為數值型,則提取全部或部分數值型屬性即可視為數值型記錄。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810067980.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種數據展現系統及其數據展示方法
- 下一篇:一種數據庫雙活檢查方法與裝置





