[發明專利]一種多方記錄鏈接方法、電子設備、存儲介質及系統在審
| 申請號: | 201810587775.1 | 申請日: | 2018-06-08 |
| 公開(公告)號: | CN109002466A | 公開(公告)日: | 2018-12-14 |
| 發明(設計)人: | 尚凌輝;陳鑫;葉淑陽 | 申請(專利權)人: | 浙江捷尚人工智能研究發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 廣州市越秀區哲力專利商標事務所(普通合伙) 44288 | 代理人: | 胡擁軍;糜婧 |
| 地址: | 310000 浙江省杭州市余杭區五常*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似度 記錄 候選匹配 鏈接 存儲介質 電子設備 匹配成功 容錯性 數據源 匹配 數據預處理 相似度計算 標識記錄 分塊處理 可擴展性 鏈接系統 位置檢查 有效計算 質量問題 利率 參與方 查全率 查準率 閾值時 近似 隱私 轉換 失敗 全局 | ||
本發明提供一種多方記錄鏈接方法,包括步驟:數據預處理,對若干參與方的數據源分別進行分塊處理,將數據源中的記錄轉換為位數組;記錄近似匹配,計算位數組對應位置比特1所占的比率,利率達到動態閾值時,確定利率對應位置為候選匹配位置;相似度計算,計算候選匹配位置之間的相似度,判斷相似度是否達到全局閾值,是則匹配成功,否則匹配失敗。本發明還涉及電子設備、存儲介質、多方記錄鏈接系統;本發明采用比率來標識記錄間在某位置的相似度,提高了容錯性;采用動態閾值及候選匹配位置檢查確定匹配成功位置,查全率和查準率高;能夠有效計算有質量問題的記錄間的相似度;本發明實現了多方記錄鏈接,能夠有效保護隱私,可擴展性和容錯性好。
技術領域
本發明涉及記錄鏈接技術領域,尤其涉及一種多方記錄鏈接方法、電子設備、存儲介質及系統。
背景技術
隨著科技的不斷進步,數據正快速地增長和累積,大數據時代已經到來。如何組織和分析這些數據,是發揮數據價值的關鍵所在。但現有的記錄鏈接方法在記錄信息涉及到個人隱私或敏感信息時,未考慮記錄信息的隱私保護問題。現有的記錄鏈接方法都只適用于兩個數據源,而現實中的很多應用進行記錄鏈接的數據源往往不只兩個。隨著數據量的不斷增長和現實世界數據質量問題的存在,如拼寫錯誤、順序顛倒等,現有的記錄鏈接方法的可擴展性和容錯性較差,因此,急需一種隱私保護性好、可擴展性和容錯性高的多方數據源記錄鏈接方法。
發明內容
為了克服現有技術的不足,本發明的目的之一在于提供一種多方記錄鏈接方法,解決了現有記錄鏈接方法無法保護隱私、不適用于多方數據源、可擴展性和容錯性較差的問題。
本發明提供一種多方記錄鏈接方法,包括以下步驟:
數據預處理,對若干參與方的數據源分別進行分塊處理,將所述數據源中的記錄轉換為位數組;
記錄近似匹配,計算所述位數組對應位置比特1所占的比率,所述利率達到動態閾值時,確定所述利率對應位置為候選匹配位置;
相似度計算,計算所述候選匹配位置之間的相似度,判斷所述相似度是否達到全局閾值,是則匹配成功,否則匹配失敗。
進一步地,所述步驟數據預處理具體為采用布隆過濾器將所述數據源中的記錄轉換為位數組。
進一步地,所述步驟數據預處理還包括將所述位數組均分為若干片段,將所述片段分別傳至對應參與方。
進一步地,還包括步驟檢查候選匹配位置,查找所述候選匹配位置中比特0位置對應的記錄,獲得第一記錄,判斷所述第一記錄數量是否達到檢測閾值,是則判定記錄不匹配;否則查找與比特0最近的比特1位置對應的記錄,獲得第二記錄,計算所述第一記錄與所述第二記錄之間的相似度,若相似度大于所述全局閾值,則判定所述候選匹配位置為匹配成功位置。
一種電子設備,包括:處理器;
存儲器;以及程序,其中所述程序被存儲在所述存儲器中,并且被配置成由處理器執行,所述程序包括用于執行上述一種多方記錄鏈接方法。
一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行上述一種多方記錄鏈接方法。
一種多方記錄鏈接系統,包括:
數據預處理模塊:用于對若干參與方的數據源分別進行分塊處理,將所述數據源中的記錄轉換為位數組;
記錄近似匹配模塊:用于計算所述位數組對應位置比特1所占的比率,所述利率達到動態閾值時,確定所述利率對應位置為候選匹配位置;
相似度計算模塊:用于計算所述候選匹配位置之間的相似度,若所述相似度達到全局閾值,則匹配成功。
進一步地,所述數據預處理模塊具體為采用布隆過濾器將所述數據源中的記錄轉換為位數組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江捷尚人工智能研究發展有限公司,未經浙江捷尚人工智能研究發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810587775.1/2.html,轉載請聲明來源鉆瓜專利網。





