[發明專利]一種用于實體匹配的方法及系統有效
| 申請號: | 201510407893.6 | 申請日: | 2015-07-13 |
| 公開(公告)號: | CN105045863B | 公開(公告)日: | 2018-09-28 |
| 發明(設計)人: | 李直旭;楊強;蔣俊 | 申請(專利權)人: | 蘇州大學張家港工業技術研究院;蘇州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 常亮 |
| 地址: | 215699 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 實體 匹配 方法 系統 | ||
本申請提供了一種用于實體匹配的方法及系統,該方法包括:將待匹配實例對從預先訓練的決策樹的根節點對應的屬性開始進行訪問,獲取所述待匹配實例對的各屬性的屬性相似度和置信度;利用所述屬性相似度和所述置信度,結合調整系數計算并輸出所述待匹配實例對的實體相似度;將所述實體相似度與預設實體相似度閾值進行對比,判斷所述待匹配實例對的相似性;其中,所述決策樹是利用由已知的匹配實體組成的實例對中共同的非主屬性集合和/或主屬性集合訓練獲得。該方法通過利用已知的實例對中兩個實體共同的非主屬性集合和/或主屬性集合訓練獲得決策樹,在進行實體匹配的過程中考慮了非主屬性的作用,提高了實體匹配的準確率和召回率。
技術領域
本申請涉及數據庫技術領域,尤其涉及一種用于實體匹配的方法及系統。
背景技術
在信息化不斷發展的當今社會,每天都有各種各樣的信息涌入我們的生活。然而,在這些信息當中不乏那些重復的信息,這不僅導致了信息的冗余,而且極有可能帶來數據不一致的問題。
數據表中包含著多個實體,在兩個數據表中可能存在相同的實體,這兩個實體構成一個實例對表示同一個實體。由于這些實例可能以不同的方式表示,也可能在涵蓋信息的廣度上有所不同,使得在進行信息整合時無法較好的識別出這些相同的實體,不僅耗時耗力,而且效率低下,因此需要找出這些實例對,對它們加以識別,以便于信息的融合。
現有的大量實體匹配方法都是依賴于實體的主屬性的值,通過對字符串相似度計算來度量實體的相似度,并根據預先定義好的相似度閾值與計算所得的相似度比較決定實例對是否匹配。然而,由于躁數據和空缺值(指數據表中某一行下的某一屬性的值為空)的影響,這種武斷地設定閾值的方式既會影響到實體匹配的準確率也會影響其召回率。同時,由于主屬性表達方式的千差萬別,導致對于那些主屬性相似度較低的實例對在現有的方法下無法準確的對匹配結果加以判斷,甚至導致誤匹配問題。
發明內容
有鑒于此,本申請提供了一種用于實體匹配的方法及系統,以克服現有技術中在進行實體匹配時單純依賴主屬性值影響實體匹配的準確率和召回率的問題。
為實現上述目的,本申請提供以下技術方案:
一種用于實體匹配的方法,該方法包括:
將待匹配實例對從預先訓練的決策樹的根節點對應的屬性開始進行訪問,獲取所述待匹配實例對的各屬性的屬性相似度和置信度;
利用所述屬性相似度和所述置信度,結合調整系數計算并輸出所述待匹配實例對的實體相似度;
將所述實體相似度與預設實體相似度閾值進行對比,判斷所述待匹配實例對的相似性;
其中,所述決策樹是利用由已知的匹配實體組成的實例對中共同的非主屬性集合和/或主屬性集合訓練獲得。
優選的,所述將待匹配實例對從預先訓練的決策樹的根節點對應的屬性開始進行訪問,獲取所述待匹配實例對的各屬性的屬性相似度和置信度包括:
將所述待匹配實例對對所述決策樹的根節點對應的屬性進行訪問,得到根節點對應屬性的置信度,并計算所述待匹配實例對根節點對應屬性的屬性相似度;
根據所述根節點對應屬性的屬性相似度與預設屬性相似度閾值的大小確定葉節點,并將所述待匹配實例對對所述葉節點對應的屬性進行訪問,得到當前葉節點對應屬性的置信度,并計算所述待匹配實例對當前葉節點對應屬性的屬性相似度;
根據所述當前葉節點對應屬性的屬性相似度與預設屬性相似度閾值的大小確定下一級葉節點繼續進行訪問,直至葉節點的頂端,獲取所述待匹配實例對的各屬性的屬性相似度和置信度。
優選的,所述決策樹的預先訓練方法包括:
選取由已知的匹配實體組成的實例對構成第一訓練樣本集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學張家港工業技術研究院;蘇州大學,未經蘇州大學張家港工業技術研究院;蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510407893.6/2.html,轉載請聲明來源鉆瓜專利網。





