[發明專利]一種用于實體匹配的方法及系統有效
| 申請號: | 201510407893.6 | 申請日: | 2015-07-13 |
| 公開(公告)號: | CN105045863B | 公開(公告)日: | 2018-09-28 |
| 發明(設計)人: | 李直旭;楊強;蔣俊 | 申請(專利權)人: | 蘇州大學張家港工業技術研究院;蘇州大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 常亮 |
| 地址: | 215699 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 實體 匹配 方法 系統 | ||
1.一種用于實體匹配的方法,其特征在于,該方法包括:
將待匹配實例對從預先訓練的決策樹的根節點對應的屬性開始進行訪問,獲取所述待匹配實例對的各屬性的屬性相似度和置信度;
利用所述屬性相似度和所述置信度,結合調整系數計算并輸出所述待匹配實例對的實體相似度;
將所述實體相似度與預設實體相似度閾值進行對比,判斷所述待匹配實例對的相似性;
其中,所述決策樹是利用由已知的匹配實體組成的實例對中共同的非主屬性集合和/或主屬性集合訓練獲得;
其中,所述將待匹配實例對從預先訓練的決策樹的根節點對應的屬性開始進行訪問,獲取所述待匹配實例對的各屬性的屬性相似度和置信度包括:
將所述待匹配實例對對所述決策樹的根節點對應的屬性進行訪問,得到根節點對應屬性的置信度,并計算所述待匹配實例對根節點對應屬性的屬性相似度;
根據所述根節點對應屬性的屬性相似度與預設屬性相似度閾值的大小確定葉節點,并將所述待匹配實例對對所述葉節點對應的屬性進行訪問,得到當前葉節點對應屬性的置信度,并計算所述待匹配實例對當前葉節點對應屬性的屬性相似度;
根據所述當前葉節點對應屬性的屬性相似度與預設屬性相似度閾值的大小確定下一級葉節點繼續進行訪問,直至葉節點的頂端,獲取所述待匹配實例對的各屬性的屬性相似度和置信度。
2.根據權利要求1所述的實體匹配的方法,其特征在于,所述決策樹的預先訓練方法包括:
選取由已知的匹配實體組成的實例對構成第一訓練樣本集;
根據所述第一訓練樣本集得到每個非主屬性的充分性概率和必要性概率;
根據所述非主屬性的充分性概率或必要性概率的大小,利用所述非主屬性構建第一決策樹;
其中,選取所述非主屬性中所述充分性概率或者所述必要性概率最大的屬性作為所述第一決策樹的根節點。
3.根據權利要求1所述的實體匹配的方法,其特征在于,所述決策樹的預先訓練方法包括:
選取由已知的匹配實體組成的實例對構成第二訓練樣本集;
根據所述第二訓練樣本集得到每個非主屬性和主屬性的充分性概率和必要性概率;
根據所述非主屬性和主屬性的充分性概率或必要性概率的大小,利用所述非主屬性和主屬性構建第二決策樹;
其中,選取所述非主屬性和主屬性中,所述充分性概率或者所述必要性概率最大的屬性作為所述第二決策樹的根節點。
4.根據權利要求1所述的實體匹配的方法,其特征在于,所述利用所述屬性相似度和所述置信度,結合調整系數計算并輸出所述待匹配實例對的實體相似度的計算公式為:
其中,FPRTree(t,s)表示由實體t和實體s構成的待匹配實例對(t,s)的實體相似度,height(Ai)表示屬性Ai在所述決策樹中對應的節點的高度,表示調整系數,Conf(Ai)表示屬性Ai的置信度,sim(t[Ai],s[Ai])表示兩個待處理實體中屬性Ai的相似度,t[Ai]表示實體t中屬性Ai的值,s[Ai]表示實體s中屬性Ai的值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學張家港工業技術研究院;蘇州大學,未經蘇州大學張家港工業技術研究院;蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510407893.6/1.html,轉載請聲明來源鉆瓜專利網。





