[發明專利]基于群體計算的實體解析方法及裝置有效
| 申請號: | 201510076586.4 | 申請日: | 2015-02-12 |
| 公開(公告)號: | CN104573130B | 公開(公告)日: | 2017-11-03 |
| 發明(設計)人: | 劉旭東;孫海龍;郭莉莎;張日崇 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司11205 | 代理人: | 馬爽,黃健 |
| 地址: | 100191 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 群體 計算 實體 解析 方法 裝置 | ||
1.一種基于群體計算的實體解析方法,其特征在于,包括:
基于眾包的分層聚類方法對數據庫中的初始記錄進行分層聚類,得到至少兩個聚類子集;
當檢測到所述數據庫中增加了新記錄時,獲取所述新記錄的特征信息;
根據所述至少兩個聚類子集的子集信息及所述新記錄的特征信息從所述至少兩個聚類子集中得到與所述新記錄最相關的至少兩個相關聚類子集;其中,所述至少兩個聚類子集的子集信息包括:所述聚類子集的標簽集信息及索引信息;
根據所述新記錄與所述至少兩個相關聚類子集中每個記錄的相似度大小關系確定與所述至少兩個相關聚類子集分別對應的候選記錄對;
通過眾包用戶標注方式判斷是否至少一個所述候選記錄對代表同一實體;若確定第一候選記錄對代表同一實體,則將所述新記錄添加到第一記錄所屬的第一聚類子集中,并更新所述第一聚類子集的標簽集;若確定所有所述候選記錄對都不代表同一實體,則為所述新記錄建立一個新聚類子集,并為所述新聚類子集創建標簽集;其中,所述第一記錄與所述新記錄形成所述第一候選記錄對。
2.根據權利要求1所述的方法,其特征在于,所述基于眾包的分層聚類方法對數據庫中的初始記錄進行分層聚類,得到至少兩個聚類子集,包括:
根據每對所述初始記錄之間代表同一實體的概率大小將代表同一實體的概率大于上限概率閾值的初始記錄對聚為一類,形成相應的初級聚類子集,并為每個所述初級聚類子集創建標簽集及索引;其中,每對所述初始記錄形成所述初始記錄對;
通過眾包用戶標注方式依次將所述初級聚類子集分層地進行合并,直至合并后的各個聚類子集之間的最小距離大于下限閾值,最終得到至少兩個聚類子集。
3.根據權利要求2所述的方法,其特征在于,所述根據每對所述初始記錄之間代表同一實體的概率大小將代表同一實體的概率大于上限概率閾值的初始記錄對聚為一類,形成相應的初級聚類子集,包括:
獲取所述初始記錄對代表同一實體的概率;
將代表同一實體的概率大于上限概率閾值的所述初始記錄對聚為一類,形成相應的初級聚類子集。
4.根據權利要求2所述的方法,其特征在于,所述通過眾包用戶標注方式依次將所述初級聚類子集分層地進行合并,直至合并后的各個聚類子集之間的最小距離大于下限閾值,最終得到至少兩個聚類子集,包括:
步驟A、計算所述初級聚類子集中每對初級聚類子集之間的距離,選擇所述距離最小的一對初級聚類子集作為兩個候選合并子集;
步驟B、判斷所述兩個候選合并子集之間的距離是否小于下限閾值;若所述兩個候選合并子集之間的距離小于所述下限閾值,則分別從所述兩個候選合并子集中選擇第二記錄形成第二候選記錄對,將所述第二候選記錄對以及所述兩個候選合并子集的標簽集發送給眾包平臺,以使所述眾包平臺判斷所述第二候選記錄對是否代表同一實體以及是否對所述標簽集中的標簽點贊,判斷所述第二候選記錄對是否代表同一實體的結果為第一判斷結果;其中,所述第二候選記錄對為所述兩個候選合并子集中代表同一實體的概率最大的記錄對;
步驟C、接收所述眾包平臺返回的第一判斷結果,并根據所述第一判斷結果確定是否將所述兩個候選合并子集合并以及根據所述眾包平臺對所述標簽集中標簽的點贊次數對所述標簽集中的標簽進行排序和/或過濾;若根據所述第一判斷結果確定所述兩個候選合并子集代表同一實體,則將所述兩個候選合并子集合并為一個聚類子集,更新所述聚類子集的標簽集及索引,并將合并得到的所述聚類子集作為初級聚類子集;若根據所述第一判斷結果確定所述兩個候選合并子集不代表同一實體,則將所述兩個候選合并子集之間的距離設為1;
返回繼續執行所述步驟A-步驟C,直至所述兩個候選合并子集之間的距離大于所述下限閾值,則將至少兩個所述初級聚類子集作為得到的所述至少兩個聚類子集。
5.根據權利要求3所述的方法,其特征在于,所述獲取所述初始記錄對代表同一實體的概率,包括:
根據所述初始記錄對的相應屬性之間的相似性計算所述初始記錄對的相似度;
基于機器學習模型計算所述初始記錄對代表同一實體的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510076586.4/1.html,轉載請聲明來源鉆瓜專利網。





