[發明專利]一種面向空間知識圖譜的地理實體匹配與融合方法在審
| 申請號: | 202011194857.3 | 申請日: | 2020-10-30 |
| 公開(公告)號: | CN112163101A | 公開(公告)日: | 2021-01-01 |
| 發明(設計)人: | 樂鵬;上官博屹;龔健雅;姜良存;張明達;胡磊 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/28;G06F16/29;G06K9/62;G06N20/20 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 許蓮英 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 空間 知識 圖譜 地理 實體 匹配 融合 方法 | ||
1.一種面向空間知識圖譜的地理實體匹配與融合方法,其特征在于,包括以下步驟:
步驟1,構建數據結構、空間坐標系均相同的地理實體對象數據集;
步驟2,根據步驟1中所述數據供應商的類別體系中不同層級的類別的集合中所有類別進行遍歷,基于人工標注的方法尋找不同數據供應商中匹配相似的類型;
步驟3,根據不同地理實體供應商提供的地理實體數據構建地理實體數據集,在地理實體數據集中篩選出空間直線距離小于空間距離閾值的地理實體,以構建待匹配地理實體對集合,根據待匹配地理實體對集合分別提取名稱字面相似度、名稱語音相似度、名稱詞袋相似度、幾何相似度、類別相似度,進一步構建待匹配地理實體對相似度特征集合;
步驟4,從待匹配地理實體對集合中隨機選取一定數量的待匹配地理實體對,人工基于經驗逐一對比判斷每一個隨機選擇的待匹配地理實體對中兩個實體的名稱是否近似、空間位置是否鄰近、類別是否相同,如果都是,則認為該待匹配地理實體對相似,屬于匹配關系,將其劃分為正樣本,否則劃分為負樣本,并進行標簽標注,獲取地理實體匹配樣本集合;
步驟5,構建地理實體匹配深度學習網絡模型,以地理實體匹配樣本集合作為輸入數據,將待匹配地理實體對相似度特征集合中獲取的對應的待匹配地理實體對匹配樣本的相似度特征作為輸入數據,地理實體匹配樣本集合的樣本的標簽值為輸出進行優化訓練,構建訓練后地理實體匹配深度學習網絡模型;
步驟6,將待匹配的地理實體對集合中的所有待匹配地理實體對,依次通過訓練后地理實體匹配深度學習網絡模型進行預測得到每個待匹配地理實體對的預測結果,進一步根據每個待匹配地理實體對的預測結果進行過濾篩選得到匹配地理實體對集合;
步驟7,將匹配地理實體對集合中包含相同地理實體的地理實體對進行合并,獲得匹配地理實體集合;
步驟8,根據匹配地理實體集集合中所有匹配地理實體集中的地理實體之間的各個屬性判斷是否相同,進一步獲取得到各個匹配地理實體集中存在的屬性沖突;
步驟9,根據各個匹配地理實體集中存在的屬性沖突,人工制定沖突解決策略對屬性沖突進行消解,從而融合匹配地理實體集獲得匹配地理實體集融合實體集合。
2.根據權利要求1所述的面向空間知識圖譜的地理實體匹配與融合方法,其特征在于:
步驟1中所述地理實體對象數據集定義為:
GeoEntityCollectionn={GeoEntityn,1,GeoEntityn,2,...,GeoEntityn,Mn},n∈{1,2,…,N}
其中,GeoEntityCollectionn表示第n個供應商的地理實體對象數據集,N為數據供應商的數量,Mn為第n個數據供應商中地理實體對象的數量;
第n個數據供應商中第m個地理實體對象為:
GeoEntityn,m={GEn,m.name、GEn,m.geom、GEn,m.type、GEn,m.tags}
n∈{1,2,…,N},m∈{1,2,…,Mn}
其中,N為數據供應商的數量,Mn為第n個數據供應商中地理實體對象的數量,GEn,m.name表示第n個數據供應商中第m個地理實體對象的名稱,GEn,m.geom表示第n個數據供應商中第m個地理實體對象的空間坐標,GEn,m.type表示第n個數據供應商中第m個地理實體對象的類別,GEn,m.tags表示第n個數據供應商中第m個地理實體對象的標簽;
所述GEn,m.name為文本字符串類型,用于描述地理實體名稱的文本字符串;
所述GEn,m.geom為地理坐標系GeoCSn中的坐標,具體定義為:
GEn,m.geom={GEn,m.geom.x,GEn,m.geom.y}
n∈{1,2,…,N},m∈{1,2,…,Mn}
其中,GeoCSn為第n個數據供應商中地理實體對象的地理空間坐標系,N為數據供應商的數量,Mn為第n個數據供應商中地理實體對象的數量,GEn,m.geom.x表示第n個數據供應商中第m個地理實體對象在地理空間坐標系中的橫軸坐標,GEn,m.geom.y表示第n個數據供應商中第m個地理實體對象在地理空間坐標系中的縱軸坐標,均為浮點數類型;
GEn,m.geom通過空間數據投影坐標轉換算法,將GEn,m.geom從GeoCSn轉換為統一地理坐標系UGeoCS下;
GEn,m.geomT=GeoTransform(GEn,m.geom,GeoCSn,UGeoCS)
其中,GEn,m.geomT為轉換后的地理坐標,GeoTransform將原地理坐標根據原坐標系和目標坐標系進行坐標轉換;
所述GEn,m.type為第n個數據供應商的類別體系中不同層級的類別的集合,具體定義為:
GEn,m.type={typen,l,tl}
l∈{1,2,…,Ln},tl∈{1,2,…,Tn,l}
其中,Ln為第n個數據供應商的類別體系中類別層級的數量,Tn,l為第n個數據供應商的類別體系中第l層級的類別數量,typen,l,tl為第n個數據供應商的類別體系的第l層級的第tl個類型;
所述第n個數據供應商的類別體系由多個類別層級組成,具體定義為:
TypeClassn={TypeLeveln,1,TypeLeveln,2,…,TypeLeveln,l}
l∈{1,2,…,Ln}
其中,TypeLeveln,l代表第n個數據供應商的類別體系的第l層類別的集合,Ln為第n個數據供應商的類別體系中類別層級的數量;
TypeLeveln,l有多個類型組成,具體定義為:
TypeLeveln,l={typen,l,1,typen,l,2,…,typen,l,t}
l∈{1,2,…,Ln},t∈{1,2,…,Tn,l}
其中,typen,l,t代表第n個數據供應商的類別體系的第l層類別的第t個類型,Ln為第n個數據供應商的類別體系中類別層級的個數,Tn,l為第n個數據供應商的類別體系中第l層級的類別數量;
所述GEn,m.tags為標簽名、標簽值的鍵值對集合,具體定義為:
GEn,m.tags={tag1,value1,tag2,value2,…,tagk,valuek}
k∈{1,2,…,Kn,m}
其中,tagk,valuek代表第k個鍵值對,Kn,m為第n個數據供應商中第m個地理實體對象的鍵值對的數量;
若GEn,m.name、GEn,m.geom、GEn,m.type、GEn,m.tags中有任意一個值為空值,則去除GeoEntityn,m;
若數據供應商n中有兩個地理實體對象GEn,m1與GEn,m2,m1≠m2,m1,m2∈{1,2,…,Mn}四個屬性都相同,則只選擇保留一個對象。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011194857.3/1.html,轉載請聲明來源鉆瓜專利網。





