[發明專利]一種基于知識庫推理的將非標準地址轉換為標準地址的方法及系統有效
| 申請號: | 202011141247.7 | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN112347222B | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 呂曉寶;葉愷翔;王元兵;王海榮 | 申請(專利權)人: | 中科曙光南京研究院有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/36;G06F40/151;G06F40/30 |
| 代理公司: | 南京泰普專利代理事務所(普通合伙) 32360 | 代理人: | 張帆 |
| 地址: | 211102 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識庫 推理 非標準 地址 轉換 標準 方法 系統 | ||
1.一種基于知識庫推理的將非標準地址轉換為標準地址的方法,其特征在于包括如下步驟:
步驟1:設定地址知識庫的本體;
步驟2:構建標準地址知識庫;
步驟21、構建標準地址知識庫、構建標準地址的詞向量、構建實體間的關系、計算實體間關系、獲取隱含關系,所述構建標準地址知識庫包括傳統的標準地址庫、非結構化的文本數據;
步驟22、從傳統的標準地址庫構建實體,傳統的標準地址庫包括地名、經緯度、地址類型、地址標簽;在納入知識圖譜時,每一條標準地址根據步驟1中實體的uuid,形成一個實體,并根據字段和實體屬性的映射關系將字段值標準化為相應屬性值;
步驟23、根據標準知識庫構建標準地址的詞向量,所述構建標準地址的詞向量采用步長為1、窗長為2的切分方式切割地址字符串,產生一組長度為2的字符串,作為向量的基,向量的值為每個基在地址字符串中出現的次數;
步驟24、在從結構化的行政區劃信息中構建實體間的關系,通過現有行政區劃信息直接構建下級地址和上級地址的屬于關系以及同一地址因名稱叫法不同產生的等于關系;
步驟25、根據所述經緯度計算出實體間關系,計算兩兩實體之間的距離和方位,將1公里作為近鄰關系的截斷半徑,將東西南北四個方位按照各自標準角度左和右各偏離45°作為各自的方向區間,將同一路段上各個地址單元實體沿該路段的實際旅行距離作為方位關系的距離屬性值;
步驟26、根據所述非結構化文本數據構建抽取知識庫中現有實體之間的隱含關系,進一步從人為口頭描述的地址以及對應的人工校準標準地址之間獲取隱含關系;
對于每一條所述非結構化文本數據,首先根據實體命名識別的方式提取文本中的地址要素,將提取的地址要素以所述構建標準地址的詞向量,與知識庫中的各個實體的地址詞向量,通過余弦相似度算法,進行比對,映射至知識庫中的實體A;
步驟3:通過余弦相似度算法進行比對;
步驟4:提取原始文本的地址信息。
2.根據權利要求1所述的一種基于知識庫推理的將非標準地址轉換為標準地址的方法,其特征在于,所述步驟1中所述地址知識庫的本體包括知識圖譜本體、實體的uuid、實體屬性、實體間的關系,其中所述知識圖譜本體包含省、市、區縣、街道鄉鎮、路段、地址單元六個層級,實體為不同層級的對應的標準地址,通過全局唯一標識符進行區分;所述實體的uuid由三部分組成分別為知識庫中知識圖譜本體、名稱、數字編號;所述數字編號為行政區劃編號或者地址編號;所述實體屬性包括名稱、類型、標簽、中心點經緯度、邊界經緯度序列、備注,所述標簽為地址實體的社會屬性。
3.根據權利要求1所述的一種基于知識庫推理的將非標準地址轉換為標準地址的方法,其特征在于,所述步驟3進一步為:
所述通過余弦相似度算法進行比對,以非標地址字符串分割后的詞向量記為向量和由于各自的基不同,因此的向量空間不同,需要換算至相同的向量空間,模塊運算提取、兩向量基的并集,構成合并基,將、 兩向量轉換到合并基所組成的新的合并向量空間中,則非標地址詞向量a與標準地址詞向量b之間的使用余弦相似公式計算相似度步驟如下:
步驟31、將兩個詞向量的基進行拼接,形成一個向量基并集,得到新的詞向量值,產生的新向量分別為(1,1,0,0),(0,1,1,1);
步驟32、根據余弦相似度算法得出如下方式:
式中,和均表示向量;
記向量;向量從而代入余弦相似度算法中,進而得出如下方式:
通過上述方式,對每一條的非標準地址提取余弦相似度最高的標準地址,形成查詢非標準地址的標準候選集,進一步根據記錄的人工校驗標準地址獲取實體B。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科曙光南京研究院有限公司,未經中科曙光南京研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011141247.7/1.html,轉載請聲明來源鉆瓜專利網。





