[發明專利]一種基于知識庫推理的將非標準地址轉換為標準地址的方法及系統有效
| 申請號: | 202011141247.7 | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN112347222B | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 呂曉寶;葉愷翔;王元兵;王海榮 | 申請(專利權)人: | 中科曙光南京研究院有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/36;G06F40/151;G06F40/30 |
| 代理公司: | 南京泰普專利代理事務所(普通合伙) 32360 | 代理人: | 張帆 |
| 地址: | 211102 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識庫 推理 非標準 地址 轉換 標準 方法 系統 | ||
本發明公開了一種基于知識庫推理的將非標準地址轉換為標準地址的方法及系統,其中所述方法具體為:首先,設定地址知識庫的本體,其次,構建標準地址知識庫,從傳統的標準地址庫構建實體,進一步構建標準地址的詞向量,通過余弦相似度算法,進行比對,映射至知識庫中的實體,基于地址名稱,運用語義相似度算法在標準地址知識庫中查找與地址要素相匹配的實體,進一步通過命名實體識別,提取出原始文本中的地址要素以及方位關系描述信息;通過自然語言處理、知識圖譜的處理,將非標準化地址文本數據,通過算法自動映射到標準地址,完成地址數據的清洗治理。
技術領域
本發明涉及一種地址轉換技術,尤其是一種基于知識庫推理的將非標準地址轉換為標準地址的方法及系統。
背景技術
隨著各地數字城市、智慧城市信息化建設如火如荼的進行,這些不同部門的業務信息也逐漸被納入到信息化建設內容中來,然而這些信息中表述空間位置的地址大都是采用自然語言文字描述的語義地名地址信息,而在信息世界中描述各類地物方位狀態的則是決定空間主體的相對位置關系的空間地理坐標,是各類信息空間化的主要指標,地址空間化是基于位置的應用服務信息化系統的核心技術之一,如何將地址和空間地理坐標進行關聯匹配是實現各類地址信息空間化的關鍵,也是實現大批量業務數據空間化管理的基礎。
目前非標地址映射算法,基本都是通過計算標準地址中各個地址文本與非標地址相似度,然后選取最相似的地址作為輸出結果,一般采用的相似度算法,有如下幾種:1、基于關鍵字的匹配;2、基于短文本向量的余弦相似度;3、基于字符串的編輯距離;4、基于用戶點擊行為的大數據推薦;5、將映射過程看作文本分類任務,通過樸素貝葉斯、神經網絡模型進行機器自動學習,這些相似度算法基本能符合非標地址映射的需求,但是缺少推理能力。
發明內容
發明目的:提供一種數據中心機房復雜路徑規劃系統,以解決上述問題。
技術方案:一種數據中心機房復雜路徑規劃系統,包括:
步驟1:設定地址知識庫的本體;
步驟2:構建標準地址知識庫;
步驟3:通過余弦相似度算法進行比對;
步驟4:提取原始文本的地址信息。
根據本發明的一個方面,所述步驟1中所述地址知識庫的本體包括知識圖譜本體、實體的uuid、實體屬性、實體間的關系,其中所述知識圖譜本體包含省、市、區縣、街道鄉鎮、路段、地址單元六個層級,實體為不同層級的對應的標準地址,通過全局唯一標識符進行區分;所述實體的uuid由三部分組成分別為知識庫中知識圖譜本體、名稱、數字編號;所述數字編號為行政區劃編號或者地址編號;所述實體屬性包括名稱、類型、標簽、中心點經緯度、邊界經緯度序列、備注,所述標簽則為地址實體的社會屬性。
根據本發明的一個方面,所述步驟2進一步為:
步驟21、構建標準地址知識庫、構建標準地址的詞向量、構建實體間的關系、計算實體間關系、獲取隱含關系,所述構建標準地址知識庫包括傳統的標準地址庫、非結構化的文本數據;
步驟22、從傳統的標準地址庫構建實體,傳統的標準地址庫包括地名、經緯度、地址類型、地址標簽;在納入知識圖譜時,每一條標準地址根據步驟1中實體的uuid,形成一個實體,并根據字段和實體屬性的映射關系將字段值標準化為相應屬性值;
步驟23、根據標準知識庫構建標準地址的詞向量,所述構建標準地址的詞向量采用步長為1、窗長為2的切分方式切割地址字符串,產生一組長度為2的字符串,作為向量的基,向量的值為每個基在地址字符串中出現的次數;
步驟24、在從結構化的行政區劃信息中構建實體間的關系,通過現有行政區劃信息直接構建下級地址和上級地址的屬于關系以及同一地址因名稱叫法不同產生的等于關系;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科曙光南京研究院有限公司,未經中科曙光南京研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011141247.7/2.html,轉載請聲明來源鉆瓜專利網。





