[發明專利]基于地理空間畫像挖掘的多源城市時空標準地址融合方法在審
| 申請號: | 201911307558.3 | 申請日: | 2019-12-18 |
| 公開(公告)號: | CN111104449A | 公開(公告)日: | 2020-05-05 |
| 發明(設計)人: | 張平;汪艷霞;黃磊;劉仁;溫素馨;林熹 | 申請(專利權)人: | 福州市勘測院 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/29;G06F16/951;G06F16/9537 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 陳明鑫;蔡學俊 |
| 地址: | 350000 福建*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 地理 空間 畫像 挖掘 城市 時空 標準 地址 融合 方法 | ||
1.一種基于地理空間畫像挖掘的多源城市時空標準地址融合方法,其特征在于,包括如下步驟:
步驟S1、基于網絡爬蟲技術及人工判別構建地理空間畫像標簽庫;
步驟S2、基于Rocchio分類模型繪制地理空間畫像;
步驟S3、利用ETL技術融合多源數據;
步驟S4、基于地名地址匹配引擎審核數據質量。
2.根據權利要求1所述的基于地理空間畫像挖掘的多源城市時空標準地址融合方法,其特征在于,所述步驟S1具體實現如下:
步驟S11、針對目標地理空間對象,收集其在各部門的登記信息;同時,利用網絡爬蟲技術,在互聯網上抓取與目標對象有關的數據;
步驟S12、根據收集到的數據的類型,預先構建一個地理空間畫像標簽庫;畫像標簽根據數據類型自成系列,數據類型包括自然地理屬性、社會屬性以及由包括物聯網和互聯網產生的動態數據,對應形成相應的畫像標簽;
步驟S13、將多源數據劃分為訓練集和測試集,并從地理空間標簽庫中選擇訓練集和測試集對應的標簽。
3.根據權利要求2所述的基于地理空間畫像挖掘的多源城市時空標準地址融合方法,其特征在于,所述步驟S2具體實現如下:
步驟S21、對訓練集和測試集進行文本分詞和去停用詞的預處理操作,初步凈化數據,縮小文本的特征空間;
步驟S22、基于互信息算法對預處理后的數據做特征選擇,提取所需特征,進一步降低特征空間的維數,提高分類算法的效率;
步驟S23、使用經過預處理和特征選擇后的訓練集和測試集,基于Rocchio分類算法構建Rocchio分類模型;利用構建好的Rocchio分類模型對處理后的多源數據進行分類,對應打上畫像標簽庫中的標簽,完成目標對象地理空間畫像的繪制。
4.根據權利要求3所述的基于地理空間畫像挖掘的多源城市時空標準地址融合方法,其特征在于,所述步驟S3具體實現如下:
步驟S31、根據城市時空標準地址數據融合主題,選擇與地址相關的畫像標簽,匯總這些畫像標簽所關聯的多源數據;
步驟S32、依據標準地址屬性數據項要求,利用ETL技術對地址相關數據進行抽取、清洗、轉換等處理,過濾不完整、錯誤、重復的數據,融合為粒度一致、格式統一的城市時空標準地址數據。
5.根據權利要求4所述的基于地理空間畫像挖掘的多源城市時空標準地址融合方法,其特征在于,所述步驟S4具體實現方式為:利用GIS軟件地名地址匹配引擎將地址信息轉換為空間點在地圖上展示,對融合的地址數據進行地址要素完整性、唯一性、對應性審核;若審核合格,則存儲至數據庫,構建數據成果;若審核不合格,則返回步驟S3重新進行數據融合,直至審核合格。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州市勘測院,未經福州市勘測院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911307558.3/1.html,轉載請聲明來源鉆瓜專利網。





