[發明專利]一種增量碼庫的建立方法和裝置有效
| 申請號: | 201210227185.0 | 申請日: | 2012-06-30 |
| 公開(公告)號: | CN103514235B | 公開(公告)日: | 2017-03-08 |
| 發明(設計)人: | 林錫通;段建國 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙)11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 增量 建立 方法 裝置 | ||
【技術領域】
本發明涉及地理信息技術領域,特別涉及一種增量碼庫的建立方法和裝置。
【背景技術】
碼庫,又稱為地理編碼參考數據庫(geocode?reference?dataset),是為識別點、線、面的位置和屬性而設置的編碼數據庫,它將全部實體按照預先擬定的分類系統,選擇最適宜的量化方法,按實體的屬性特征和集合坐標的數據結構記錄在計算機的儲存設備上。在進行地理編碼時,通常是根據各數據點的地理坐標或空間地址(如省市、街區、樓層、房間等),將數據庫中的數據與其在地圖上相對應的圖形元素一一對應,即給每個數據賦予X和Y坐標值(經度/緯度值),從而確定該數據標在圖上的位置的過程。
隨著基于位置的定位技術的不斷發展,特別是導航和移動設備的普及,用戶對地理空間數據的準確性、完整性和實時性提出了更高的要求。因此,空間數據提供商會對地理空間數據庫進行持續不斷的更新,并向數據用戶分發更新信息,以提高地理空間數據的實時性。現有空間數據提供商的更新服務可分為批量式更新和增量式更新兩種方式:批量式更新向用戶提供新版數據的全部內容,這種更新方式存在傳輸效率低、用戶端更新困難等諸多問題;增量式更新只向客戶提供發生變化的信息,這種更新方式更加科學,是一種更有效的更新信息發布方式。
當空間數據提供商發布更新信息后,空間數據的用戶也需要相應地將更新信息挖掘成對應的碼庫信息。無論空間數據提供商提供的是批量式更新數據還是增量式更新數據,現有的碼庫挖掘方法均是通過對所有數據進行一次性的挖掘,即全量挖掘,以生成地理編碼數據。這種全量挖掘的方式首先是效率低,每次有數據更新都需要重新對所有數據運行一遍挖掘流程;其次是無法繼承人工修改的數據,也就是上次糾正的數據會在下一次全量挖掘過程中需要重新進行人工修改,導致浪費人力物力。
【發明內容】
有鑒于此,本發明提供了一種增量碼庫的建立方法和裝置,能夠有效區分更新數據中的冗余數據,利用非冗余數據形成增量碼庫,提高了數據處理的效率,能對人工修改的結果進行繼承,節省資源,并通過對多個候選數據進行判重和校驗,提高了數據的準確性。
具體技術方案如下:
一種增量碼庫的建立方法,該方法包括以下步驟:
S1、獲取數據圖的更新數據;
S2、利用所獲取的更新數據與歷史增量數據庫中的歷史增量數據進行比較,將關鍵屬性相異的更新數據確定為非冗余數據;
S3、提取所述非冗余數據中描述地理對象的信息,添加到候選碼庫中;
S4、對所述候選碼庫中各候選數據的地理對象名稱和空間位置進行判斷,將描述同一個地理對象且空間位置在預設閾值范圍內的多個候選數據歸為同一個判重組;
S5、對同一個判重組內的多個候選數據,根據各候選數據的數據來源的可信度計算各候選數據的權值;
S6、將權值最高的候選數據作為該判重組的碼庫數據,構成增量碼庫。
根據本發明一優選實施例,在所述步驟S?1之后,還包括:
對所獲取的更新數據的格式進行預處理,轉換成預定義的數據格式。
根據本發明一優選實施例,所述關鍵屬性包括:
數據的名稱、地址、數據來源、可信度和空間位置;
所述關鍵屬性相異的更新數據是指與所述歷史增量數據相比,至少有一種關鍵屬性相異的數據。
根據本發明一優選實施例,在所述步驟S2之后,還包括:
將所確定的非冗余數據添加到所述歷史增量數據庫中。
根據本發明一優選實施例,所述步驟S3包括:
步驟S3_1、對所述非冗余數據的名稱或地址進行分詞;
步驟S3_2、從名稱或地址的分詞結果中按照預定義的規則進行規范化處理后,得到描述地理對象的地理對象名稱;
步驟S3_3、關聯確定所述地理對象名稱對應的屬性信息,組成一條候選數據,添加到候選碼庫中;
其中,所述對應的屬性信息至少包括:該地理對象的空間位置。
根據本發明一優選實施例,所述關聯確定所述地理對象名稱對應的屬性信息,包括:
將所述地理對象名稱所在的非冗余數據中包含的屬性信息,確定為該地理對象名稱所在的候選數據對應的屬性信息;
根據所述空間位置,對所述候選數據進行最小外接矩形計算,預估所述候選數據的范圍大小。
根據本發明一優選實施例,在所述根據各候選數據的數據來源的可信度計算各候選數據的數據權值之前,還包括:
判斷所述判重組中的候選數據是否正確。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210227185.0/2.html,轉載請聲明來源鉆瓜專利網。





