[發明專利]一種興趣點數據錯誤類型定位、重復識別方法及裝置有效
| 申請號: | 201610309083.1 | 申請日: | 2016-05-11 |
| 公開(公告)號: | CN107368480B | 公開(公告)日: | 2021-05-04 |
| 發明(設計)人: | 王世民 | 申請(專利權)人: | 中國移動通信集團遼寧有限公司 |
| 主分類號: | G06F16/29 | 分類號: | G06F16/29;G06K9/62 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 蔣雅潔;張穎玲 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 興趣 數據 錯誤 類型 定位 重復 識別 方法 裝置 | ||
本發明公開了一種興趣點數據錯誤類型定位方法,根據設置的興趣點POI基礎字段的分層參數,對POI數據對的基礎字段進行分詞處理,并獲取組成基礎字段的各分詞所在的層數;POI數據對包括用戶輸入的POI數據和與用戶輸入的POI數據對應的POI原始數據;基礎字段包括至少一個子字段;根據組成所述子字段的各分詞所在的層數,計算POI數據對的子字段之間的相似度值;根據設置的子字段不同錯誤類型所對應的錯誤閾值,判定POI數據對的子字段之間的相似度值屬于所述錯誤閾值時,定位POI原始數據的子字段的錯誤類型。同時,本發明還公開了一種興趣點數據錯誤類型定位裝置以及一種興趣點數據重復識別方法及裝置。
技術領域
本發明涉及數據質量控制領域,尤其涉及一種興趣點數據錯誤類型定位、重復識別方法及裝置。
背景技術
興趣點(Point Of Interest,POI)在地理信息系統中泛指一切可以抽象為點的地理對象,尤其是一些與人們生活密切相關的地理實體,如學校、銀行、加油站等。POI的主要用途是通過對事物或事件的地址進行描述,增強對事物或事件位置的描述能力和查詢能力,從而提高地理定位的精度和速度。為了給用戶提供滿足其個性化服務需求的產品,POI數據供應商如百度地圖、大眾點評等都會建立自己的POI數據庫,POI數據庫中存儲有海量的POI數據,而每條POI數據包含有POI各方面的信息,例如名稱、地址、類型等。其中,POI數據的準確性直接影響著用戶的使用體驗。然而,隨著城市建設的快速擴張以及移動互聯網的飛速發展,一些POI數據可能存在錯誤,比如POI數據中的信息不完整或POI數據中的信息已過時等,導致用戶無法正確使用這些POI數據。因此,POI數據供應商需要對POI原始數據的正確性進行判斷并實時更新POI原始數據。
現有技術中,POI數據供應商對POI原始數據的正確性進行判斷的過程如下:獲取用戶輸入的POI數據,并將其與已有的POI原始數據建立一一對應關系;通過編輯距離算法計算由用戶輸入的POI數據和POI原始數據組成的POI數據對的字符串之間的相似度,并依據該相似度以及設置的閾值對POI原始數據是否正確進行判定;最后,質檢員根據個人經驗對判定為錯誤的POI原始數據進行錯誤類型分類,從而監控POI數據質量。然而,人工操作不僅復雜度高、效率低,而且分類的精確度易受到個人主觀因素影響。可見,現有技術方案無法準確定位POI數據錯誤類型。
此外,POI數據供應商在處理POI數據重復問題時,通常都是采用現有的相似度計算算法分別計算POI數據對的名稱字段之間和地址字段之間的相似度值,并將上述相似度值進行線性組合;然后,通過比對依據人工經驗所設置的疑似重復POI數據的判定閾值,篩選出疑似重復POI數據;最后,采用人工方式從所述疑似重復POI數據中抽取樣本,確認真正的重復POI數據。然而,采用現有的相似度計算算法進行POI數據重復的判定時對POI各字段信息的完整性要求高,而POI數據重復往往是由于POI各字段信息不完整造成的,所以,采用現有技術方案判定POI數據是否重復的精確度不高。
發明內容
有鑒于此,本發明實施例期望提供一種興趣點數據錯誤類型定位、重復識別方法及裝置,能夠準確定位POI數據錯誤類型以及對POI數據是否重復進行準確判定。
為達到上述目的,本發明的技術方案是這樣實現的:
本發明提供了一種興趣點數據錯誤類型定位方法,所述方法包括:
根據設置的興趣點POI基礎字段的分層參數,對POI數據對的基礎字段進行分詞處理,并獲取組成所述基礎字段的各分詞所在的層數;所述POI數據對包括用戶輸入的POI數據和與所述用戶輸入的POI數據對應的POI原始數據;所述基礎字段包括至少一個子字段;
根據所述組成所述子字段的各分詞所在的層數,計算所述POI數據對的子字段之間的相似度值;
根據設置的子字段不同錯誤類型所對應的錯誤閾值,判定所述POI數據對的子字段之間的相似度值屬于所述錯誤閾值時,定位所述POI原始數據的子字段的錯誤類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團遼寧有限公司,未經中國移動通信集團遼寧有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610309083.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





