[發明專利]興趣點屬性的索引數據庫的生成方法和裝置有效
| 申請號: | 200910084408.0 | 申請日: | 2009-05-13 |
| 公開(公告)號: | CN101551820A | 公開(公告)日: | 2009-10-07 |
| 發明(設計)人: | 黃棟;曹曉航 | 申請(專利權)人: | 北京四維圖新科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G01C21/26 |
| 代理公司: | 北京銀龍知識產權代理有限公司 | 代理人: | 許 靜 |
| 地址: | 100083北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 興趣 屬性 索引 數據庫 生成 方法 裝置 | ||
技術領域
本發明涉及數據庫領域,特別是指一種興趣點屬性的索引數據庫的生成方法和裝置。
背景技術
現有技術中,為了提高對興趣點數據庫的檢索性能,采用倒排索引技術建立索引機制。興趣點(POI,Point?of?Interest)是導航電子地圖上有特定位置和屬性的點位。興趣點數據庫,則是管理大量興趣點的屬性的系統。興趣點數據庫有一個相應的索引數據庫,為興趣點索引數據庫。索引是海量數據庫不可缺少的,這是因為索引從某種意義上是一種將原數據庫按檢索要求排序后的數據庫,它的存在能夠大大提高檢索的效率。興趣點屬性可以為興趣點的名稱、地址信息等。興趣點屬性由文字單元組成,文字單元可以為漢字或拼音。也就是說,興趣點屬性的表示方法可以分為兩種,一種以是以漢字為主的形式表示,同時可以包括少量字母、數字、符號等,我們稱其為漢字屬性,例如興趣點1:{編號:100,名稱:“東方商廈A”},其中“東”、“方”、“A”為最小組成元素。另一種以拼音的形式表示,同時可以包括少量字母、數字、符號等,我們稱其為拼音屬性,例如興趣點1:{編號:100,名稱:“dong?fang?shang?sha?A”},其中“dong”、“fang”、“A”為最小組成元素。
以下描述采用倒排技術創建興趣點屬性的索引數據庫的方法。通常僅知道漢字在哪些興趣點中出現還不夠,還需要知道漢字在興趣點中出現的次數和出現的位置,索引結構如下:
關鍵字:{興趣點1編號,出現頻率,[位置1,位置2,...]},
{興趣點2編號,出現頻率,[位置1,位置2,...]},...
假設有三個興趣點,其編號和興趣點名稱如下:
興趣點1:{編號:100,名稱:“東方商廈”}
興趣點2:(編號:120,名稱:“浦東新區東方路”)
興趣點3:(編號:150,名稱:“浦東新區東明路”)
按照前面介紹的索引結構,相應建立的倒排索引如下:
“東”:{100,1,[0]},{120,2,[1,4]},{150,2,[1,4]}
“方”:{100,1,[1]},{120,1,[5]}
“商”:{100,1,[2]}
“廈”:{100,1,[3]}
“浦”:{120,1,[0]},{150,1,[0]}
“新”:{120,1,[2]},{150,1,[2]}
“區”:{120,1,[3]},{150,1,[3]}
“明”:{150,1,[5]}
“路”:{120,1,[6]},{150,1,[6]}
以下描述倒排表檢索技術。檢索時,假設待查漢字串為“東方路”,首先通過漢字列表定位各漢字的索引數據,然后對數據進行分析。
“東”的索引數據中含有興趣點編號為{100,120,150};“方”的索引數據中含有興趣點編號為{100,120};“路”的索引數據中含有興趣點編號為{120,150}。取交集后,只有興趣點編號為120的記錄符合條件。
“東”在興趣點編號為120的記錄中的位置為[1,4],其中位置“4”與“方”在興趣點編號為120的記錄中的位置“5”的差值剛好是漢字“東”的長度。同樣“方”和“路”在興趣點編號為120的記錄中的位置差值剛好是漢字“方”的長度。因此興趣點編號120(其名稱為“浦東新區東方路”)為一個命中興趣點。
以上可知,倒排表模型創建索引的速度較快,可以解決興趣點屬性的高效檢索功能。但是,倒排索引結構包括興趣點編號,興趣點名稱索引數據庫需要存儲大規模的文本信息,特別是需要存儲興趣點名稱的位置信息,空間開銷也比較大。
發明內容
本發明要解決的技術問題是提供一種減少空間開銷的興趣點屬性的索引數據庫的生成方法和裝置。
為解決上述技術問題,本發明的實施例提供技術方案如下:
一方面,提供一種興趣點屬性的索引數據庫的生成方法,包括:
統計所述興趣點屬性中出現的不同文字單元;
獲取所述文字單元的編碼;
查找包含所述文字單元的興趣點屬性以及所述文字單元在所述興趣點屬性中的位置;
根據所述興趣點屬性對應的興趣點編號之間差值的大小以及所述文字單元在所述興趣點屬性中的位置,生成所述文字單元的索引記錄列表;
根據所述文字單元的索引記錄列表的長度,生成所述文字單元索引記錄列表的地址信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京四維圖新科技股份有限公司,未經北京四維圖新科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910084408.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種存儲卡身份認證方法及其系統
- 下一篇:用于蜂窩網接入的方法和裝置





