[發明專利]一種對海量URL進行存儲和查詢方法有效
| 申請號: | 201110338204.2 | 申請日: | 2011-10-31 |
| 公開(公告)號: | CN102411617A | 公開(公告)日: | 2012-04-11 |
| 發明(設計)人: | 李建明 | 申請(專利權)人: | 北京銳安科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 李稚婷 |
| 地址: | 100044 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 海量 url 進行 存儲 查詢 方法 | ||
技術領域
本發明涉及海量數據結構化存儲和查詢領域,特別涉及一種對海量結構化URL(Uniform?Resource?Locator)進行快速存儲和查詢的方法。
背景技術
隨著互聯網的普及,世界范圍內的互聯網網站個數和互聯網的使用用戶都在不斷的增加,從而使得互聯網的數據在以指數級的速度增長,而和互聯網息息相關的便是網站的URL和相應的內容。
URL即統一資源定位符(Uniform?Resource?Locator),也被稱為網頁地址,是因特網上標準的資源的地址。它最初是由蒂姆·伯納斯-李發明用來作為萬維網的地址的,現在它已經被萬維網聯盟編制為因特網標準RFC1738。URL是對可以從因特網上得到的資源的位置和訪問方法的一種簡潔的表示。URL給資源的位置提供一種抽象的識別方法,并用這種方法給資源定位。只要能夠對資源定位,系統就可以對資源進行各種操作,如存取、更新、替換和查找其屬性。
URL相當于一個文件名在網絡范圍的擴展。因此URL是與因特網相連的機器上的任何可訪問對象的一個指針。URL的一般形式是:
<URL的訪問方式>://<主機>:<端口>/<路徑>
URL就像一個人的身份證號,它是一個互聯網頁面的唯一標識,同時也是一個互聯網頁面的唯一入口,無論是手動輸入URL和是通過其他連接轉入一個互聯網頁面,它們進入頁面是都需要這個全球唯一的URL。對于互聯網信息搜索應用領域,需要記錄下每個收集到的頁面信息,頁面信息包括頁面的URL和其他的頁面內容。那么,面對如此大量的URL信息該如何快速的根據URL進行檢索呢?目前主要有以下兩種解決方法:
1.通過對URL建立全文索引進行檢索。
2.通過對URL建立普通的樹形索引進行檢索。
在面臨海量結構化URL的查詢中,上述方法都不夠完善。
第一種方法的優點是數據加載速度快,查詢速度快,但是因為全文索引要把URL進行拆分處理,所以不能對URL數據進行精確查詢和后模糊匹配查詢。例如:如果要檢索URL等于“www.hostname.com/house/beijing/dongcheng.html”的信息,在使用全文索引進行檢索的時候,會返回包含以上URL中的一個或是多個單詞的URL(如會返回包含hostname或是beijing的URL),而不能只返回完全匹配的URL,從而不能實現精確匹配的查詢。同樣的道理,對URL后模糊匹配全文索引也不能實現。
第二種方法的優點是支持精確和后模糊查詢,但查詢性能一般。因為要對很長的字符串建索引,建立索引的數據的行數多,字符串長度大,造成數據加載性能低下,不能滿足海量數據的處理要求。
發明內容
本發明的目的在于提供一種對URL數據進行存儲和查詢的方法,用以解決海量URL的快速存儲和精確、后模糊匹配查詢。
本發明的技術方案如下:
一種對海量URL進行存儲和查詢的方法,首先設計如下數據表(表1)用于存儲URL信息:
表1
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳安科技有限公司,未經北京銳安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110338204.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:新型代幣除水機構
- 下一篇:一種冰箱門梁防露結構





