[發明專利]一種對海量URL進行存儲和查詢方法有效
| 申請號: | 201110338204.2 | 申請日: | 2011-10-31 |
| 公開(公告)號: | CN102411617A | 公開(公告)日: | 2012-04-11 |
| 發明(設計)人: | 李建明 | 申請(專利權)人: | 北京銳安科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 李稚婷 |
| 地址: | 100044 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 海量 url 進行 存儲 查詢 方法 | ||
1.一種對海量URL進行存儲和查詢的方法,首先將海量URL信息存入下述信息表中:
存儲步驟如下:
1)對于URL的原始字符串,當“//”之后的字符串是“WWW.”時將開頭到“//WWW.”部分的字符串去除,當“//”之后的字符串不是“WWW.”時則將開頭到“//”部分的字符串去除,得到的URL剩余字符串存入信息表的URL字段中;
2)計算URL原始字符串的MD5值,存入信息表的MD5字段中;
3)按照“/”將URL剩余字符串分割為多個字符串,然后取第N個“/”之前的所有分割后字符串,將這些分割后字符串的第一個字符和最后一個字符順序拼接組成一個特征字符串,存入信息表的keywords字段中,其中N為8~12的整數;
4)其他和該URL關聯的信息存入相同行的對應字段中;
URL數據信息存入信息表后,分別對keywords字段和MD5字段建立樹形索引;
選擇下述方法之一進行URL查詢:
A)精確查詢,先如下處理待查詢的URL原始字符串:當“//”之后的字符串是“WWW.”時將開頭到“//WWW.”部分的字符串去除,當“//”之后的字符串不是“WWW.”時則將開頭到“//”部分的字符串去除,得到URL剩余字符串;然后計算URL原始字符串的MD5值,查詢數據表中的MD5字段,取MD5值相符的URL值;
B)后模糊匹配查詢,先如下處理待查詢的URL原始字符串:當“//”之后的字符串是“WWW.”時將開頭到“//WWW.”部分的字符串去除,當“//”之后的字符串不是“WWW.”時則將開頭到“//”部分的字符串去除,得到URL剩余字符串;然后按照“/”將URL剩余字符串分割為多個字符串,取第N個“/”之前的所有分割后字符串,將這些分割后字符串的第一個字符和最后一個字符順序拼接組成特征字符串,先對數據表中的keywords字段進行查詢,取keywords相符的URL值,再將待查詢的URL與該URL值進行實際匹配查詢。
2.如權利要求1所述的方法,其特征在于,信息表中除URL、MD5和keywords字段外,
其他與URL關聯的信息包括URL的更新時間、URL的作者和URL對應的內容摘要。
3.如權利要求1所述的方法,其特征在于,N=10。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳安科技有限公司,未經北京銳安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110338204.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:新型代幣除水機構
- 下一篇:一種冰箱門梁防露結構





