[發明專利]統一資源定位符URL中無效參數的識別設備及方法在審
| 申請號: | 201310462262.5 | 申請日: | 2013-09-30 |
| 公開(公告)號: | CN103530336A | 公開(公告)日: | 2014-01-22 |
| 發明(設計)人: | 魏少俊 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京華沛德權律師事務所 11302 | 代理人: | 劉杰 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 統一 資源 定位 url 無效 參數 識別 設備 方法 | ||
技術領域
本發明涉及搜索引擎技術領域,具體涉及統一資源定位符URL中無效參數的識別設備及方法。
背景技術
隨著計算機網絡技術的飛躍發展和計算機設備的迅速普及,越來越多的人們利用計算機和互聯網來獲取信息,互聯網能夠給人們帶來的服務也越來越豐富和多樣化,存在于互聯網上的數據呈現出爆炸式的增長,以中文網頁為例,互聯網上的中文網頁鏈接數量已經達到萬億規模。
搜索引擎是伴隨著互聯網信息爆炸式增長過程出現的技術,旨在滿足人們在互聯網的海量信息中搜索自己所需信息的需求。一方面,搜索引擎使用一定的策略和特定的搜索程序,在互聯網中搜集各種各樣的信息,進而對信息進行加工和整理;另一方面,搜索引擎將加工整理后的信息以一定的次序展示給用戶,來滿足用戶的檢索需求。在搜索引擎搜集互聯網信息時,一個重要的依據便是統一資源定位符URL(也可以理解為網頁對應的網址),這是因為URL對于每一個網頁都是唯一的,即在互聯網上每一個網頁對應于唯一的一個URL,搜索引擎可以依據URL來獲取對應網頁中的信息。但在當今互聯網上數量龐大的URL中,存在著不同URL對應的不同頁面,但頁面本身的內容是相同的情況,尤其是在當今動態網頁技術越來越多的被使用,導致URL不同但網頁的主體內容相同的情況也在迅速的增加,這就給搜索引擎技術的應用提出了一個問題:如何在數量龐大的URL中識別重復的鏈接,以減少重復信息的收錄,提高搜集信息的效率。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的統一資源定位符URL中無效參數的識別設備,和相應的統一資源定位符URL中無效參數的識別方法。
依據本發明的一個方面,提供了一種統一資源定位符URL中無效參數的識別設備,包括:
URL獲取單元,適于獲取多個網頁鏈接的URL;
URL片段組合提取單元,適于分別從獲取到的多個網頁鏈接的URL中提取出所述URL片段組合;
統計單元,適于統計各URL片段組合的出現頻次,并將出現頻次符合預置條件的URL片段組合確定為目標URL片段組合;
有效性判斷單元,適于針對各個目標URL片段組合,基于包含有所述目標URL片段組合的URL,對目標URL片段組中各URL參數的有效性進行判斷。
可選地,還包括:
保存單元,用于將所述有效性判斷單元對目標URL片段組中各URL參數的有效性進行判斷的結果,保存為無效片段組合列表;
待測URL提取單元,適于獲取待測的網頁鏈接對應的待測URL地址;
URL片段組合提取單元,適于從所述待測URL地址中提取URL片段組合;
URL參數檢測單元,適于根據無效片段組合列表判斷所述URL片段組合中URL參數的有效性。
可選地,所述URL片段組合提取單元,適于:
從所述待測URL地址中提取所述待測URL地址中包括的動態文件的文件名以及對應的URL參數,將提取到的所述動態文件的文件名以及所述對應的URL參數進行組合,作為所述URL片段組合。
可選地,所述無效片段組合列表中保存有無效片段組合及組合中各URL參數的有效性信息。
可選地,所述URL參數檢測單元,適于:以所述URL片段組合查詢所述無效片段組合列表,查詢無效片段組合列表中是否存在相匹配的無效片段組合;
如存在,則根據相匹配的無效片段組合及其中各URL參數的有效性信息,判斷所述URL片段組合中URL參數的有效性。
可選地,所述統計單元,包括:
第一統計子單元,適于統計包含有同一URL片段組合的URL的數目,將該數目確定為所述URL片段組合的出現頻次,并將出現頻次符合預置條件的URL片段組合確定為目標URL片段組合;
或,
第二統計子單元,適于統計同一URL片段組合對應的不同互聯網位置的數目,將該數目確定為所述URL片段組合的出現頻次,并將出現頻次符合預置條件的URL片段組合確定為目標URL片段組合;其中,所述互聯網位置由URL中的網絡路徑確定。
可選地,所述統計單元,包括:
第三統計子單元,適于統計包含有同一URL片段組合的URL的數目,將該數目確定為所述URL片段組合的第一出現頻次;
第四統計子單元,適于統計同一URL片段組合對應的不同互聯網位置的數目,將該數目確定為所述URL片段組合的第二出現頻次;其中,所述互聯網位置由URL中的網絡路徑確定;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310462262.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:具有效率輸出的DC?DC轉換器
- 下一篇:具有分離設計的引出接觸件的蓄電池





