[發明專利]基于超文本預處理器的搜索方法及搜索裝置無效

申請號：	201010580662.2	申請日：	2010-12-09
公開（公告）號：	CN102541849A	公開（公告）日：	2012-07-04
發明（設計）人：	朱曉清;張麗曉	申請（專利權）人：	上海杉達學院
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	上海集信知識產權代理有限公司 31254	代理人：	洪玲
地址：	201209 上***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于超文本預處理搜索方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及計算機應用領域，尤其涉及一種基于超文本預處理器(PHP)的搜索方法及搜索裝置。

背景技術

Internet的發展和普及為人們提供了一個全新的存儲、加工、傳遞和使用的載體，Web信息迅速成為了社會成員獲取知識和新戲的主要渠道之一，于是將傳統的信息檢索技術與網絡實際應用相結合的Web信息檢索應運而生。Web信息檢索技術的發展已經為人們訪問網絡信息資源提供了巨大的便利，如google、baidu等都是其中檢索效果和性能比較突出的代表。搜索引擎是主要的獲取網絡信息的途徑。

搜索引擎一直專注于提升用戶的體驗度，其用戶體驗度反映在三個方面：準、全、快。用專業術語講是：查準率、查全率和搜索速度(即搜索耗時)。其中最易達到的是搜索速度，因為對于搜索耗時在1秒以下的系統來說，訪問者很難判別其快慢。于是，對搜索引擎的評價就集中在準和全上。要達到準和全的目的，就需要使用網頁收集器，一般稱為“網絡蜘蛛(spider)”，或者叫“網頁機器人”。

在網絡蜘蛛的設計方面，一般有兩種設計策略：廣度優先和深度優先。廣度優先是指網絡指數會先抓取起始網頁中鏈接的所有網頁，然后再選擇其中的一個鏈接網頁，繼續抓取在此網頁中鏈接的所有網頁。這是最常用的方式，因為這個方法可以讓網絡蜘蛛并行處理，提高其抓取速度。深度優先是指網絡蜘蛛會從起始頁開始，一個鏈接一個鏈接跟蹤下去，處理完這條線路之后再轉入下一個起始頁，繼續跟蹤鏈接。這個方法的優點是設計網絡蜘蛛的時候比較容易。

用何種語言來開發網絡蜘蛛是一個值得探討的問題，目前的網絡蜘蛛基本都是基于Http或者Web服務器，這兩者雖然使用廣泛，但是都存在一些缺陷，使用更加合適的語言來開發網絡蜘蛛成為一種需求。

發明內容

本發明旨在提出一種基于超文本預處理器(PHP)的網絡蜘蛛開發技術。

根據本發明的一方面，提出一種基于超文本預處理器的搜索方法，包括：

使用超文本預處理器查找列表頁面，對頁面所屬的每一網頁進行循環搜索；

讀取頁面所屬的其中一個網頁；

對該網頁進行分析，搜索關鍵字進行匹配，對于通過關鍵字匹配的網頁，保存該網頁的數據；

對所保存的網頁進行核實，檢驗關鍵字是否正確；

顯示所保存的網頁的鏈接。

其中列表頁面包括頁面的url。

根據本發明的另一方面，提出一種基于超文本預處理器的搜索裝置，包括：

基于超文本預處理器的查找裝置，查找列表頁面，對頁面所屬的每一網頁進行循環搜索；

基于超文本預處理器的讀取裝置，讀取頁面所屬的其中一個網頁；

基于超文本預處理器的分析裝置，對該網頁進行分析，搜索關鍵字進行匹配，對于通過關鍵字匹配的網頁，保存該網頁的數據；

基于超文本預處理器的核實裝置，對所保存的網頁進行核實，檢驗關鍵字是否正確；

基于超文本預處理器的顯示裝置，顯示所保存的網頁的鏈接。

其中列表頁面包括頁面的url。

本發明基于超文本預處理器(PHP)來開發網絡蜘蛛，充分發揮了PHP的優勢，是網絡蜘蛛的運行效率更高。

附圖說明

圖1是根據本發明的基于超文本預處理器的搜索方法的流程圖。

圖2是根據本發明的基于超文本預處理器的搜索裝置的結構圖。

具體實施方式

超文本預處理器(PHP)是一種開放源代碼的多用途腳本語言，它可嵌入到HTML中，尤其適合Web開發。PHP的特點是能夠更加快速地執行動態網頁，由于PHP是將程序嵌入到HTML文檔中執行，因此執行效率比其他的語言要快很多。PHP還會將用戶經常訪問的PHP程序駐留在內容中，其他用戶再訪問這個程序時就不需要重新編譯了，這也是PHP運行高效率的一種體現。

由于PHP具有上述的優勢，本發明基于PHP來開發網絡蜘蛛，實現搜索方法。

參考圖1所示，揭示了根據本發明的基于超文本預處理器的搜索方法的流程圖。該基于超文本預處理器的搜索方法包括下述的步驟：

11.使用超文本預處理器查找列表頁面，對頁面所屬的每一網頁進行循環搜索，該列表頁面包括頁面的url。

12.讀取頁面所屬的其中一個網頁。

13.對該網頁進行分析，搜索關鍵字進行匹配，對于通過關鍵字匹配的網頁，保存該網頁的數據。

14.對所保存的網頁進行核實，檢驗關鍵字是否正確。

15.顯示所保存的網頁的鏈接。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于上海杉達學院，未經上海杉達學院許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201010580662.2/2.html，轉載請聲明來源鉆瓜專利網。