[發明專利]私有云搜索系統及其實現方法無效
| 申請號: | 201110275528.6 | 申請日: | 2011-09-16 |
| 公開(公告)號: | CN102323955A | 公開(公告)日: | 2012-01-18 |
| 發明(設計)人: | 鄒春城 | 申請(專利權)人: | 鄒春城 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京匯澤知識產權代理有限公司 11228 | 代理人: | 劉淑敏 |
| 地址: | 436032 湖北*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 私有 搜索 系統 及其 實現 方法 | ||
1.一種私有云搜索系統,包括瀏覽器,其特征在于,該私有云搜索系統還包括網頁結構分析記憶模塊和數據過濾篩選模塊;所述瀏覽器中,進一步包括人工瀏覽網頁模塊和機器瀏覽網頁模塊,或者僅包括機器瀏覽網頁模塊;其中:
機器瀏覽網頁模塊,用于根據搜索的廣度在選擇的網址范圍內抓取網頁,或根據有無搜索關鍵字,選取不同的搜索鏈接,根據查詢模板生成搜索請求和抓取網頁,并根據搜索結果設定搜索深度;
網頁結構分析記憶模塊,根據需要提取網頁上的本站鏈接、站外鏈接、本站圖片鏈接并分類保存到數據庫中;用于判斷網頁上的是否有填充表單、表單如何設計組織,并根據用戶需要輸出能反映表單設計內容的字串記錄,并根據需要保存到數據庫中;提供人工輔助提取當前網頁上的網址并分類篩選網址功能,保存到數據庫中;自動提取鼠標點擊位置處的網址鏈接,以及在提交網頁請求時,記錄提交請求的數據格式;
數據過濾篩選模塊,根據行業信息的特點,設定數據篩選條件和關鍵字集;分析網頁代碼特征分割代碼,提取文字段落;根據文字段落和多關鍵字查詢,實現語義塊有效性判斷;以及根據有效性大小,篩選保存數據。
2.根據權利要求1所述的私有云搜索系統,其特征在于,所述網頁結構分析記憶模塊作為所述瀏覽器的插件進行使用,以實現對網頁結構進行分析和記憶功能;或與本系統自帶的專用瀏覽器作為一個整體安裝在各種不同的操作系統環境中使用。
3.根據權利要求1或2所述的所述私有云搜索系統,其特征在于,所述瀏覽器為通用瀏覽器,具體為:IE、Netscape、GoogleChrome、Mac、Firefox、Maxthon、Opera、TheWorld、Sogou、TT、Baidu、360、IQ瀏覽器中的任一種或為在所述瀏覽器的基礎上開發的其他瀏覽器。
4.一種私有云搜索系統的實現方法,其特征在于,該方法包括如下步驟:
A、用戶自選網站參與搜索,按行業和內容選擇網站,并進行分類,建立私有云信息源數據庫;
B、利用網頁結構分析記憶模塊,抓取信息源上的網頁,并分析過濾網頁鏈接,通過鏈接文字找到搜索入口,進一步通過模塊分析入口表單結構,然后根據上述的表單結構的記錄生成查詢模板,在具體搜索查詢時,依次替換關鍵字或搜索條件生成搜索請求,將此表單結構或查詢模板保存到信息源查詢接口模板數據庫中,即建立私有云信息源搜索查詢接口模板數據庫;
C、在準備好上述私有云信息源數據庫和信息源查詢接口模板數據庫后,設置搜索參數開始進行搜索,并在用戶通過某個界面提交搜索請求后,系統直接根據用戶自己定制的搜索條件和用戶提供的關鍵字生成針對不同網站的搜索請求,按網站排序將此搜索請求提交給不同的網站,這些網站通過他們各自開放的數據庫查詢功能進行篩選搜索。
5.根據權利要求4所述的私有云搜索系統的實現方法,其特征在于,所述步驟C之后進一步包括:
D、將此過程中對各網站的搜索做日志記錄,以便調整搜索條件和搜索范圍,根據日志的記錄,將搜索沒有結果的網站,重新進行查詢接口設置,將實在沒有需要的內容的網站刪除或排后,將結果中新記錄較少的網站排后,記錄多的排前,或增加抓取頻率。
6.根據權利要求4或5所述的私有云搜索系統的實現方法,其特征在于,進一步包括:
E、針對不同行業數據內容及關鍵字提供不同的算法進一步實現過濾,最終得到經過嚴密篩選的數據,然后將這些從不同網站上得到的數據按照統一的結構保存到數據庫里,實現數據的聚合。
7.根據權利要求4所述的私有云搜索系統的實現方法,其特征在于,步驟C進一步包括:
C1、設置搜索參數,包括通過系統界面提供的交互設置、用戶提供搜索范圍即搜索廣度、搜索模式、搜索關鍵字和搜索深度參數;
C2、啟動搜索,該系統則根據搜索廣度參數,按照優先級,依次提取私有云信息源URL;
C3、然后通過信息源查詢接口模板數據庫查找相應的查詢接口,根據設置的搜索模式和設置的關鍵字的有無,生成針對信息源查詢的搜索請求,并提交給相應的網站,若沒有關鍵字,則直接提交給信息源服務器;
C4、利用網絡爬蟲技術實現抓取網頁,但限制爬蟲模塊抓取網頁范圍在用戶步驟A、步驟B里設定的范圍內,且不是全站抓取網頁,而是有搜索條件的數據庫查詢,根據搜索深度參數設置來決定爬蟲抓取頁數的多少,其搜索結果均為經過網站數據庫過濾后的查詢結果;
C5、以先前搜索的結果為依據,保留最新出現的信息鏈接;如果有關鍵字,對抓取的網頁內容進行關鍵字匹配,并保存最新的信息連接;若無沒關鍵字也直接保存,以備后續抓取鏈接內容時進一步判斷篩選;
C6、根據行業內容特征,進行多關鍵字查詢,找到針對于該行業的數據過濾篩選規則,利用所述篩選規則產生相應的算法對網頁編排結構實現語義塊的判斷,利用多關鍵字實現語義篩選。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄒春城,未經鄒春城許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110275528.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:牛仔服裝面料
- 下一篇:磺酸鹽濾渣回收處理系統





