[發明專利]一種基于元搜索的網絡信息采集器簡單實現方法在審
| 申請號: | 201410092387.8 | 申請日: | 2014-03-14 |
| 公開(公告)號: | CN103902667A | 公開(公告)日: | 2014-07-02 |
| 發明(設計)人: | 劉粉粉 | 申請(專利權)人: | 浪潮電子信息產業股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250014 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 搜索 網絡 信息 采集 簡單 實現 方法 | ||
?
技術領域???
????本發明是一種基于元搜索的網絡信息采集器簡單實現方法,通常適于用企業或者政府單位在網絡上搜索相關的新聞信息,通過對數據的分析得到決策性的結果。
背景技術
?現在的網絡信息采集系統大多采用直接對網站進行采集的方式,實現不僅復雜,而且由于網站模塊的不同,ulr的頻繁變化,需要不斷的對采集的采集網站的url進行監控維護;而且采集的范圍也有限,對采集系統的負載要求也較高,降低了采集效率。
?元搜索引擎就是對多個搜索引擎的整合、調用、控制和優化利用,簡單的說,就是通過一站式的搜索,將輸入的關鍵詞在多個搜索引擎的查詢結果統一返回,用戶只需要通過一次搜索就可以看到多個搜索引擎的搜索結果,較好的解決了單個搜索引擎覆蓋范圍窄的問題。
?目前,基于元搜索的采集實現都非常的復雜,實際使用時實現非常的復雜,沒有一個簡單的統一的方法。
發明內容
????本發明就是實現一種基于元搜索的網絡信息采集器簡單實現方法,能夠根據此方法快速高效的實現一個元搜索采集器。
????集成多個搜索引擎,對搜索關鍵詞并行進行搜索采集,然后對采集信息進行有效的組織,及時發現最新信息,提供給用戶用作分析的基礎數據源,該方法適用的體系結構包括:生成采集起始URL模塊,模擬瀏覽器行為模塊,搜索結果列表頁下載并結構化信息提取模塊,網頁去重,網頁正文抽模塊。
生成采集起始URL模塊對每個搜索引擎的搜索采集任務都設置為是一個爬蟲任務,每個爬蟲任務對應一個配置文件,配置文件中配置:搜索URL的中文字符編碼格式,搜索頁的其實頁碼,每頁返回的搜索結果的數據,翻頁時頁碼的增長的步長,該搜索引擎返回結果的總數,結果列表頁的編碼格式,URL語法格式,抽取結果列表頁抽取規則。根據每個搜索引擎的不同的URL語法格式,將中文關鍵詞進行對應的編碼,在填充入其中的參數值,就構造出了每個搜索引擎對應的采集起始URL。
模擬瀏覽器行為模塊實現網頁采集反屏蔽,通過如下方法:對采集任務間隔進行控制,固定間隔加上隨機間隔;構造代理頭池和IP池,每次爬取網頁時,隨機切換一個userAgent和IP。
網頁去重采用?REDIS?內存數據庫來存儲已下載的?URL,通過REDIS的set數據結構構造一個URL非重復隊列,排除URL重復,如URL重復則不對網頁再次進行下載。
網頁正文抽模塊,可設置不同的規則對不同的網站的網頁進行正文抽取,并且過濾掉垃圾信息。該模塊還可以將抽取到的網頁中的鏈接繼續進行采集,實現多層的采集。
本發明可實現一種簡單的基于元搜索的通用采集器,集成多個搜索引擎,對搜索關鍵詞并行進行搜索采集,然后對采集信息進行有效的組織,及時發現最新信息,提供給用戶用作分析的基礎數據。
附圖說明
附圖1為本發明中的實現流程示意圖。
具體實施方式
參照附圖1,一種基于元搜索的網絡信息采集器實現方法流程如下:
(1)????首先,通過生成采集起始URL模塊(1)讀取配置文件中的關鍵詞、搜索屬性,生成URL。
關鍵詞配置文件可采用txt、excel、xml格式,舉例如下:
搜索屬性配置文件可采用txt、xml格式,舉例如下
(2)????模擬瀏覽器行為模塊(2)對采集任務間隔進行控制,構造代理頭池和IP池實現網頁訪問的反屏蔽。
(3)????如果要進行采集下載的URL是初始URL,則下面的操作是向各搜索引擎發出搜索請求并下載搜索結果列表頁,則執行搜索結果列表頁下載并結構化信息提取模塊(3);否則的話,則是對從正文中提取的鏈接進行采集,無需再經過向搜索引擎發出搜索請求的操作,直接進入網頁去重模塊(4)。
(4)????然后搜索結果列表頁下載并結構化信息提取模塊(3)將采用模擬瀏覽器行為的方式通過不同搜索引擎進行搜索,并下載搜索到的結果列表頁,然后進行結構化信息(標題、來源、發布時間、摘要、URL)提取。
(5)????網頁去重模塊(4)將對所有搜索引擎返回的搜索結果中提取的URL進行是否重復檢查,如果URL無重復,則對網頁進行下載;否則,只計算每個URL的重復次數。
(6)????URL去重后,網頁正文抽模塊(5)將每個搜索結果根據URL進行下載并且提取其正文。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮電子信息產業股份有限公司,未經浪潮電子信息產業股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410092387.8/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





