[發明專利]一種基于元搜索的網絡信息采集器簡單實現方法在審
| 申請號: | 201410092387.8 | 申請日: | 2014-03-14 |
| 公開(公告)號: | CN103902667A | 公開(公告)日: | 2014-07-02 |
| 發明(設計)人: | 劉粉粉 | 申請(專利權)人: | 浪潮電子信息產業股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250014 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 搜索 網絡 信息 采集 簡單 實現 方法 | ||
1.一種基于元搜索的網絡信息采集器簡單實現方法,其特征在于集成多個搜索引擎,對搜索關鍵詞并行進行搜索采集,然后對采集信息進行有效的組織,及時發現最新信息,提供給用戶用作分析的基礎數據源,該方法適用的體系結構包括:生成采集起始URL模塊,模擬瀏覽器行為模塊,搜索結果列表頁下載并結構化信息提取模塊,網頁去重,網頁正文抽模塊;
生成采集起始URL模塊生成搜索引擎搜索URL;
模擬瀏覽器行為模塊將訪問網站行為偽裝成瀏覽器的行為,實現采集的反屏蔽;
搜索結果列表頁下載并結構化信息提取模塊將搜索并下載到的結果進行結構信息(標題、來源、發布時間、摘要、URL)提??;
網頁去重將提取到的搜索結果的URL進行去重,避免相同網站進行重復下載;
網頁正文抽模塊下載并提取搜索結果的正文,將正文以及模塊結構化的信息存儲到數據庫中。
2.根據權利要求1所述的方法,其特征在于所述生成采集起始URL模塊,可支持若干的主流搜索引擎,對同樣的關鍵詞進行并行搜索。
3.根據權利要求1所述的方法,其特征在于所述的模擬瀏覽器行為模塊,可通過不同的手段實現模擬瀏覽器行為,包括:對采集任務間隔進行控制,固定間隔加上隨機間隔;夠著代池?和IP池,隨機切換userAgent和IP。
4.根據權利要求1所述的方法,其特征在于所述的網頁去重,可通過內存數據庫實現url的去重,并可計算某個網頁的重復次數,為計算網頁重要程度提供數據。
5.根據權利要求1所述的方法,其特征在于所述的網頁正文抽模塊,可設置不同的規則對不同的網站的網頁進行正文抽取,并且過濾掉垃圾信息;該模塊還可以將抽取到的網頁中的鏈接繼續進行采集,實現多層的采集。
6.根據權利要求1所述的方法,其特征在于所述的網頁正文抽模塊,可設置不同的規則對不同的網站的網頁進行正文抽取,并且過濾掉垃圾信息;該模塊還可以將抽取到的網頁中的鏈接繼續進行采集,實現多層的采集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮電子信息產業股份有限公司,未經浪潮電子信息產業股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410092387.8/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





