[發明專利]一種基于元搜索的內網信息采集方法無效
| 申請號: | 201110350811.0 | 申請日: | 2011-11-08 |
| 公開(公告)號: | CN102426600A | 公開(公告)日: | 2012-04-25 |
| 發明(設計)人: | 楊更 | 申請(專利權)人: | 軍工思波信息科技產業有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南昌新天下專利商標代理有限公司 36115 | 代理人: | 施秀瑾 |
| 地址: | 330000 江西*** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 搜索 信息 采集 方法 | ||
1.?一種基于元搜索的內網信息采集方法,其特征在于:它包含如下步驟:分時啟動采集程序,根據敏感詞對內網信息系統內置搜索引擎的搜索條件構建,自動采集搜索結果;
其中分時啟動采集線程:在采集前先根據當前采集周期和焦點數量n,計算兩個焦點線程啟動的時間間隔m秒,m=50*60/n,在構造下一個焦點線程前主進程睡眠?m秒,在此采集周期內會間隔性的有線程啟動和退出,確保在同一時間點不會有過多線程同時進行,在最后一個線程啟動后m秒,每隔20秒檢查一次當前活動線程數,如果線程數大于1,繼續執行20秒,如果線程數小于1,采集程序退出;
構造搜索引擎鏈接:系統配置的焦點組合分為兩個字段存儲,包含詞和不包含詞,首先從焦點組合中將詞提取出來轉化成URL編碼,加上搜索引擎的與非組合方式,構成焦點詞的重新組合,然后構造搜索引擎鏈接;
模擬瀏覽器訪問網頁:使用模擬瀏覽器訪問頁面的模式,模擬瀏覽器代理User-Agent為Mozilla/4.0?(compatible;?MSIE?8.0),設置為不自動執行HTTP重定向,循環最多5次累加獲取cookie,直至HTTP連接狀態正常,此時獲取到的累加cookie記錄了模擬瀏覽器的重定向操作,使用這個cookie再次模擬瀏覽器打開鏈接,就可以獲得正確的頁面;
采集結果頁面內容解析:?頁面源碼的解析主要依靠于前期配置的正則表達式組合,將頁面源碼中信息字段的起始和結尾處具有標記性的html標簽做成正則表達式,通過正則表達式來獲取包含所需信息的字符串。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于軍工思波信息科技產業有限公司,未經軍工思波信息科技產業有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110350811.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種機動車交通流量檢測裝置及其操作方法
- 下一篇:一種微波脈沖頻率測量方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





