[發(fā)明專利]一種基于元搜索的內(nèi)網(wǎng)信息采集方法無效
| 申請(qǐng)?zhí)枺?/td> | 201110350811.0 | 申請(qǐng)日: | 2011-11-08 |
| 公開(公告)號(hào): | CN102426600A | 公開(公告)日: | 2012-04-25 |
| 發(fā)明(設(shè)計(jì))人: | 楊更 | 申請(qǐng)(專利權(quán))人: | 軍工思波信息科技產(chǎn)業(yè)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 南昌新天下專利商標(biāo)代理有限公司 36115 | 代理人: | 施秀瑾 |
| 地址: | 330000 江西*** | 國(guó)省代碼: | 江西;36 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 搜索 信息 采集 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于元搜索的內(nèi)網(wǎng)信息采集方法。
背景技術(shù)
為了對(duì)內(nèi)網(wǎng)中海量信息進(jìn)行有效的監(jiān)控和存檔,一個(gè)有效的采集系統(tǒng)是先決條件。現(xiàn)有的采集系統(tǒng)大多采用直接對(duì)網(wǎng)站進(jìn)行采集的方式,首先,這樣效率低下,對(duì)采集系統(tǒng)負(fù)載要求很高。曾經(jīng)有研究采用分布式采集系統(tǒng)來提高采集效率,但是這對(duì)采集系統(tǒng)提出了較高的硬件要求,其次,需要面對(duì)各種不同的網(wǎng)站情況,對(duì)采集源的格式分析比較復(fù)雜,采集系統(tǒng)很難及時(shí)應(yīng)對(duì)URL的頻繁變化,最后,傳統(tǒng)的采集系統(tǒng)大多以存檔為主要目的,缺乏對(duì)采集內(nèi)容的分析和重組,在浩瀚的內(nèi)容面前很難及時(shí)發(fā)現(xiàn)熱點(diǎn)和趨勢(shì)。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種結(jié)構(gòu)簡(jiǎn)單的基于元搜索的內(nèi)網(wǎng)信息采集方法。
本發(fā)明的基于元搜索的內(nèi)網(wǎng)信息采集方法,工作對(duì)象是內(nèi)網(wǎng)發(fā)布的網(wǎng)站/信息系統(tǒng),包括以下步驟:分時(shí)啟動(dòng)采集程序;根據(jù)敏感詞對(duì)內(nèi)網(wǎng)信息系統(tǒng)內(nèi)置搜索引擎的搜索條件構(gòu)建;自動(dòng)采集搜索結(jié)果。
其中關(guān)鍵的采集流程如下:
1、分時(shí)啟動(dòng)采集線程
對(duì)于n個(gè)焦點(diǎn),以現(xiàn)有設(shè)定的x個(gè)搜索引擎,采集任務(wù)啟動(dòng)后會(huì)發(fā)生最多n*22次對(duì)搜索引擎的訪問,最多解析到n*x*100條最新信息,去重、熱點(diǎn)分析、統(tǒng)計(jì)信息更新,目標(biāo)頁(yè)面主體獲取等操作會(huì)造成對(duì)網(wǎng)絡(luò)和數(shù)據(jù)庫(kù)的頻繁訪問,如果一個(gè)時(shí)點(diǎn)同時(shí)啟動(dòng)各個(gè)搜索引擎的采集線程,會(huì)對(duì)服務(wù)器硬件和網(wǎng)絡(luò)環(huán)境造成過大的壓力,對(duì)搜索引擎頻繁的訪問也容易被列入非正常訪問黑名單,所以采用分時(shí)啟動(dòng)采集線程的模式執(zhí)行采集任務(wù)。
在采集前先根據(jù)當(dāng)前采集周期(比如1小時(shí))和焦點(diǎn)數(shù)量n計(jì)算兩個(gè)焦點(diǎn)線程啟動(dòng)的時(shí)間間隔m秒(m=50*60/n),在構(gòu)造下一個(gè)焦點(diǎn)線程前主進(jìn)程睡眠?m秒,在此采集周期內(nèi)會(huì)間隔性的有線程啟動(dòng)和退出,確保在同一時(shí)間點(diǎn)不會(huì)有過多線程同時(shí)進(jìn)行。在最后一個(gè)線程啟動(dòng)后m秒,每隔20秒檢查一次當(dāng)前活動(dòng)線程數(shù),如果線程數(shù)大于1,繼續(xù)執(zhí)行20秒,如果線程數(shù)小于1,采集程序退出。
這樣的機(jī)制首先保證了程序?qū)Y源平均有效的利用,很大程度上避免過于頻繁的操作造成的硬件無響應(yīng),對(duì)程序運(yùn)行穩(wěn)定性也提供一定的保證。
2、構(gòu)造搜索引擎鏈接
系統(tǒng)配置的焦點(diǎn)組合分為兩個(gè)字段存儲(chǔ),包含詞(多個(gè)詞之間用空格隔開)和不包含詞(多個(gè)詞之間用空格隔開),需要對(duì)焦點(diǎn)組合進(jìn)行拆分、編碼轉(zhuǎn)換和重新組合,然后構(gòu)造搜索引擎鏈接。
首先從焦點(diǎn)組合中將詞提取出來轉(zhuǎn)化成URL編碼,加上搜索引擎特定的與非組合方式,構(gòu)成焦點(diǎn)詞的重新組合,如“存貸款+利率-房貸”轉(zhuǎn)換后是“%E5%AD%98%E8%B4%B7%E6%AC%BE+%E5%88%A9%E7%8E%87+-%E6%88%BF%E8%B4%B7”,再將搜索引擎鏈接、采集頁(yè)碼,編碼格式等信息合并得到URL,如http://www.google.com.hk/search?q=%E5%AD%98%E8%B4%B7%E6%AC%BE+%E5%88%A9%E7%8E%87+-%E6%88%BF%E8%B4%B7&um=1&ie=UTF-8&tbs=nws:1&source=og&sa=N&tab=wn&hl=zh-CN&num=100,表示用谷歌資訊搜索“存貸款?利率”,且不含“房貸”,一次讀取100條信息。
3、模擬瀏覽器訪問網(wǎng)頁(yè)
使用模擬瀏覽器訪問頁(yè)面的模式,模擬瀏覽器代理User-Agent為Mozilla/4.0?(compatible;?MSIE?8.0),設(shè)置為不自動(dòng)執(zhí)行HTTP重定向,循環(huán)最多5次(不限次數(shù)方式訪問部分站點(diǎn)會(huì)造成死循環(huán))累加獲取cookie,直至HTTP連接狀態(tài)正常,此時(shí)獲取到的累加cookie記錄了模擬瀏覽器的重定向操作,使用這個(gè)cookie再次模擬瀏覽器打開鏈接,就可以獲得正確的頁(yè)面。
GZIP數(shù)據(jù)壓縮傳輸技術(shù)被很多大流量的站點(diǎn)所使用,傳統(tǒng)的數(shù)據(jù)流接收方式接收到的是亂碼,因此在讀取文件流前要先得到其傳輸格式,可以通過使用connection.getHeaderField?(Content-Encoding)方法確定頁(yè)面是否是通過GZIP壓縮傳輸?shù)模绻荊ZIP格式傳輸,就要使用GZIPInputStream方式接收文件流,否則接收到的文件流包括英文字符也全是亂碼。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于軍工思波信息科技產(chǎn)業(yè)有限公司,未經(jīng)軍工思波信息科技產(chǎn)業(yè)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110350811.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





