日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種基于元搜索的內(nèi)網(wǎng)信息采集方法無效

專利信息
申請(qǐng)?zhí)枺?/td> 201110350811.0 申請(qǐng)日: 2011-11-08
公開(公告)號(hào): CN102426600A 公開(公告)日: 2012-04-25
發(fā)明(設(shè)計(jì))人: 楊更 申請(qǐng)(專利權(quán))人: 軍工思波信息科技產(chǎn)業(yè)有限公司
主分類號(hào): G06F17/30 分類號(hào): G06F17/30
代理公司: 南昌新天下專利商標(biāo)代理有限公司 36115 代理人: 施秀瑾
地址: 330000 江西*** 國(guó)省代碼: 江西;36
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 一種 基于 搜索 信息 采集 方法
【說明書】:

技術(shù)領(lǐng)域

發(fā)明涉及一種基于元搜索的內(nèi)網(wǎng)信息采集方法。

背景技術(shù)

為了對(duì)內(nèi)網(wǎng)中海量信息進(jìn)行有效的監(jiān)控和存檔,一個(gè)有效的采集系統(tǒng)是先決條件。現(xiàn)有的采集系統(tǒng)大多采用直接對(duì)網(wǎng)站進(jìn)行采集的方式,首先,這樣效率低下,對(duì)采集系統(tǒng)負(fù)載要求很高。曾經(jīng)有研究采用分布式采集系統(tǒng)來提高采集效率,但是這對(duì)采集系統(tǒng)提出了較高的硬件要求,其次,需要面對(duì)各種不同的網(wǎng)站情況,對(duì)采集源的格式分析比較復(fù)雜,采集系統(tǒng)很難及時(shí)應(yīng)對(duì)URL的頻繁變化,最后,傳統(tǒng)的采集系統(tǒng)大多以存檔為主要目的,缺乏對(duì)采集內(nèi)容的分析和重組,在浩瀚的內(nèi)容面前很難及時(shí)發(fā)現(xiàn)熱點(diǎn)和趨勢(shì)。

發(fā)明內(nèi)容

本發(fā)明的目的是提供一種結(jié)構(gòu)簡(jiǎn)單的基于元搜索的內(nèi)網(wǎng)信息采集方法。

本發(fā)明的基于元搜索的內(nèi)網(wǎng)信息采集方法,工作對(duì)象是內(nèi)網(wǎng)發(fā)布的網(wǎng)站/信息系統(tǒng),包括以下步驟:分時(shí)啟動(dòng)采集程序;根據(jù)敏感詞對(duì)內(nèi)網(wǎng)信息系統(tǒng)內(nèi)置搜索引擎的搜索條件構(gòu)建;自動(dòng)采集搜索結(jié)果。

其中關(guān)鍵的采集流程如下:

1、分時(shí)啟動(dòng)采集線程

對(duì)于n個(gè)焦點(diǎn),以現(xiàn)有設(shè)定的x個(gè)搜索引擎,采集任務(wù)啟動(dòng)后會(huì)發(fā)生最多n*22次對(duì)搜索引擎的訪問,最多解析到n*x*100條最新信息,去重、熱點(diǎn)分析、統(tǒng)計(jì)信息更新,目標(biāo)頁(yè)面主體獲取等操作會(huì)造成對(duì)網(wǎng)絡(luò)和數(shù)據(jù)庫(kù)的頻繁訪問,如果一個(gè)時(shí)點(diǎn)同時(shí)啟動(dòng)各個(gè)搜索引擎的采集線程,會(huì)對(duì)服務(wù)器硬件和網(wǎng)絡(luò)環(huán)境造成過大的壓力,對(duì)搜索引擎頻繁的訪問也容易被列入非正常訪問黑名單,所以采用分時(shí)啟動(dòng)采集線程的模式執(zhí)行采集任務(wù)。

在采集前先根據(jù)當(dāng)前采集周期(比如1小時(shí))和焦點(diǎn)數(shù)量n計(jì)算兩個(gè)焦點(diǎn)線程啟動(dòng)的時(shí)間間隔m秒(m=50*60/n),在構(gòu)造下一個(gè)焦點(diǎn)線程前主進(jìn)程睡眠?m秒,在此采集周期內(nèi)會(huì)間隔性的有線程啟動(dòng)和退出,確保在同一時(shí)間點(diǎn)不會(huì)有過多線程同時(shí)進(jìn)行。在最后一個(gè)線程啟動(dòng)后m秒,每隔20秒檢查一次當(dāng)前活動(dòng)線程數(shù),如果線程數(shù)大于1,繼續(xù)執(zhí)行20秒,如果線程數(shù)小于1,采集程序退出。

這樣的機(jī)制首先保證了程序?qū)Y源平均有效的利用,很大程度上避免過于頻繁的操作造成的硬件無響應(yīng),對(duì)程序運(yùn)行穩(wěn)定性也提供一定的保證。

2、構(gòu)造搜索引擎鏈接

系統(tǒng)配置的焦點(diǎn)組合分為兩個(gè)字段存儲(chǔ),包含詞(多個(gè)詞之間用空格隔開)和不包含詞(多個(gè)詞之間用空格隔開),需要對(duì)焦點(diǎn)組合進(jìn)行拆分、編碼轉(zhuǎn)換和重新組合,然后構(gòu)造搜索引擎鏈接。

首先從焦點(diǎn)組合中將詞提取出來轉(zhuǎn)化成URL編碼,加上搜索引擎特定的與非組合方式,構(gòu)成焦點(diǎn)詞的重新組合,如“存貸款+利率-房貸”轉(zhuǎn)換后是“%E5%AD%98%E8%B4%B7%E6%AC%BE+%E5%88%A9%E7%8E%87+-%E6%88%BF%E8%B4%B7”,再將搜索引擎鏈接、采集頁(yè)碼,編碼格式等信息合并得到URL,如http://www.google.com.hk/search?q=%E5%AD%98%E8%B4%B7%E6%AC%BE+%E5%88%A9%E7%8E%87+-%E6%88%BF%E8%B4%B7&um=1&ie=UTF-8&tbs=nws:1&source=og&sa=N&tab=wn&hl=zh-CN&num=100,表示用谷歌資訊搜索“存貸款?利率”,且不含“房貸”,一次讀取100條信息。

3、模擬瀏覽器訪問網(wǎng)頁(yè)

使用模擬瀏覽器訪問頁(yè)面的模式,模擬瀏覽器代理User-Agent為Mozilla/4.0?(compatible;?MSIE?8.0),設(shè)置為不自動(dòng)執(zhí)行HTTP重定向,循環(huán)最多5次(不限次數(shù)方式訪問部分站點(diǎn)會(huì)造成死循環(huán))累加獲取cookie,直至HTTP連接狀態(tài)正常,此時(shí)獲取到的累加cookie記錄了模擬瀏覽器的重定向操作,使用這個(gè)cookie再次模擬瀏覽器打開鏈接,就可以獲得正確的頁(yè)面。

GZIP數(shù)據(jù)壓縮傳輸技術(shù)被很多大流量的站點(diǎn)所使用,傳統(tǒng)的數(shù)據(jù)流接收方式接收到的是亂碼,因此在讀取文件流前要先得到其傳輸格式,可以通過使用connection.getHeaderField?(Content-Encoding)方法確定頁(yè)面是否是通過GZIP壓縮傳輸?shù)模绻荊ZIP格式傳輸,就要使用GZIPInputStream方式接收文件流,否則接收到的文件流包括英文字符也全是亂碼。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于軍工思波信息科技產(chǎn)業(yè)有限公司,未經(jīng)軍工思波信息科技產(chǎn)業(yè)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201110350811.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說明:

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級(jí)中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 亚洲自拍偷拍一区二区三区| 国内少妇自拍视频一区| 日韩一级视频在线| 色一情一乱一乱一区免费网站| 亚洲欧美一二三| 国产在线精品一区| 国产69精品久久久久app下载 | 玖玖国产精品视频| 国产精品免费自拍| 欧美日本一二三区| 国产亚洲精品久久午夜玫瑰园 | 国产日韩精品一区二区| 91久久国语露脸精品国产高跟| 理论片高清免费理伦片| 麻豆精品一区二区三区在线观看| 国产精品视频二区不卡| 久久精品麻豆| 欧美精品二区三区| 午夜av影视| 日本一区二区在线观看视频| 国产欧美二区| 色噜噜狠狠色综合影视| 国产日韩一区二区在线| 人人澡超碰碰97碰碰碰| 国产suv精品一区二区4| 欧美精品亚洲一区| 国产精品久久免费视频| 欧美日韩激情在线| 久久久久久久久亚洲精品| 午夜电影一区二区三区| 国产一区欧美一区| 午夜激情电影院| 国产精品视频二区三区| 国产乱xxxxx国语对白| 亚洲精品一区二区另类图片| 精品欧美一区二区精品久久小说| 日韩精品一区二区不卡| 国产69精品久久久久孕妇不能看| 欧美精品一区久久| 91午夜在线观看| 一本色道久久综合亚洲精品浪潮| 欧美色综合天天久久| 亚洲精品97久久久babes| 久久艹亚洲| 欧美日韩国产精品一区二区亚洲| 香蕉免费一区二区三区在线观看| 国产精品自产拍在线观看蜜| 91社区国产高清| 久久99久久99精品免观看软件| 毛片大全免费看| 四季av中文字幕一区| 少妇高潮ⅴideosex| 91精品婷婷国产综合久久竹菊 | 亚洲国产精品入口| 岛国黄色网址| 精品午夜电影| 亚洲三区二区一区| 日韩欧美激情| 93精品国产乱码久久久| 国产女人与拘做受免费视频| 国产精品高清一区| 91久久精品在线| 一区二区三区欧美在线| 国产目拍亚洲精品区一区| 狠狠色综合久久丁香婷婷| 日韩精品一二区| 欧美日韩一级二级三级| 国内久久久| 国产88在线观看入口| 午夜av影视| 26uuu亚洲电影在线观看| 亚洲精品一区中文字幕| 又色又爽又大免费区欧美| 高清国产一区二区 | 国产伦精品一区二区三区免费下载| 中文字幕一区二区三区乱码视频 | 国产有码aaaae毛片视频| 一区二区三区欧美在线| 亚洲制服丝袜中文字幕| 久久精品色欧美aⅴ一区二区| 99国产精品欧美久久久久的广告| 日韩精品中文字幕在线| 狠狠色狠狠色综合日日2019| 玖玖爱国产精品| 好吊妞国产欧美日韩软件大全| 狠狠色综合欧美激情| 日本三级香港三级网站| www色视频岛国| 97精品国产97久久久久久| 国产日韩一区二区三区| 国产在线精品一区二区| 麻豆精品国产入口| 国产乱了高清露脸对白| 99视频一区| 狠狠色噜噜狠狠狠狠69| 日本高清一二三区| 福利片午夜| 亚洲第一天堂久久| 亚洲一级中文字幕| 久久久久久亚洲精品| 在线国产91| 欧美一区二区精品久久911| 久久国产精品久久久久久电车| 日韩av在线资源| 国产精品国产三级国产aⅴ下载| 国产性猛交xx乱| 蜜臀久久精品久久久用户群体| 午夜情所理论片| 少妇性色午夜淫片aaa播放5| 国产第一区在线观看| 久久久999精品视频| 综合久久激情| 欧美一区二区三区免费电影| 性色av色香蕉一区二区| 国产精品亚洲精品一区二区三区| 日本高清不卡二区| 国产大片一区二区三区| 亚洲1区2区3区4区| 欧美3p激情一区二区三区猛视频| 色一情一乱一乱一区免费网站| 中文字幕精品一区二区三区在线| 99久热精品| 日韩一级片免费观看| 日韩午夜一区| 亚洲国产偷| 91日韩一区二区三区| 99国产精品久久久久99打野战| 国产伦精品一区二区三区免| 欧洲精品一区二区三区久久| 99国产超薄丝袜足j在线观看| 欧美精品乱码视频一二专区| 国产在线一卡二卡| 日本午夜一区二区| 国产精品一区二区在线看| 国产一卡在线| 在线播放国产一区| 好吊色欧美一区二区三区视频 | 久久国产欧美一区二区三区免费| bbbbb女女女女女bbbbb国产| 午夜肉伦伦| 国产理论片午午午伦夜理片2021 | 68精品国产免费久久久久久婷婷| 国产日韩欧美一区二区在线观看| 国产一区二区黄| 午夜电影三级| 亚洲一二三在线| 理论片高清免费理伦片| 国产精品视频二区不卡| 国产精品一区在线观看| 欧美一区二区三区免费电影| 综合久久色| 欧美精品日韩| 久久一级精品视频| 国产视频一区二区在线| 在线国产精品一区二区| 香港日本韩国三级少妇在线观看| 亚洲精品日韩激情欧美| 欧美色图视频一区| 一区二区三区毛片| 国产精品影音先锋| 久久乐国产精品| 日本xxxx护士高潮hd| 久久精品国产亚| 男人的天堂一区二区| 久久99久久99精品蜜柚传媒| 日本一区二区三区在线看| 中文在线一区二区三区| 午夜天堂电影| 欧美精品免费一区二区| 国产电影精品一区二区三区| 国产1区2区3区| 日本二区在线观看| 国产主播啪啪| 大bbw大bbw巨大bbw看看| 一区二区在线国产| av素人在线| 中文字幕一区二区三区免费视频| 日韩精品久久久久久中文字幕8| 国产精品久久免费视频| 午夜电影天堂| 久久影视一区二区| 2023国产精品久久久精品双| 久久99亚洲精品久久99| 欧美一区二区三区在线视频观看| 久久精品com| 欧美在线免费观看一区| 97精品国产aⅴ7777| 日韩精品免费播放| 一区二区国产精品| 欧美在线视频一二三区| 99精品视频免费看| 国产精品久久久久久久久久久久久久不卡| 国产精品一区二区在线看| 狠狠干一区| 午夜一区二区三区在线观看| 午夜免费片| 国产视频一区二区不卡| 国产欧美一区二区三区视频| 国产九九九精品视频| 欧美精品免费看| 正在播放国产一区二区| 国产欧美日韩精品一区二区三区 | 91日韩一区二区三区| 性少妇freesexvideos高清bbw| 欧美亚洲视频二区| 国产乱子一区二区| 欧美国产亚洲精品| 久久国产精品二区| 国产激情视频一区二区| 欧美一区二区三区不卡视频| 免费欧美一级视频| 久久婷婷国产综合一区二区| 国产午夜精品一区二区理论影院 | 国产亚洲精品久久午夜玫瑰园| 免费a级毛片18以上观看精品| 午夜色影院| 欧美在线视频三区| 国语对白老女人一级hd| 亚洲乱玛2021| 91av中文字幕| 国产亚洲精品久久777777| 狠狠色噜噜狼狼狼色综合久| 偷拍久久精品视频| 国产亚洲精品精品国产亚洲综合| 欧美一区二区三区激情| 午夜剧场伦理| 日韩精品一区二区av| 精品无码久久久久国产| 国产毛片精品一区二区| 欧美一级久久久| 99久久国产综合精品女不卡| 日韩精品久久久久久久的张开腿让| 亚洲精品乱码久久久久久高潮| av素人在线| 久久人人爽爽| 亚洲第一区国产精品| 国产精品久久久区三区天天噜| 国产精品刺激对白麻豆99| 亚洲欧美日本一区二区三区| 一本一道久久a久久精品综合蜜臀 国产三级在线视频一区二区三区 日韩欧美中文字幕一区 | 亚洲制服丝袜在线| 特级免费黄色片| 日日夜夜一区二区| 国产精品欧美一区乱破| 少妇bbwbbwbbw高潮| 欧美日韩一区视频|