[發(fā)明專利]一種基于探測(cè)網(wǎng)頁(yè)更新周期的抓取方法有效
| 申請(qǐng)?zhí)枺?/td> | 201310007246.7 | 申請(qǐng)日: | 2013-01-08 |
| 公開(公告)號(hào): | CN103020313A | 公開(公告)日: | 2013-04-03 |
| 發(fā)明(設(shè)計(jì))人: | 王麗華;牟宏磊;王寶會(huì);蒙洋;賈佳;李明亮;楊磊 | 申請(qǐng)(專利權(quán))人: | 北京航空航天大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京科迪生專利代理有限責(zé)任公司 11251 | 代理人: | 楊學(xué)明 |
| 地址: | 100191*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 探測(cè) 網(wǎng)頁(yè) 更新 周期 抓取 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及頁(yè)面抓取周期性探測(cè)規(guī)則的方法的技術(shù)領(lǐng)域,具體涉及一種基于探測(cè)網(wǎng)頁(yè)更新周期的抓取方法。
背景技術(shù)
隨著網(wǎng)絡(luò)上海量信息的爆炸式增長(zhǎng),通用搜索引擎面臨著索引規(guī)模、更新速度和個(gè)性化需求等多方面的挑戰(zhàn)。面對(duì)這些挑戰(zhàn),適應(yīng)特定主題和個(gè)性化搜索的主題網(wǎng)絡(luò)爬蟲(focused?crawler?or?topical?crawler)應(yīng)運(yùn)而生。基于主題網(wǎng)絡(luò)爬蟲的搜索引擎(即第四代搜索引擎)已經(jīng)成為當(dāng)前搜索引擎和Web信息挖掘中的一個(gè)研究熱點(diǎn)和難點(diǎn)。通用網(wǎng)絡(luò)爬蟲的目標(biāo)就是盡可能多地采集信息頁(yè)面,而在這一過程中它并不太在意頁(yè)面采集的順序和被采集頁(yè)面的相關(guān)主題。作為搜索引擎的基礎(chǔ)結(jié)構(gòu)之一,網(wǎng)絡(luò)爬蟲直接面向互聯(lián)網(wǎng),他是搜索引擎的數(shù)據(jù)來源,決定著整個(gè)系統(tǒng)的內(nèi)容是否豐富、信息能否得到及時(shí)更新,其性能直接影響整個(gè)搜索引擎的效果。
三屏融合視頻推送是指在同一平臺(tái)(或多個(gè)平臺(tái)相互協(xié)調(diào))下為機(jī)頂盒、個(gè)人計(jì)算機(jī)、智能手機(jī)及其它一切具有網(wǎng)絡(luò)接入能力的多媒體內(nèi)容播放設(shè)備提供內(nèi)容服務(wù)的系統(tǒng)。通過該系統(tǒng)可為用戶提供多屏視頻內(nèi)容推薦、多屏視頻內(nèi)容分享、位移電視等業(yè)務(wù)體驗(yàn),滿足用戶在任意時(shí)間、任意地點(diǎn)通過任意設(shè)備觀看任意影片的需求。
國(guó)際上主流的電信運(yùn)營(yíng)商和設(shè)備制造商、軟件商等都提出了各自的三屏融合業(yè)務(wù)和模式。比如美國(guó)的AT&T及其貝爾實(shí)驗(yàn)室就投入巨資進(jìn)行三屏融合業(yè)務(wù)和體系架構(gòu)的研究和開發(fā)。軟件巨人微軟也在大力倡導(dǎo)三屏融合業(yè)務(wù)的發(fā)展。從終端用戶角度看,一個(gè)用戶可以同時(shí)享有TV屏、PC屏、Mobile屏等多種終端,用戶期望從各個(gè)屏幕都可以獲取所需要的信息并獲得相應(yīng)的體驗(yàn)。從業(yè)務(wù)層面看,三屏所呈現(xiàn)的業(yè)務(wù)形態(tài)也處于快速的融合期。比如基于PC的互聯(lián)網(wǎng)電視TV化、手機(jī)化是業(yè)界近期的顯著趨勢(shì)。從支撐三屏業(yè)務(wù)的后臺(tái)網(wǎng)絡(luò)層面看,三屏融合實(shí)質(zhì)上是三網(wǎng)融合發(fā)展的外在體體現(xiàn),三屏終端的協(xié)議適配系統(tǒng)則是實(shí)現(xiàn)三屏融合的核心技術(shù)。電信運(yùn)營(yíng)商和設(shè)備制造商、軟件商都對(duì)三屏終端的協(xié)議適配系統(tǒng)提出迫切的需求。
為了更好的支持三屏展示,本文提出一種基于探測(cè)網(wǎng)頁(yè)更新周期的抓取方法,此方法可以及時(shí)獲取更新網(wǎng)頁(yè),將網(wǎng)頁(yè)可以及時(shí)有效的更新給用戶使用。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是:提供一種基于探測(cè)網(wǎng)頁(yè)更新周期的抓取方法,利用探測(cè)信息方式進(jìn)行網(wǎng)頁(yè)抓取信息的獲取,依據(jù)網(wǎng)頁(yè)更新的時(shí)間及其他維度的定義指標(biāo)進(jìn)行制定規(guī)則,制定規(guī)則后進(jìn)行下一步的抓取網(wǎng)頁(yè),本方法有效的獲得更新頁(yè)面,加強(qiáng)頁(yè)面獲取的實(shí)時(shí)性。
本發(fā)明采用的技術(shù)方案為:一種基于探測(cè)網(wǎng)頁(yè)更新周期的抓取方法,該方法包括如下步驟:
步驟(1)、頁(yè)面來源于頁(yè)面抓取的歷史信息,從歷史信息中獲取待抓取的網(wǎng)頁(yè)頁(yè)面或者依據(jù)提供的頁(yè)面源信息進(jìn)行設(shè)置;
步驟(2)、設(shè)置定時(shí)探測(cè)抓取周期,主要依據(jù)指定時(shí)間進(jìn)行周期設(shè)置,并且周期性的獲取網(wǎng)頁(yè)信息;
步驟(3)、將獲取的網(wǎng)頁(yè)信息進(jìn)行規(guī)則制定,如果頁(yè)面更新時(shí)間有所改變,則將頁(yè)面抓取的方式改為獲取(GET),其他均為檢測(cè)(CHK)方式進(jìn)行;
步驟(4)、通過步驟(3)設(shè)置好的規(guī)則,進(jìn)行下一步抓取或者進(jìn)行頁(yè)面本地存儲(chǔ)。
其中,所述步驟(1)中頁(yè)面來源于頁(yè)面抓取的歷史信息,從歷史信息中獲取待抓取的網(wǎng)頁(yè)頁(yè)面或者依據(jù)提供的頁(yè)面源信息進(jìn)行設(shè)置,其步驟為:
步驟1.1:通過指定的頁(yè)面進(jìn)行獲取頁(yè)面url獲取,并且建立頁(yè)面歷史信息列表;
步驟1.2:對(duì)于不存在歷史信息列表中的頁(yè)面采用直接獲取(GET)的方式進(jìn)行,對(duì)于存在歷史信息列表中的頁(yè)面采用檢測(cè)(CHK)方式進(jìn)行;如果是指定的目標(biāo)頁(yè)面,則直接設(shè)置其方式為檢測(cè)(CHK)方式進(jìn)行。
其中,所述步驟(2)中設(shè)置定時(shí)探測(cè)抓取周期,主要依據(jù)指定時(shí)間進(jìn)行周期設(shè)置,并且周期性的獲取網(wǎng)頁(yè)信息,其步驟為:
步驟2.1:頁(yè)面設(shè)置依據(jù)配置的方式進(jìn)行設(shè)置探測(cè)抓取周期,采用系統(tǒng)時(shí)鐘的方式進(jìn)行周期性的抓取觸發(fā)。
其中,所述步驟(3)中將獲取的網(wǎng)頁(yè)信息進(jìn)行規(guī)則制定,如果頁(yè)面更新時(shí)間有所改變,則將頁(yè)面抓取的方式改為獲取(GET),其他均為檢測(cè)(CHK)方式進(jìn)行,其步驟為:
步驟3.1:通過周期性獲取到的頁(yè)面信息進(jìn)行規(guī)則設(shè)置,獲取目標(biāo)頁(yè)面鏈接url;
步驟3.2:獲取目標(biāo)鏈接url的服務(wù)器ip地址;
步驟3.3:設(shè)置抓取頁(yè)面的UA為匿名或者實(shí)名;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京航空航天大學(xué),未經(jīng)北京航空航天大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310007246.7/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種搜索網(wǎng)頁(yè)的方法和裝置
- 網(wǎng)頁(yè)類型識(shí)別方法以及網(wǎng)頁(yè)類型識(shí)別裝置
- 網(wǎng)頁(yè)生成方法及網(wǎng)頁(yè)生成裝置
- 網(wǎng)頁(yè)修改方法及網(wǎng)頁(yè)修改裝置
- 網(wǎng)頁(yè)訪問處理方法
- 獲取網(wǎng)頁(yè)信息方法和裝置
- 網(wǎng)頁(yè)資源的獲取方法、裝置及終端
- 一種網(wǎng)頁(yè)制作方法、系統(tǒng)、可讀存儲(chǔ)介質(zhì)及服務(wù)器
- 網(wǎng)頁(yè)安全處理方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種網(wǎng)頁(yè)同步的方法、系統(tǒng)





