[發(fā)明專利]面向廣告投放的主從分布內(nèi)容爬取機(jī)器人在審
| 申請(qǐng)?zhí)枺?/td> | 202110971084.3 | 申請(qǐng)日: | 2021-08-23 |
| 公開(kāi)(公告)號(hào): | CN113656673A | 公開(kāi)(公告)日: | 2021-11-16 |
| 發(fā)明(設(shè)計(jì))人: | 劉文平 | 申請(qǐng)(專利權(quán))人: | 劉文平 |
| 主分類號(hào): | G06F16/951 | 分類號(hào): | G06F16/951;G06F16/955;G06K9/62;G06Q30/02 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 312400 浙*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 面向 廣告 投放 主從 分布 內(nèi)容 機(jī)器人 | ||
1.面向廣告投放的主從分布內(nèi)容爬取機(jī)器人,其特征在于,設(shè)計(jì)實(shí)現(xiàn)基于Redis的分布式內(nèi)容爬取機(jī)器人,通過(guò)分布式網(wǎng)絡(luò)部署方式進(jìn)行抓取與存儲(chǔ);分布式內(nèi)容爬取機(jī)器人總體架構(gòu)包括一個(gè)中樞調(diào)度器、多個(gè)爬取器結(jié)點(diǎn)、Web配置管理模塊、代理池模塊、分布式存儲(chǔ)模塊、Redis數(shù)據(jù)庫(kù)與MongoDB數(shù)據(jù)庫(kù),具體為:
第一,基于廣告投放的實(shí)際需求,提出一個(gè)主從分布內(nèi)容爬取機(jī)器人來(lái)索引網(wǎng)頁(yè)信息并進(jìn)行周期性更新,構(gòu)建訓(xùn)練集與測(cè)試集,實(shí)現(xiàn)廣告投放頁(yè)面的快速響應(yīng);
第二,內(nèi)容爬取機(jī)器人由一個(gè)中樞調(diào)度器和眾多抓取爬蟲(chóng)組成,并基于Web方式實(shí)現(xiàn)抓取規(guī)則配置與運(yùn)行狀態(tài)實(shí)時(shí)監(jiān)測(cè),中樞調(diào)度器與爬蟲(chóng)結(jié)點(diǎn)間采用Redis內(nèi)存數(shù)據(jù)庫(kù)實(shí)現(xiàn)雙向通信,其中中樞調(diào)度器采用多級(jí)URL隊(duì)列實(shí)現(xiàn)URL規(guī)則匹配與去重操作,同時(shí)周期性監(jiān)測(cè)抓取規(guī)則變化進(jìn)行規(guī)則重調(diào)度,并根據(jù)配置調(diào)節(jié)各個(gè)規(guī)則隊(duì)列調(diào)度速率并通過(guò)一致性哈希算法在多個(gè)抓取爬蟲(chóng)間進(jìn)行任務(wù)均衡;另外,每個(gè)抓取爬蟲(chóng)采用多線程池設(shè)計(jì)來(lái)并發(fā)請(qǐng)求URL,先提取頁(yè)面鏈接,再采用開(kāi)源Goose模塊提取元數(shù)據(jù)與正文內(nèi)容后,采用分片與復(fù)制集機(jī)制對(duì)內(nèi)容進(jìn)行分布式存儲(chǔ),同時(shí)使用代理IP來(lái)防止網(wǎng)站屏蔽內(nèi)容爬取機(jī)器人。
2.根據(jù)權(quán)利要求1所述的面向廣告投放的主從分布內(nèi)容爬取機(jī)器人,其特征在于,主從分布內(nèi)容爬取機(jī)器人基本運(yùn)行流程為:首先啟動(dòng)MongoDB分布式數(shù)據(jù)庫(kù)與Redis數(shù)據(jù)庫(kù),確認(rèn)兩者正常運(yùn)行,然后啟動(dòng)Web配置管理模塊Flask監(jiān)聽(tīng)本地5000端口,將針對(duì)特定站點(diǎn)指定的抓取規(guī)則依次配置存儲(chǔ)到Redis數(shù)據(jù)庫(kù),再啟動(dòng)中樞調(diào)度器,調(diào)度器首先加載系統(tǒng)配置文件到全局,加載規(guī)則更新線程,該線程從Redis中讀取事先制定的抓取規(guī)則到全局字典并更新規(guī)則版本信息,該線程創(chuàng)建調(diào)度線程并啟動(dòng)它,周期性動(dòng)態(tài)監(jiān)測(cè)規(guī)則版本號(hào),發(fā)現(xiàn)規(guī)則變動(dòng)就激活調(diào)度標(biāo)志通知調(diào)度線程立即開(kāi)始一次新的調(diào)度,調(diào)度線程在一次調(diào)度進(jìn)程中進(jìn)行兩個(gè)進(jìn)程:規(guī)則初始調(diào)度與規(guī)則隊(duì)列均衡調(diào)度,其中規(guī)則初始調(diào)度根據(jù)是否達(dá)到更新周期,由規(guī)則種子列表驅(qū)動(dòng)一次更新性調(diào)度,規(guī)則隊(duì)列調(diào)度根據(jù)各個(gè)隊(duì)列在配置中的優(yōu)先級(jí)與權(quán)重確定其調(diào)度速率后,去重并更新其調(diào)度狀態(tài),由一致性哈希進(jìn)程投入當(dāng)前存活爬取器的調(diào)度隊(duì)列;代理池啟動(dòng)后負(fù)責(zé)周期性獲取互聯(lián)網(wǎng)實(shí)時(shí)代理IP信息有效性檢測(cè)后投入Redis;爬取器啟動(dòng)后,加載多個(gè)線程單元從對(duì)應(yīng)的調(diào)度隊(duì)列中加載URL交給下載組件,下載后提取URL回饋給調(diào)度器,頁(yè)面放入數(shù)據(jù)隊(duì)列等待存儲(chǔ)模塊的處理,最后啟動(dòng)存儲(chǔ)模塊將頁(yè)面預(yù)處理后提取有效信息,存入分布式數(shù)據(jù)庫(kù)MongoDB中,同時(shí)通過(guò)FlaskWeb后臺(tái)監(jiān)測(cè)系統(tǒng)運(yùn)行狀態(tài);各個(gè)組件間相互獨(dú)立,都可以部署在不同的機(jī)器結(jié)點(diǎn)上,實(shí)現(xiàn)資源有效利用。
3.根據(jù)權(quán)利要求1所述的面向廣告投放的主從分布內(nèi)容爬取機(jī)器人,其特征在于,中樞調(diào)度器的設(shè)計(jì):中樞調(diào)度類由規(guī)則更新線程類與規(guī)則調(diào)度線程類組成,三者共同依托環(huán)境類來(lái)工作,環(huán)境類提供全局運(yùn)行字典變量,存儲(chǔ)實(shí)時(shí)的抓取規(guī)則和一些全局共享的變量信息,還提供Redis數(shù)據(jù)庫(kù)連接池變量,該工作類定義兩個(gè)靜態(tài)方法:
第一方法:鏈接檢測(cè)方法進(jìn)行鏈接狀態(tài)調(diào)度邏輯,同時(shí)執(zhí)行實(shí)際調(diào)度操作,對(duì)未出現(xiàn)過(guò)的鏈接創(chuàng)建新的URL對(duì)象類,判斷已有URL對(duì)象的當(dāng)前狀態(tài),如果是爬行失敗狀態(tài)則根據(jù)調(diào)度記錄表統(tǒng)計(jì)參與調(diào)度與調(diào)度失敗的次數(shù),如果次數(shù)超過(guò)設(shè)定值則放棄該URL的抓取,否則在調(diào)度時(shí)間間隔滿足時(shí),給予又一次參與調(diào)度的機(jī)會(huì),在當(dāng)前狀態(tài)不為失敗時(shí),如果其當(dāng)前狀態(tài)是爬行中或者已調(diào)度,則放棄這次調(diào)度,如果當(dāng)前狀態(tài)為爬行成功且URL的類型為分支,基于分支結(jié)點(diǎn)內(nèi)容變化較快,立即對(duì)它進(jìn)行調(diào)度,剩余的所有情況則在滿足時(shí)間間隔的條件下進(jìn)行調(diào)度;
第二方法:基于哈希的去重功能,同時(shí)更新URL對(duì)象信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于劉文平,未經(jīng)劉文平許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110971084.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種時(shí)鐘同步方法及系統(tǒng)
- 一種防御能量攻擊的JK觸發(fā)器
- 智能變電站維護(hù)業(yè)務(wù)類信息背景流的主從時(shí)鐘同步方法
- 一種管理主從網(wǎng)絡(luò)設(shè)備的設(shè)備配置系統(tǒng)及方法
- 標(biāo)準(zhǔn)時(shí)隙的雙無(wú)線藍(lán)牙設(shè)備主從切換方法、設(shè)備和系統(tǒng)
- 雙無(wú)線藍(lán)牙設(shè)備主從切換方法、裝置、設(shè)備和音頻系統(tǒng)
- 一種調(diào)整物理層PHY主從模式的方法及裝置
- 一種主從一體式輪組的AGV底盤(pán)
- 一種同軸雙電機(jī)模型預(yù)測(cè)直接轉(zhuǎn)矩控制方法
- 一種具有一個(gè)主從模式和多個(gè)從模USB的設(shè)備





