[發(fā)明專(zhuān)利]個(gè)性化定向采集云服務(wù)系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201110285067.0 | 申請(qǐng)日: | 2011-09-23 |
| 公開(kāi)(公告)號(hào): | CN102291469A | 公開(kāi)(公告)日: | 2011-12-21 |
| 發(fā)明(設(shè)計(jì))人: | 王楠 | 申請(qǐng)(專(zhuān)利權(quán))人: | 王楠 |
| 主分類(lèi)號(hào): | H04L29/08 | 分類(lèi)號(hào): | H04L29/08 |
| 代理公司: | 南京縱橫知識(shí)產(chǎn)權(quán)代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 210006 江蘇省南京*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 個(gè)性化 定向 采集 服務(wù) 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種個(gè)性化定向采集系統(tǒng)。
背景技術(shù)
定向采集系統(tǒng)是網(wǎng)絡(luò)蜘蛛的一種,它是網(wǎng)絡(luò)數(shù)據(jù)獲取系統(tǒng)的核心部分。它通過(guò)對(duì)互聯(lián)網(wǎng)上已知信息源(即網(wǎng)絡(luò)鏈接,URL:?Universal?Resource?Locator)的不斷抓取海量網(wǎng)頁(yè)內(nèi)容,獲取其中所有主題相關(guān)內(nèi)容。定向采集系統(tǒng)的優(yōu)劣集中體現(xiàn)在其抓取網(wǎng)頁(yè)內(nèi)容的速度、質(zhì)量以及抓取內(nèi)容和采集主題的匹配程度。目前,絕大多數(shù)的網(wǎng)絡(luò)蜘蛛都是單機(jī)版的,對(duì)于信息源和采集主題的管理相對(duì)比較簡(jiǎn)單,通常是由管理員在服務(wù)器端進(jìn)行簡(jiǎn)單配置,配置好后所有用戶(hù)均在此配置的制約下使用網(wǎng)絡(luò)蜘蛛。這樣,當(dāng)用戶(hù)需要有針對(duì)自己的需求進(jìn)行個(gè)性化配置時(shí),就得不到滿(mǎn)足了。尤其當(dāng)這些個(gè)性化的需求日益增長(zhǎng)時(shí),目前的網(wǎng)絡(luò)蜘蛛就顯得捉襟見(jiàn)肘了。
?
發(fā)明內(nèi)容
本發(fā)明為解決上述問(wèn)題,提供一種能夠提供個(gè)性化定制服務(wù)的個(gè)性化定向采集云服務(wù)系統(tǒng)。
本發(fā)明的技術(shù)方案是提供一種個(gè)性化定向采集云服務(wù)系統(tǒng),其包括定向采集執(zhí)行端和若干客戶(hù)端,所述客戶(hù)端根據(jù)用戶(hù)設(shè)定輸出采集主題和初始URL,所述定向采集執(zhí)行端包括若干個(gè)網(wǎng)頁(yè)定向采集器,其特征在于:其還包括:
基于云服務(wù)的云端管理平臺(tái),負(fù)責(zé)接收所述采集主題和初始URL并將其傳輸給所述定向采集端;負(fù)責(zé)將所述定向采集端采集的網(wǎng)頁(yè)傳輸回所述客戶(hù)端。
優(yōu)選的,所述客戶(hù)端包括:
采集配置客戶(hù)端,負(fù)責(zé)提供人機(jī)交互界面供用戶(hù)設(shè)定所述采集主題和初始URL;
內(nèi)容提取客戶(hù)端,負(fù)責(zé)將所述云端管理平臺(tái)傳輸過(guò)來(lái)的網(wǎng)頁(yè)顯示給用戶(hù),并將該網(wǎng)頁(yè)處理后保存到采集結(jié)果數(shù)據(jù)庫(kù)。
優(yōu)選的,所述采集配置客戶(hù)端的工作流程為:
1)提供編輯界面供用戶(hù)輸入U(xiǎn)RL;
2)根據(jù)用戶(hù)輸入的URL,提取相應(yīng)的網(wǎng)頁(yè);
3)根據(jù)步驟2提取的網(wǎng)頁(yè),生成可供用戶(hù)選擇內(nèi)容的選擇網(wǎng)頁(yè);
4)根據(jù)用戶(hù)選擇的內(nèi)容,將其對(duì)應(yīng)的URL作為初始URL傳輸給所述云端管理平臺(tái)。
優(yōu)選的,所述內(nèi)容提取客戶(hù)端的工作流程為:
1)將所述云端管理平臺(tái)傳輸過(guò)來(lái)的網(wǎng)頁(yè)顯示給用戶(hù);
2)對(duì)該網(wǎng)頁(yè)進(jìn)行加注釋、打標(biāo)簽作業(yè);
3)對(duì)該網(wǎng)頁(yè)的多媒體文件進(jìn)行轉(zhuǎn)換格式、重新壓縮處理;
4)將步驟3)處理后的網(wǎng)頁(yè)保存到所述采集結(jié)果數(shù)據(jù)庫(kù);
5)提供搜索引擎供用戶(hù)檢索所述采集結(jié)果數(shù)據(jù)庫(kù)。
優(yōu)選的,所述云端管理平臺(tái)包括以下模塊:
任務(wù)調(diào)度管理:負(fù)責(zé)根據(jù)所述初始URL生成采集任務(wù)傳輸給所述定向采集執(zhí)行端;
客戶(hù)管理:負(fù)責(zé)維護(hù)用戶(hù)資料、用戶(hù)權(quán)限、用戶(hù)注冊(cè)和登陸;
網(wǎng)頁(yè)資料管理:負(fù)責(zé)接收所述定向采集執(zhí)行端采集的網(wǎng)頁(yè),將其保存到原始網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的同時(shí)傳輸給所述客戶(hù)端。
優(yōu)選的,所述任務(wù)調(diào)度管理的工作流程為:
1)接收到所有所述客戶(hù)端發(fā)來(lái)的所述初始URL,生成待采集的URL列表;?
2)根據(jù)各個(gè)所述網(wǎng)頁(yè)定向采集器的工作狀態(tài),將所述URL列表中的URL分配給所述網(wǎng)頁(yè)定向采集器。
優(yōu)選的,所述定向采集執(zhí)行端還包括網(wǎng)頁(yè)分析模塊和鏈接隊(duì)列池,其工作流程為:
1)接收所述云端管理平臺(tái)傳輸過(guò)來(lái)的所述采集主題和初始URL;
2)所述網(wǎng)頁(yè)定向采集器發(fā)出網(wǎng)頁(yè)請(qǐng)求,采集所述初始URL對(duì)應(yīng)的網(wǎng)頁(yè);
3)接收網(wǎng)頁(yè),并將完整的網(wǎng)頁(yè)送入所述網(wǎng)頁(yè)分析模塊;
4)所述網(wǎng)頁(yè)分析模塊按所述采集主題提取該網(wǎng)頁(yè)的必要的深度URL鏈接,送入所述鏈接隊(duì)列池,同時(shí)輸出網(wǎng)頁(yè)到所述云端管理平臺(tái);
5)所述網(wǎng)頁(yè)定向采集器不斷重復(fù)提取所述鏈接隊(duì)列池中的URL鏈接,重復(fù)步驟2)~5)直到所述鏈接隊(duì)列池中無(wú)URL鏈接為止。
本發(fā)明的個(gè)性化定向采集云服務(wù)系統(tǒng)通過(guò)將各個(gè)客戶(hù)端每個(gè)用戶(hù)自己設(shè)定的采集主題和采集對(duì)象網(wǎng)站匯聚到云服務(wù)平臺(tái)上,通過(guò)云服務(wù)強(qiáng)大、高效的運(yùn)算能力實(shí)現(xiàn)定向采集。因此,本發(fā)明具有高速、高效、可以滿(mǎn)足個(gè)性化多樣性的采集需求等特點(diǎn)。
附圖說(shuō)明
圖1是本發(fā)明的個(gè)性化定向采集云服務(wù)系統(tǒng)的總體框架圖;
圖2是本發(fā)明的個(gè)性化定向采集云服務(wù)系統(tǒng)的邏輯結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)的描述。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于王楠,未經(jīng)王楠許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110285067.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 頻道信息生成、訪問(wèn)控制、交付方法、IPTV系統(tǒng)及裝置
- 向個(gè)性化回鈴音用戶(hù)提供網(wǎng)絡(luò)閃鈴的方法
- 一種個(gè)性化設(shè)置的控制方法、系統(tǒng)及設(shè)備
- 個(gè)性化配置應(yīng)用功能的方法和裝置
- 瀏覽器新建標(biāo)簽頁(yè)的展現(xiàn)方法和瀏覽器客戶(hù)端
- 一觸式設(shè)備個(gè)性化
- 一種跨媒介個(gè)性化推薦方法和系統(tǒng)
- 基于大數(shù)據(jù)的證券資訊個(gè)性化服務(wù)系統(tǒng)
- 一種個(gè)性化的交易員教學(xué)自動(dòng)推薦方法和系統(tǒng)
- 實(shí)物禮品的個(gè)性化處理方法、裝置、設(shè)備和可讀存儲(chǔ)介質(zhì)
- 服務(wù)票據(jù)發(fā)行系統(tǒng)及服務(wù)票據(jù)發(fā)行服務(wù)
- 出租服務(wù)服務(wù)器和出租服務(wù)系統(tǒng)
- 服務(wù)開(kāi)放方法及系統(tǒng)、服務(wù)開(kāi)放服務(wù)器
- 基于服務(wù)券服務(wù)的在線(xiàn)企業(yè)服務(wù)平臺(tái)
- 退稅服務(wù)系統(tǒng)、退稅服務(wù)平臺(tái)及其服務(wù)方法
- 服務(wù)亭(服務(wù)驛站)
- 公共服務(wù)自助服務(wù)機(jī)
- 服務(wù)提供服務(wù)器、服務(wù)提供系統(tǒng)以及服務(wù)提供方法
- 服務(wù)提供服務(wù)器、服務(wù)提供系統(tǒng)以及服務(wù)提供方法
- 服務(wù)提供服務(wù)器、服務(wù)提供系統(tǒng)以及服務(wù)提供方法





