[發(fā)明專利]高并發(fā)電商網(wǎng)站的網(wǎng)頁數(shù)據(jù)采集方法、系統(tǒng)和介質(zhì)在審
| 申請?zhí)枺?/td> | 201811519412.0 | 申請日: | 2018-12-12 |
| 公開(公告)號: | CN109697124A | 公開(公告)日: | 2019-04-30 |
| 發(fā)明(設(shè)計)人: | 翁文言;趙方;陳志毅;楊振宗;陽衡峰;夏冰 | 申請(專利權(quán))人: | 深圳店匠科技有限公司 |
| 主分類號: | G06F9/50 | 分類號: | G06F9/50 |
| 代理公司: | 深圳協(xié)成知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44458 | 代理人: | 伍永森;周婧 |
| 地址: | 518000 廣東省深圳市南山區(qū)粵*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 計算集群 計算資源利用率 網(wǎng)頁數(shù)據(jù)采集 計算資源 發(fā)電商 網(wǎng)站 服務(wù)器 計算資源分配 數(shù)據(jù)采集效率 網(wǎng)頁數(shù)據(jù)請求 目標(biāo)網(wǎng)頁 優(yōu)化配置 預(yù)分配 檢測 預(yù)設(shè) 調(diào)配 | ||
本發(fā)明公開了一種高并發(fā)電商網(wǎng)站的網(wǎng)頁數(shù)據(jù)采集方法、系統(tǒng)和介質(zhì),所述方法包括以下步驟:當(dāng)接收到針對目標(biāo)網(wǎng)頁的網(wǎng)頁數(shù)據(jù)請求時,預(yù)分配多個服務(wù)器組成至少兩個計算集群;通過所述計算集群進(jìn)行網(wǎng)頁數(shù)據(jù)采集;在網(wǎng)頁數(shù)據(jù)采集過程中,檢測各個計算集群的計算資源利用率;當(dāng)檢測到有的計算集群的計算資源利用率高,有的計算集群的計算資源利用率低時,則從計算資源利用率低的計算集群中調(diào)配預(yù)設(shè)數(shù)量的服務(wù)器到計算資源利用率高的計算集群。從而通過避免了計算資源分配不合理造成的計算資源的浪費或不足,實現(xiàn)了資源的優(yōu)化配置,提高了計算資源的利用率,進(jìn)而提高了數(shù)據(jù)采集效率。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其是涉及一種高并發(fā)電商網(wǎng)站的網(wǎng)頁數(shù)據(jù)采集方法、系統(tǒng)和介質(zhì)。
背景技術(shù)
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,互聯(lián)網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息則成為一個巨大的挑戰(zhàn)。特別的,在電子商務(wù)網(wǎng)站中,包括的數(shù)據(jù)有文字、圖片、數(shù)據(jù)庫甚至音頻和視頻等多媒體資源,這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù),不能很好地發(fā)現(xiàn)和獲取。為了解決上述問題,定向抓取相關(guān)網(wǎng)頁資源的程序應(yīng)運而生,它根據(jù)既定的目標(biāo),有選擇的訪問互聯(lián)網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。
對既定目標(biāo)有選擇的獲取信息需要消耗計算資源,不同的目標(biāo)可能包括不同大小和復(fù)雜度的網(wǎng)頁數(shù)據(jù)。當(dāng)過多的計算資源配置到采集較小數(shù)據(jù)的任務(wù)中時,則會造成計算資源的浪費;當(dāng)過少的計算資源配置到采集較大數(shù)據(jù)的任務(wù)中時,往往耗時較長,效率低下。因此,如何優(yōu)化資源配置,提高數(shù)據(jù)采集效率,是當(dāng)前亟需解決的技術(shù)問題。
發(fā)明內(nèi)容
本發(fā)明實施例的主要目的在于提供一種高并發(fā)電商網(wǎng)站的網(wǎng)頁數(shù)據(jù)采集方法、系統(tǒng)和介質(zhì),旨在優(yōu)化資源配置,提高數(shù)據(jù)采集效率。
為達(dá)以上目的,一方面提出一種高并發(fā)電商網(wǎng)站的網(wǎng)頁數(shù)據(jù)采集方法,所述方法包括:
當(dāng)接收到針對目標(biāo)網(wǎng)頁的網(wǎng)頁數(shù)據(jù)請求時,預(yù)分配多個服務(wù)器組成至少兩個計算集群;
通過所述計算集群進(jìn)行網(wǎng)頁數(shù)據(jù)采集;
在網(wǎng)頁數(shù)據(jù)采集過程中,檢測各個計算集群的計算資源利用率;
當(dāng)檢測到有的計算集群的計算資源利用率高,有的計算集群的計算資源利用率低時,則從所述計算資源利用率低的計算集群中調(diào)配預(yù)設(shè)數(shù)量的服務(wù)器到所述計算資源利用率高的計算集群。
可選地,所述檢測各個計算集群的計算資源利用率的步驟之后還包括:
當(dāng)檢測到只有計算資源利用率高的計算集群,而沒有計算資源利用率低的計算集群時,則向所述計算資源利用率高的計算集群中增加預(yù)設(shè)數(shù)量的服務(wù)器;
當(dāng)檢測到只有計算資源利用率低的計算集群,而沒有計算資源利用率高的計算集群時,則從所述計算資源利用率低的計算集群中移除預(yù)設(shè)數(shù)量的服務(wù)器。
可選地,所述檢測各個計算集群的計算資源利用率包括:
每隔預(yù)設(shè)時長檢測一次各個計算集群的CPU和內(nèi)存占用率;
當(dāng)所述計算集群的CPU和內(nèi)存占用率大于或等于第一占用閾值且持續(xù)預(yù)設(shè)時間時,判定所述計算集群的計算資源利用率高;
當(dāng)所述計算集群的CPU和內(nèi)存占用率小于或等于第二占用閾值且持續(xù)預(yù)設(shè)時間時,判定所述計算集群的計算資源利用率低;所述第一占用閾值大于所述第二占用閾值。
可選地,所述檢測各個計算集群的計算資源利用率包括:
每隔預(yù)設(shè)時長檢測一次各個計算集群的CPU和內(nèi)存占用率,并統(tǒng)計所述計算集群的CPU和內(nèi)存占用率在預(yù)設(shè)時間內(nèi)的平均值;
當(dāng)所述計算集群的CPU和內(nèi)存占用率在預(yù)設(shè)時間內(nèi)的平均值大于或等于第一占用閾值時,判定所述計算集群的計算資源利用率高;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳店匠科技有限公司,未經(jīng)深圳店匠科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811519412.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 資源調(diào)度方法
- 計算機(jī)負(fù)載的多個維度的準(zhǔn)確生成
- 資源利用率的計算方法、計算裝置及計算機(jī)可讀存儲介質(zhì)
- 分析服務(wù)器、存儲介質(zhì)和用于分析計算系統(tǒng)的方法
- 高并發(fā)電商網(wǎng)站的網(wǎng)頁數(shù)據(jù)采集方法、系統(tǒng)和介質(zhì)
- 計算機(jī)資源利用率降低設(shè)備
- 云資源使用效能計量方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種信道資源利用率的統(tǒng)計方法和裝置
- 資源分配方法、裝置、設(shè)備及存儲介質(zhì)
- 一種計算機(jī)資源利用率優(yōu)化方法
- 深度包檢測裝置、網(wǎng)頁數(shù)據(jù)處理方法、采集方法及系統(tǒng)
- 一種網(wǎng)頁數(shù)據(jù)采集方法、系統(tǒng)
- 網(wǎng)頁數(shù)據(jù)采集方法及裝置
- 網(wǎng)頁數(shù)據(jù)的處理方法和裝置
- 一種可配置的網(wǎng)頁數(shù)據(jù)采集的方法及系統(tǒng)
- 一種網(wǎng)頁數(shù)據(jù)采集方法
- 一種網(wǎng)站數(shù)據(jù)采集方法及裝置
- 網(wǎng)頁數(shù)據(jù)獲取方法、系統(tǒng)和數(shù)據(jù)匹配推送方法
- 網(wǎng)頁數(shù)據(jù)采集方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 一種網(wǎng)頁數(shù)據(jù)采集方法、裝置、系統(tǒng)及介質(zhì)





