[發明專利]一種基于移動設備的網頁健康度的測評方法、裝置及系統在審
| 申請號: | 201710773287.5 | 申請日: | 2017-08-31 |
| 公開(公告)號: | CN107766234A | 公開(公告)日: | 2018-03-06 |
| 發明(設計)人: | 黃晉;蔡致暖;何金城;莫根生 | 申請(專利權)人: | 廣州數沃信息科技有限公司 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06F17/30 |
| 代理公司: | 廣州市越秀區哲力專利商標事務所(普通合伙)44288 | 代理人: | 張耐寒 |
| 地址: | 510623 廣東省廣州市天河區黃*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 移動 設備 網頁 健康 測評 方法 裝置 系統 | ||
1.一種基于移動設備的網頁健康度的測評方法,其特征在于包括以下步驟:
數據獲取步驟:逐個調用每個采集任務并根據每個采集任務獲取網頁中的目標數據;
數據處理步驟:根據目標數據的類型分別對目標數據進行歸類處理并得出歸類結果,從而根據目標數據的歸類結果得出網頁健康度的分析結果。
2.如權利要求1所述的方法,其特征在于:目標數據的類型包括文本數據類型、音頻數據類型、圖像數據類型和視頻數據類型。
3.如權利要求1所述的方法,其特征在于:所述采集任務包括入口URL、任務描述、多個抽取模板和其他參數配置;數據獲取步驟具體包括:根據采集任務獲取入口URL,并根據入口URL進入對應網頁,然后逐個根據每個抽取模板對對應的網頁進行數據抽取,從而獲取對應的目標數據。
4.如權利要求3所述的方法,其特征在于:所述抽取模板至少包括模板描述、URL正則表達式、頁面下載器以及抽取字段列表;其中,模板描述是對對抽取模板的描述;URL正則表達式用于匹配需要進行數據抽取的網頁的URL;頁面下載器用于獲取網頁信息;抽取字段列表包括從網頁中抽取的字段以及抽取對應字段的方法。
5.如權利要求1所述的方法,其特征在于:所述數據獲取步驟與數據處理步驟之間還包括數據存儲步驟:通過分布式存儲系統對目標數據進行對應存儲。
6.一種電子設備,包括存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于:所述處理器執行所述程序時實現如權利要求1-5中任一項所述的基于移動設備的網頁健康度的測評方法的步驟。
7.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于:所述計算機程序被處理器執行時實現如權利要求1-5中任一項所述的基于移動設備的網頁健康度的測評方法的步驟。
8.一種基于移動設備的網頁健康度的測評系統,其特征在于包括:爬蟲配置模塊、任務調度模塊、數據采集模塊和數據處理模塊,爬蟲配置模塊用于根據網頁配置對應的采集任務和抽取模板;所述任務調用模塊用于對采集任務進行管理和調度;數據采集模塊用于根據采集任務采集對應的目標數據并發送給數據處理模塊,從而使得數據處理模塊根據目標數據的類型分別對目標數據進行歸類處理,并最終得出網頁健康度的分析結果。
9.如權利要求8所述的系統,其特征在于:還包括數據存儲模塊,數據存儲模塊用于將數據采集模塊所采集的目標數據進行存儲。
10.如權利要求8-9中任一項所述的系統,其特征在于:還包括程序日志模塊,程序日志模塊用于記錄系統中執行過程的狀態、操作以及各種報錯信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州數沃信息科技有限公司,未經廣州數沃信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710773287.5/1.html,轉載請聲明來源鉆瓜專利網。





