[發明專利]網頁數據的采集方法及其系統、存儲介質、電子設備有效
| 申請號: | 201711322256.4 | 申請日: | 2017-12-12 |
| 公開(公告)號: | CN107918674B | 公開(公告)日: | 2020-06-26 |
| 發明(設計)人: | 夏陽;劉雪艷;蔣一新 | 申請(專利權)人: | 攜程旅游網絡技術(上海)有限公司 |
| 主分類號: | G06F16/903 | 分類號: | G06F16/903;G06F16/955;H04L29/08 |
| 代理公司: | 上海隆天律師事務所 31282 | 代理人: | 臧云霄;周駿 |
| 地址: | 200335 上海市長*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 數據 采集 方法 及其 系統 存儲 介質 電子設備 | ||
1.一種網頁數據的采集方法,其特征在于,所述網頁數據的采集方法包括如下步驟:
S10:建立數據庫,所述數據庫包括多個賬號以及每個所述賬號對應的密碼;
S20:配置數據采集的網頁地址、正則表達式以及JavaScript可執行腳本,其中,配置的所述正則表達式的匹配對象至少包括由所述數據庫中與所述賬號對應的手機號或者郵箱中至少一項構成的字符串以及由所述數據庫中與所述賬號對應的密碼構成的字符串;
S30:根據配置的至少一所述網頁地址,發送網頁地址請求,并獲取該網頁地址請求的頁面文件;
S40:將所述正則表達式中的所有匹配對象與獲取的所述頁面文件中的所有字符串進行匹配;
S50:判斷所述頁面文件的字符串中是否命中所述正則表達式的匹配對象,若是,則執行步驟S60;
S60:利用配置的JavaScript可執行腳本對所述命中的字符串進行處理,獲取所述命中的字符串對應的賬號和密碼;
S70:向賬號對應的手機號或者郵箱發出告警信息,其中,所述告警信息至少包括所述頁面文件對應的網頁地址以及所述命中的字符串對應的賬號和密碼。
2.如權利要求1所述的網頁數據的采集方法,其特征在于,在所述步驟S30中還包括如下步驟:
獲取所述配置的網頁地址內的所有子頁面的頁面文件。
3.如權利要求1所述的網頁數據的采集方法,其特征在于,所述步驟S40還包括如下步驟:
對所述正則表達式中的至少一個所述匹配對象進行分組,形成多個分組數據;
所述多個分組數據并行、同時進行正則匹配。
4.如權利要求1所述的網頁數據的采集方法,其特征在于,在所述步驟S40中,通過對所述頁面文件進行遍歷的方式將所述正則表達式中的所有匹配對象與獲取的所述頁面文件中的所有字符串進行匹配。
5.如權利要求1所述的網頁數據的采集方法,其特征在于,所述步驟S20中配置了多個數據采集的網頁地址;在所述步驟S50中,若判斷在所述頁面文件的字符串中未命中所述正則表達式的匹配對象,則返回所述步驟S30,更換另一網頁地址發送網頁地址請求,并獲取頁面文件。
6.如權利要求5所述的網頁數據的采集方法,其特征在于,所述步驟S70完成后,還包括如下步驟:
返回所述步驟S30,更換另一網頁地址發送網頁地址請求,并獲取頁面文件。
7.一種網頁數據的采集系統,其特征在于,所述網頁數據的采集系統包括:
數據庫創建模塊,用于建立數據庫,所述數據庫包括多個賬號以及每個所述賬號對應的密碼;
配置模塊,用于配置數據采集的網頁地址、正則表達式以及JavaScript可執行腳本;其中,配置的所述正則表達式的匹配對象至少包括由所述數據庫中與所述賬號對應的手機號或者郵箱中至少一項構成的字符串以及由所述數據庫中與所述賬號對應的密碼構成的字符串;
網頁地址采集模塊,用于根據配置的至少一所述網頁地址,發送網頁地址請求,并獲取該網頁地址請求的頁面文件;
匹配模塊,將所述正則表達式中的所有匹配對象與獲取的所述頁面文件中的所有字符串進行匹配;
判斷模塊,用于判斷在所述頁面文件的字符串中是否命中所述正則表達式的匹配對象;
數據處理模塊,用于利用配置的JavaScript可執行腳本對所述命中的字符串進行處理,獲取所述命中的字符串對應的賬號和密碼;
告警模塊,用于向賬號對應的手機號或者郵箱出告警信息,其中,所述告警信息至少包括所述頁面文件對應的網頁地址以及所述命中的字符串對應的賬號和密碼。
8.如權利要求7所述的網頁數據的采集系統,其特征在于,所述網頁地址采集模塊和所述匹配模塊之間采用循環或者嵌套的關系相互調用。
9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現權利要求1至6中任一項所述的網頁數據的采集方法的步驟。
10.一種電子設備,其特征在于,包括:
處理器;以及
存儲器,用于存儲所述處理器的可執行指令;
其中,所述處理器配置為經由執行所述可執行指令來執行權利要求1至6中任一項所述的網頁數據的采集方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于攜程旅游網絡技術(上海)有限公司,未經攜程旅游網絡技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711322256.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種寢室鞋柜
- 下一篇:一種企業管理咨詢用文件存放柜
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





