[發明專利]頁面檢測的方法和裝置有效
| 申請號: | 201710402929.0 | 申請日: | 2017-06-01 |
| 公開(公告)號: | CN107329981B | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 茍健 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F40/14 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;姜勁 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 頁面 檢測 方法 裝置 | ||
本發明公開了頁面檢測的方法和裝置,涉及計算機技術領域。該方法的一具體實施方式包括:基于爬蟲技術抓取頁面信息;利用正則匹配技術和圖形分析技術根據頁面檢測規則對所述頁面信息進行檢測,以得到頁面檢測結果。該實施方式實現了對頁面內容的自動分析監控,提高了檢測效率及準確率。
技術領域
本發明涉及計算機技術領域,尤其涉及一種頁面檢測的方法和裝置。
背景技術
網頁是一個包含超文本標記語言(HTML)標簽的純文本文件,它可以存放在世界某個角落的某一臺計算機中,是萬維網中的一“頁”,網頁可以是商品詳情頁、新聞頁面、知識分享性頁面等。
通常,各網絡平臺對頁面都有一些具體要求,在頁面發布前,需要按規定對頁面進行審核,在頁面發布后,也需要經常對頁面進行抽查。例如對于商品詳情頁,在內容上需要檢測每類商品的名稱、商品簡介、圖片的內容、二維碼規則等內容。
現有技術中,對頁面的審核通常包括首次審核和后續抽查審核,分別采用如下兩種方案:
首次審核:在頁面發布前,用文本關鍵字對頁面進行過濾,即對如商品名稱、詳情介紹等內容進行敏感詞過濾;
后續抽查審核:在頁面發布后,通過人工抽檢頁面,查看其名稱、簡介、圖片或二維碼等信息是否符合規定。
在實現本發明過程中,發明人發現現有技術中至少存在如下問題:
無論是首次審核還是后續抽查審核,除了文本等少數可以經機器自動過濾敏感詞的信息外,對于頁面發布的其他大部分信息,如眾多圖片、二維碼等審核需要依靠人工參與審核,費時費力且效率及準確率極低。
發明內容
有鑒于此,本發明實施例提供一種頁面檢測的方法和裝置,能夠解決對于頁面檢測需要依靠人工參與審核,費時費力且效率及準確率極低的技術問題。
為實現上述目的,根據本發明實施例的一個方面,提供了一種頁面檢測的方法。
本發明實施例的一種頁面檢測的方法包括:基于爬蟲技術抓取頁面信息;利用正則匹配技術和圖形分析技術根據頁面檢測規則對所述頁面信息進行檢測,以得到頁面檢測結果。
可選地,基于爬蟲技術抓取頁面信息包括:基于所述爬蟲技術獲取頁面的超文本標記語言文件信息,分析所述超文本標記語言文件信息得到文本信息和圖案信息。
可選地,所述頁面檢測規則包括頁面布局規則、文本規則和圖案規則。
可選地,根據頁面檢測規則對所述頁面信息進行檢測包括:利用所述正則匹配技術根據所述文本規則對所述文本信息進行檢測;利用所述圖形分析技術根據所述圖案規則對所述圖案信息進行檢測;以及根據所述頁面布局規則對所述超文本標記語言文件信息進行檢測。
可選地,所述圖形分析技術是OpenCV分析技術。
為實現上述目的,根據本發明實施例的另一方面,提供了一種頁面檢測的裝置。
本發明實施例的一種頁面檢測的裝置包括:抓取模塊,用于基于爬蟲技術抓取頁面信息;檢測模塊,用于利用正則匹配技術和圖形分析技術根據頁面檢測規則對所述頁面信息進行檢測,以得到頁面檢測結果。
可選地,所述抓取模塊還用于:基于所述爬蟲技術獲取頁面的超文本標記語言文件信息,分析所述超文本標記語言文件信息得到文本信息和圖案信息。
可選地,所述頁面檢測規則包括頁面布局規則、文本規則和圖案規則。
可選地,所述檢測模塊還用于:利用所述正則匹配技術根據所述文本規則對所述文本信息進行檢測;利用所述圖形分析技術根據所述圖案規則對所述圖案信息進行檢測;以及根據所述頁面布局規則對所述超文本標記語言文件信息進行檢測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710402929.0/2.html,轉載請聲明來源鉆瓜專利網。





