[發明專利]檢測網站的方法和系統在審
| 申請號: | 201810164312.4 | 申請日: | 2018-02-27 |
| 公開(公告)號: | CN110309402A | 公開(公告)日: | 2019-10-08 |
| 發明(設計)人: | 龐玉 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/958 |
| 代理公司: | 北京博浩百睿知識產權代理有限責任公司 11134 | 代理人: | 褚敏;宋子良 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網站 檢測 相似度 網頁結構 種檢測 準確率 違規 預設 | ||
本發明公開了一種檢測網站的方法和系統。其中,該方法包括:確定待檢測網站和基準網站的網頁結構的相似度;在相似度大于第一預設值的情況下,判斷待檢測網站中是否存在指定類型的關鍵詞;在確定待檢測網站中存在指定類型的關鍵詞的情況下,確定待檢測網站為指定類型的網站。本發明解決了現有技術中檢測網站是否為違規網站的準確率低的技術問題。
技術領域
本發明涉及網絡檢測領域,具體而言,涉及一種檢測網站的方法和系統。
背景技術
隨著互聯網技術的蓬勃發展,人們在訪問各種網站的數據時,會受到大量不良信息的干擾,尤其是賭博、色情信息的泛濫。因此,對網站的不良信息進行識別是實現綠色網絡的前提。
目前,對賭博、色情網絡信息的檢測主要包括如下兩種:
(1)基于敏感關鍵詞的詞庫來識別違規網站。該方法需要大量的人力定期更新詞庫,其召回量依賴于敏感關鍵詞的樣本詞庫,并且還會存在大量的誤報現象。
(2)基于圖片識別的方法來識別違規網站,但該方法不僅需要消耗大量的計算機資源,而且識別率較低。
針對上述現有技術中檢測網站是否為違規網站的準確率低的問題,目前尚未提出有效的解決方案。
發明內容
本發明實施例提供了一種檢測網站的方法和系統,以至少解決現有技術中檢測網站是否為違規網站的準確率低的技術問題。
根據本發明實施例的一個方面,提供了一種檢測網站的方法,包括:確定待檢測網站和基準網站的網頁結構的相似度;在相似度大于第一預設值的情況下,判斷待檢測網站中是否存在指定類型的關鍵詞;在確定待檢測網站中存在指定類型的關鍵詞的情況下,確定待檢測網站為指定類型的網站。
根據本發明實施例的另一方面,還提供了一種檢測網站的方法,包括:獲取待檢測網站的待檢測數據;確定待檢測數據與異常網站庫中的數據的第一相似度,其中,異常網站庫包含多個異常網站的網頁結構;確定待檢測數據與敏感詞庫中的關鍵詞的第二相似度;若第一相似度大于第一閾值,且第二相似度大于第二閾值,則確定待檢測網站為指定類型的網站。
根據本發明實施例的另一方面,還提供了一種檢測網站的方法,包括:接收待檢測網站的數據信息;基于多個異常檢測庫對待檢測網站的數據信息進行評價,得到待檢測網站的風險值,其中,不同的異常檢測庫對應不同的判斷規則,判斷規則用于確定待檢測網站在不同的異常檢測庫下的風險值;基于待檢測網站的風險值確定待檢測網站的網站類型。
根據本發明實施例的另一方面,還提供了一種檢測網站的系統,包括:輸入裝置,用于獲取待檢測網站;處理器,用于確定待檢測網站和基準網站的網頁結構的相似度,并在相似度大于第一預設值的情況下,在確定待檢測網站中存在指定類型的關鍵詞的情況下,確定待檢測網站為指定類型的網站。
根據本發明實施例的另一方面,還提供了一種存儲介質,該存儲介質包括存儲的程序,其中,在程序運行時控制存儲介質所在設備執行檢測網站的方法。
根據本發明實施例的另一方面,還提供了一種處理器,該處理器用于運行程序,其中,程序運行時執行檢測網站的方法。
根據本發明實施例的另一方面,還提供了一種檢測網站的系統,包括:處理器;以及存儲器,與處理器連接,用于為處理器提供處理以下處理步驟的指令:確定待檢測網站和基準網站的網頁結構的相似度;在相似度大于第一預設值的情況下,判斷待檢測網站中是否存在指定類型的關鍵詞;在確定待檢測網站中存在指定類型的關鍵詞的情況下,確定待檢測網站為指定類型的網站。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810164312.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息處理方法及裝置
- 下一篇:用于抓取數據的方法和裝置





