[發明專利]一種有害域名核驗方法及裝置在審
| 申請號: | 202110981798.2 | 申請日: | 2021-08-25 |
| 公開(公告)號: | CN113688905A | 公開(公告)日: | 2021-11-23 |
| 發明(設計)人: | 尚秋明;張立坤;王利軍 | 申請(專利權)人: | 中國互聯網絡信息中心 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/53;G06N3/04;H04L29/06;H04L29/12 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張影 |
| 地址: | 100190 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 有害 域名 核驗 方法 裝置 | ||
本發明公開了一種有害域名核驗方法及裝置,包括:確定疑似有害域名;獲取每一疑似有害域名對應的網頁圖像;將網頁圖像在目標圖像庫中進行圖像相似度檢索,得到網頁圖像的相似度分值;將相似度分值大于分值閾值的疑似有害域名確定為有害域名;將相似度分值不大于分值閾值的疑似有害域名進行聚類分析,獲得至少一個域名組;對域名組中的域名進行識別,以確定域名組中的各個域名是否為有害域名。本發明基于目標圖像庫的相似度檢索和未與目標圖像庫匹配上的疑似有害域名的聚類分析,實現了自動對域名的識別處理,降低了有害域名核驗的人工成本,提升了核驗效率。
技術領域
本發明涉及信息處理技術領域,特別是涉及一種有害域名核驗方法及裝置。
背景技術
隨著互聯網的快速發展,網絡賭博、淫穢色情等有害信息的傳播越來越泛濫,對網絡用戶的生活以及學習會產生十分有害的影響。域名作為網絡信息的主要訪問入口,通過相關技術手段對網絡有害信息進行檢測,進而對相關域名進行過濾封堵是有害信息治理的重要實現保障。伴隨著5G時代的到來,大帶寬的移動互聯網進一步加快了信息的傳播,網絡信息的規模也在快速增長,對有害域名的實時檢測和處理需求也在不斷提高。
現有有害域名的檢測識別,多是基于域名相關信息,包括注冊信息、DNS(DomainName System,域名系統)解析服務器、網站IP(Internet Protocol,國際互連協議)歸屬地等,結合有害域名黑白名單,利用機器學習預測模型,實現對域名有害程度進行判定。這種方式的前提是有害域名之間存在若干相關性。由于域名的注冊成本較低且可選注冊的頂級域名類型眾多,借助大量的域名托管服務商和云服務商,域名注冊者可通過打破有害域名之間的關聯關系,實現逃避此類檢測模式的目的。同時該方式的域名有害判定結果仍需大量的人工檢驗工作,以便開展相關處理工作。此外,還有根據網頁DOM(Document ObjectModel,文檔對象模型)相關結構進行相似性判定,同時存在判斷結果不準確,處理前需要人工一一核驗的工作投入問題。
可見,現有的有害域名檢測識別均需要進行大量的人工核驗,使得人工成本高,并且有害域名核驗效率低。
發明內容
針對于上述問題,本發明提供一種有害域名核驗方法及裝置,降低了有害域名核驗的人工成本,提升了核驗效率。
為了實現上述目的,本發明提供了如下技術方案:
一種有害域名核驗方法,包括:
確定疑似有害域名;
獲取每一所述疑似有害域名對應的網頁圖像;
將所述網頁圖像在目標圖像庫中進行圖像相似度檢索,得到所述網頁圖像的相似度分值,所述目標圖像庫中包括已確認的有害域名對應的網頁圖像;
將所述相似度分值大于分值閾值的疑似有害域名確定為有害域名;
將所述相似度分值不大于分值閾值的疑似有害域名進行聚類分析,獲得至少一個域名組,所述域名組中包括至少一個疑似有害域名,且所述域名組中的各個疑似有害域名對應的網頁圖像具有相似特征;
對所述域名組中的疑似有害域名進行識別,以確定所述域名組中的各個疑似有害域名是否為有害域名。
可選地,所述確定疑似有害域名,包括:
獲取初始域名列表,所述初始域名列表包括通用頂級域域名列表和國家域名列表;
對所述初始域名列表中的域名進行初始篩查,獲得疑似有害域名。
可選地,所述方法還包括:
創建目標圖像庫,包括:
獲取已確認的有害域名;
利用模擬瀏覽器獲得所述已確認的有害域名對應的網頁圖像;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國互聯網絡信息中心,未經中國互聯網絡信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110981798.2/2.html,轉載請聲明來源鉆瓜專利網。





