[發明專利]一種基于URL特征的網站首頁識別方法及電子裝置在審
| 申請號: | 202010981078.1 | 申請日: | 2020-09-17 |
| 公開(公告)號: | CN114201698A | 公開(公告)日: | 2022-03-18 |
| 發明(設計)人: | 徐小琳;袁慶升;王佩;朱宇佳;李釗;尹姜誼;李舒;張成偉 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心;中國科學院信息工程研究所 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 余功勛 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 url 特征 網站 首頁 識別 方法 電子 裝置 | ||
本發明提供一種基于URL特征的網站首頁識別方法及電子裝置,包括剔除待識別URL首部的http://字符或者https://字符,獲取包含http://字符或https://字符的臨時變量t1;按照“/”字符對臨時變量t1進行拆分,并進行有效性判斷;若不能拆分或僅能拆成兩部分且第二部分為空,則判斷臨時變量t1是否包含是二級、三級或四級域名;若僅能拆成兩部分、第二部分不為空且第二部分長度小于第一閾值,則判斷第二部分是否包含特定字符;若臨時變量t1包含是二級、三級或四級域名或第二部分包含特定字符,則判斷待識別URL為首頁URL。本發明無需訓練分類器、人工標注大量數據集及對URL頁面內容進行分析,解決了通過語義無法識別嵌套URL的情況,降低了誤報率,節省人力與網絡資源,提升了識別速度。
技術領域
本發明涉及網絡通信技術領域,具體而言,涉及一種基于URL特征的網站首頁識別方法及電子裝置。
背景技術
隨著WEB技術、云計算等技術的不斷發展,WEB首頁的呈現方式也在不斷的變化。許多研究人員出于識別速變服務、識別惡意網站、發現同源IP、進行網頁信息采集、研究網頁布局等目的,基于網站首頁的特定標簽和內容進行研究。例如,專利CN103812673A通過計算網站首頁的相似度,以及內容抽樣統計,篩選鏡像網站和準鏡像網站,避免采集雷同內容,節約網絡資源和本地資源,提高服務的質量和效率。
鑒于網站首頁的URL沒有固定的命名方式,并且人工識別耗時耗力,這給基于網站首頁的研究工作造成了瓶頸。因此,急需自動識別網站首頁的方法,大幅提升識別速度。
現有的網站識別工作主要分為兩類,一類是基于URL字符串拆分并使用機器學習的方法進行訓練,例如專利CN110855635A提出一種基于URL識別惡意網站的方法,即通過分類模型識別從URL中拆分出來的字符組合;如專利CN101692639A通過URL主域名的語義,以及整個URL的結構,判斷是否為色情站點。第二類是訪問URL,根據網頁內容進行分析研究,例如專利CN102332028A通過提取網站的頁面視覺結構、TML標簽信息、鏈接信息以及正文信息等判斷是否為不良網站;如專利CN111428180A,對網頁進行二進制詞向量進行提取,基于語義局部敏感散列表示進行網頁內容,識別相似網頁。
上述的基于URL識別的方法,在首頁識別中存在如下問題:
1、標注數據集費時費力,為了提高分類模型的準確率,需要手動標注大量的URL。標注過程中,若無公開數據集,則需要手動訪問每一個URL進行核對,十分耗時。
2、許多首頁的URL出于標記訪問來源等原因,是以嵌套URL的方式展現的,單純靠語義分析難以應對這種情況,可能造成嚴重的誤判情況。
3、提取頁面內容消耗巨大資源,訪問URL提取網頁中的圖片、鏈接、文字、頁面結構等方法進行分析,非常耗時,并且會消耗大量的網絡資源,這種方法根本無法應對海量的數據。
綜上所述,需要設計一種解決以上問題的網站首頁識別方法,以滿足識別同源IP、進行信息采集、頁面布局研究等需求。
發明內容
為解決上述問題,本發明提供一種基于URL特征的網站首頁識別方法及電子裝置,對剝離嵌套的URL進行識別,使用正則表達式匹配的URL域名以及匹配某些具有標志性的關鍵字,并通過設定“/”字符后的長度閾值,解決多層嵌套影響網頁首頁識別的問題,提升了網站首頁識別的速度和準確率。
本發明采用的技術方案如下:
一種基于URL特征的網站首頁識別方法,其步驟包括:
1)剔除待識別URL首部的http://字符或者https://字符,獲取包含http://字符或https://字符的臨時變量t1;
2)按照“/”字符對臨時變量t1進行拆分,并進行有效性判斷;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心;中國科學院信息工程研究所,未經國家計算機網絡與信息安全管理中心;中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010981078.1/2.html,轉載請聲明來源鉆瓜專利網。





