[發明專利]一種針對URL的分詞方法及裝置有效
| 申請號: | 201711237280.8 | 申請日: | 2017-11-30 |
| 公開(公告)號: | CN108228710B | 公開(公告)日: | 2021-09-28 |
| 發明(設計)人: | 亞靜;柳廳文;張盼盼;李全剛;時金橋;郭莉 | 申請(專利權)人: | 中國科學院信息工程研究所 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F40/284;G06F40/289 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 url 分詞 方法 裝置 | ||
本發明涉及一種針對URL的分詞方法及裝置。該方法包括:1)對URL地址按照其內在的層次結構進行分割,得到若干層次部分;2)對所述若干層次部分依次進行符號分割與正則表達式過濾;3)對步驟2)處理后得到字符串進行分割,得到URL分詞序列。其中步驟1)將URL地址分割為五個層次部分:協議類型、自由域名、二級域名、頂級域名和路徑;步驟3)利用雙向最大匹配算法和概率模型對字符串進行分割。本發明充分利用了URL本身的層次結構,能夠高效地對URL進行分割,并最大化地保留了URL地址中的有用信息,得到的URL分詞序列可用于網頁分類、釣魚URL檢測等任務中的特征分析,能夠有效提高任務準確率。
技術領域
本發明涉及網絡安全數據的分詞技術領域,尤其涉及一種針對URL的分詞方法及裝置,在保留URL特有層次結構的基礎上得到URL字符串的分詞序列,其結果可以用于網頁分類、釣魚URL檢測等任務中的特征分析。
背景技術
URL是統一資源定位符,是互聯網上標準的資源的地址,通過其可實現對信息資源的訪問與獲取。URL使用ASCII代碼的一部分來表示地址,語法是可擴展的,其標準結構如下:
協議類型:[//服務器地址[:端口號]][/路徑][?查詢][#片段]
大多數URL都包括三個主要部分:協議類型(scheme)、服務器地址(domain)和路徑(path)。協議類型部分表明該URL使用的傳送協議,網絡領域常見的協議是http和https。服務器地址部分通常使用域名或IP地址來指明資源在網絡上的位置。域名是IP地址的一種特殊化表示,通過DNS服務可實現其與IP地址之間的映射,通常采用有意義的字符串或者品牌名,便于人們記憶。其中,域名也是一種層次結構,以“.”來分割。路徑部分指定資源文件在服務器地址的具體位置,也是一種層次結構,以“/”為分割符分割整個路徑。
URL作為網絡地址標識,通常包含有與頁面資源或主題相關的關鍵詞或者某著名公司的品牌關鍵詞等,方便人們記憶與搜索。通過分析URL中有意義的詞語,可實現對相關網頁的簡單分類。此外,攻擊者也常常利用一些混淆詞語來偽造URL,欺騙用戶,進行釣魚攻擊。因此,對URL進行合理的分詞,是具有十分重大的意義的。
目前,分詞方法主要分為兩大類,一種是針對英文文本的分詞方法,基于英文自身的特性,文本中都是帶有空格的單詞組成,因此對其處理主要是簡單的基于單詞粒度的;一種是針對中文文本的分詞方法,不同于英文文本自身帶有空格間隔,中文文本都是無間隔的,其處理粒度是由字到詞語組合的。URL地址作為一種使用部分ASCII碼來表示的無空格間隔的特殊字符串,既具有英文文本的特征,又具有中文文本的特性,分詞時需要考慮多種因素,且目前沒有特別針對URL的分詞方法及裝置。
現有的分詞技術具有一定的單一性與局限性,不能準確的對URL地址進行處理。不同于傳統自然語言的中英文文本數據,URL地址作為一種特殊的有著層次結構的網絡數據,具有其獨特的語言特征:單條URL不是完整的句子,長度有限,且通常含有一些特殊字符串,如IP地址、日期、版本號等特殊含義的字段。如果對其分詞不當,便會丟失很多其內在信息。同時,目前沒有一種特別針對URL的分詞方法。
發明內容
本發明的目的在于提供一種針對URL的分詞方法及裝置,對URL地址進行分詞處理,并盡可能地保留其內在信息,其分詞結果可用于網頁分類、釣魚URL檢測等任務中的特征分析,幫助提高任務準確率。
本發明采用的技術方案如下:
一種針對URL的分詞方法,包括以下步驟:
1)對URL地址按照其內在的層次結構進行分割,得到若干層次部分;
2)對所述若干層次部分依次進行符號分割與正則表達式過濾;
3)對步驟2)處理后得到字符串進行分割,得到URL分詞序列。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院信息工程研究所,未經中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711237280.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據存儲方法和系統、電子設備、程序和介質
- 下一篇:一種鐵路線路查詢系統





