[發明專利]一種提取網站URL的方法有效
| 申請號: | 201710389460.1 | 申請日: | 2017-05-27 |
| 公開(公告)號: | CN107169121B | 公開(公告)日: | 2020-08-11 |
| 發明(設計)人: | 蔡自彬 | 申請(專利權)人: | 北京知道未來信息技術有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100102 北京市朝陽區阜*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提取 網站 url 方法 | ||
本發明公開了一種提取網站URL的方法。本方法為:1)從網站訪問日志中提取出URL路徑;2)對提取的URL路徑去重,然后統計每一URL路徑的字段個數;3)按字段個數將URL路徑分成多組;4)針對每一組URL路徑,合并組內所有URL路徑的字段列表,去重后統一編號;然后根據統一編號結果將組內每一URL路徑轉換成一向量,形成該組URL路徑的矩陣;然后對該矩陣進行聚類,如果聚類結果中的URL路徑個數超過設定閾值,則對該聚類結果進行聚合處理,識別出該聚類結果中的可變字段并將其替換為同一值;5)將各組URL路徑合并形成該網站的URL路徑列表。本發明可自動化的從網站海量訪問日志中還原網站的所有URL。
技術領域
本發明涉及一種提取網站URL的方法,屬于網絡技術領域。
背景技術
某些場景下,對網站海量訪問日志進行分析時,需要從中提取出網站URL列表,然后根據網站URL列表采樣訪問日志進行分析。
網站URL中部分字段可能是可變的,例如:/abc/def/123/index.html,/abc/def/456/index.html,/abc/def/789/index.html等,其中第三個字段是用戶ID。此種情況,其實只有一個URL,即:/abc/def/*/index.html,“*”代表可變。
發明內容
針對現有技術中存在的技術問題,本發明的目的在于提供一種提取網站URL的方法。
本發明的技術方案為:
一種提取網站URL的方法,其步驟為:
1)從網站訪問日志中提取出URL路徑;
2)對提取的URL路徑進行去重,然后統計每一URL路徑的字段個數;
3)按字段個數將URL路徑分成多組,同一組內的所有URL路徑的字段個數相同;
4)針對每一組URL路徑,合并組內所有URL路徑的字段列表,去重后統一編號;然后根據統一編號結果將組內每一URL路徑轉換成一向量,形成該組URL路徑的矩陣;然后對該矩陣進行聚類,如果某一聚類結果中的URL路徑個數超過設定閾值,則對該聚類結果進行聚合處理,識別出該聚類結果中的可變字段并將其替換為同一值;所述可變字段為同一聚類結果的各URL路徑中,字段位置相同但字段值是可變的字段;
5)將步驟4)處理后的各組URL路徑合并形成該網站的URL路徑列表。
進一步的,根據統一編號結果將組內每一URL路徑轉換成一向量的方法為:設合并組內所有URL路徑的字段列表中的字段個數為n,然后確定該字段列表中每一字段在向量中的位置并設置一對應編號;對于每一URL路徑,將該URL路徑中每一字段設置一位置編號;然后對于組內的每一URL路徑,從向量的第一個位置開始,遍歷該URL路徑,如果該URL路徑存在與對應位置的字段,則向量的該位置取值為對應編號,否則該位置設置為0,生成該URL路徑的向量。
進一步的,將該URL路徑中每一字段設置一位置編號的方法為:將該URL路徑中第i個字段的位置編號設置為i。
進一步的,所述步驟2)中,將每一URL路徑按照“/”分割,得到字段列表,然后統計得到該URL路徑的字段個數。
進一步的,使用層次化的聚類算法對矩陣進行聚類。
本發明采用基于層次化的聚類(Hierarchical Clustering;http://bluewhale.cc/2016-04-19/hierarchical-clustering.html或http://blog.pluskid.org/?p=407)。從網站海量日志中提取網站URL path列表,提取步驟如下:
1.從網站訪問日志每一行中提取出一URL path,然后整體去重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京知道未來信息技術有限公司,未經北京知道未來信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710389460.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:聯網治超綜合管理系統
- 下一篇:一種服飾導購系統及方法





