[發明專利]網頁URL過濾方法、裝置及系統在審
| 申請號: | 201310547585.4 | 申請日: | 2013-11-06 |
| 公開(公告)號: | CN104636340A | 公開(公告)日: | 2015-05-20 |
| 發明(設計)人: | 蔡兵 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L29/06 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 url 過濾 方法 裝置 系統 | ||
技術領域
本發明涉及互聯網技術領域,尤其涉及一種網頁URL過濾方法、裝置及系統。
背景技術
目前,互聯網的網頁數量呈爆炸式增長,有些網站管理員為了便于統計網頁的來源和渠道,通常會在網頁的原始URL的基礎上增加一些擴展字段,比如“http://blog.sina.com.cn/s/blog_4ac981db0102f1ta.html?tj=1”里的”?tj=1”是網站管理員定義的一種網頁跳轉來源,又比如“http://km.oa.com/group/469/surveys/show/5772?jumpfrom=systemmail”里的”?jumpfrom=systemmail”表示此網頁是用戶從某系統郵件里點擊后跳轉而來。
在上述兩個例子中,網頁URL末尾片斷刪除后,原網頁內容不會有任何變化。而目前各種URL夾帶特定目的參數的現象越來越多,導致同一網頁具有多個URL,這樣對于識別同一網頁、統計同一網頁的訪問數量、存儲網頁內容均帶來不便。因此通過識別并過濾網頁URL多余參數,將同一網頁對應的各種URL簡化至其最原始的方式很有必要。
目前,主要是通過人工處理的方式來識別并篩選同一網頁對應的各種URL。對于上面兩個例子,經過人工判斷出末尾的無效字段后,可以通過編寫轉換規則,將各種帶多余參數的URL轉換為其原始URL。
現有的這種人工處理方式雖然靈活快捷,但是,由于不同網站的參數格式可能完全不同,而且可能會經常擴展新的參數格式,因此人工維護代價過高,且能覆蓋的網站數量相對較小。
發明內容
本發明實施例提供一種網頁URL過濾方法、裝置及系統,旨在提高網頁數據統計的效率,方便資源存儲。
本發明實施例提出一種網頁URL過濾方法,包括:
獲取預先收集的同一網頁的URL數據集;
當所述URL數據集中包含多個URL時,對所述URL數據集中的每一URL進行字段拆分及分析;
根據字段拆分及分析結果,去掉其中的無關字段,生成所述網頁的唯一URL。
本發明實施例還提出一種過濾網頁URL的裝置,包括:
URL數據獲取模塊,用于獲取預先收集的同一網頁的URL數據集;
字段拆分及分析模塊,用于當所述URL數據集中包含多個URL時,對所述URL數據集中的每一URL進行字段拆分及分析;
生成模塊,用于根據字段拆分及分析結果,去掉其中的無關字段,生成所述網頁的唯一URL。
本發明實施例還提出一種過濾網頁URL的系統,包括瀏覽器和與所述瀏覽器通信連接的數據監控平臺,其中:
所述瀏覽器包括如上所述的裝置;
所述數據監控平臺,用于當所述瀏覽器判定生成的唯一URL無效時上報的字段過濾出錯信息。
本發明實施例提出的一種網頁URL過濾方法、裝置及系統,通過識別同一網頁的各種不同URL格式,過濾URL中與網頁內容無關的字段,將同一網頁的各種URL轉換為唯一URL,能夠有效減少網頁數據的存儲量,提高網頁訪問量的統計效率和準確度,其相比傳統方案,不需要人工干預,且覆蓋網站廣泛,計算結果準確。
附圖說明
圖1是本發明網頁URL過濾方法第一實施例的流程示意圖;
圖2是本發明網頁URL過濾方法第二實施例的流程示意圖;
圖3是本發明網頁URL過濾方法第三實施例的流程示意圖;
圖4是本發明過濾網頁URL的裝置第一實施例的功能模塊示意圖;
圖5是本發明實施例中字段拆分及分析模塊的結構示意圖;
圖6是本發明過濾網頁URL的裝置第二實施例的功能模塊示意圖;
圖7是本發明實施例中校驗模塊的結構示意圖;
圖8是本發明過濾網頁URL的裝置第三實施例的功能模塊示意圖;
圖9是本發明過濾網頁URL的系統較佳實施例的結構示意圖。
為了使本發明的技術方案更加清楚、明了,下面將結合附圖作進一步詳述。
具體實施方式
應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。
如圖1所示,本發明第一實施例提出一種網頁URL過濾方法,包括:
步驟S101,獲取預先收集的同一網頁的URL數據集;
本實施例可以自動化實現識別并過濾網頁URL多余參數,將同一網頁對應的各種URL簡化至其最原始的方式,以提高網頁訪問量的統計效率和準確度,并減少網頁數據的存儲量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310547585.4/2.html,轉載請聲明來源鉆瓜專利網。





