[發(fā)明專利]URL處理方法及裝置有效
| 申請?zhí)枺?/td> | 201610996918.5 | 申請日: | 2016-11-08 | 
| 公開(公告)號: | CN108073607B | 公開(公告)日: | 2020-03-06 | 
| 發(fā)明(設(shè)計)人: | 包佳杰;施維 | 申請(專利權(quán))人: | 北京國雙科技有限公司 | 
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F16/958;G06F8/20 | 
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 劉曉菲;王寶筠 | 
| 地址: | 100080 北京市海淀區(qū)*** | 國省代碼: | 北京;11 | 
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關(guān)鍵詞: | url 處理 方法 裝置 | ||
本發(fā)明公開了一種URL處理方法和裝置,提高了對用戶訪問網(wǎng)站數(shù)據(jù)的收集成功率。所述方法包括:獲取被訪問頁面的來源頁面的URL;若所述來源頁面的URL的字符的個數(shù)大于第一閾值,則按照預(yù)設(shè)規(guī)則從所述來源頁面的URL中提取部分字符串,得到來源頁面的處理后URL;若所述來源頁面的處理后URL的字符個數(shù)小于或等于所述第一閾值,則利用所述來源頁面的處理后URL生成請求URL,所述請求URL的字符個數(shù)滿足瀏覽器對所述請求URL的最大長度限制條件。
技術(shù)領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)分析領(lǐng)域,尤其涉及一種URL處理方法及裝置。
背景技術(shù)
在大數(shù)據(jù)分析領(lǐng)域,為了收集頁面訪問者的訪問行為數(shù)據(jù),主流的頁面分析工具通常會利用安裝在用戶客戶端的JavaScript Tracker(JavaScript跟蹤器)來記錄用戶訪問瀏覽器當(dāng)前被訪問頁面的來源頁面的URL(全名Uniform Resource Locator,統(tǒng)一資源定位符),然后將所述來源頁面的URL填充到瀏覽器的Get請求的請求URL(Request URL)中,并將所述Get請求發(fā)送到數(shù)據(jù)采集服務(wù)器,以對用戶對頁面的訪問路徑進行分析。其中,URL是對可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯(lián)網(wǎng)上標準資源的地址。
然而,目前的瀏覽器對Get請求中的請求URL長度有一定的限制,例如,IE(Internet Explorer)瀏覽器對請求URL長度的最大限制為2083個字符,Google Chrome(Google瀏覽器)對請求URL長度的最大限制為8182個字符,一旦超出該最大長度限制,則瀏覽器直接對該超出最大長度限制的請求URL進行丟棄,導(dǎo)致無法獲取到用戶的頁面訪問數(shù)據(jù)。
發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的URL處理方法及裝置,提高了對用戶訪問網(wǎng)站數(shù)據(jù)的收集成功率。
本發(fā)明提供了一種URL處理方法,所述方法包括:
獲取被訪問頁面的來源頁面的URL;
若所述來源頁面的URL的字符的個數(shù)大于第一閾值,則按照預(yù)設(shè)規(guī)則從所述來源頁面的URL中提取部分字符串,得到來源頁面的處理后URL;
若所述來源頁面的處理后URL的字符個數(shù)小于或等于所述第一閾值,則利用所述來源頁面的處理后URL生成請求URL,所述請求URL的字符個數(shù)滿足瀏覽器對所述請求URL的最大長度限制條件。
優(yōu)選的,所述來源頁面的URL中包括鍵值對,所述鍵值對包括鍵和值;
所述按照預(yù)設(shè)規(guī)則從所述來源頁面的URL中提取部分字符串,得到來源頁面的處理后URL包括:
從所述鍵值對的值中提取預(yù)設(shè)個數(shù)的字符,得到來源頁面的處理后URL,所述預(yù)設(shè)個數(shù)小于所述鍵值對的值的最大字符總個數(shù);和/或,
若所述來源頁面的URL中包括的鍵值對為多個,則提取部分鍵值對,得到來源頁面的處理后URL。
優(yōu)選的,所述鍵值對包括第一鍵值對和第二鍵值對;
所述從所述鍵值對的值中提取預(yù)設(shè)個數(shù)的字符,得到來源頁面的處理后URL包括:
從所述第一鍵值對的值中提取第一預(yù)設(shè)個數(shù)的字符,得到所述來源頁面的第一處理后URL;
若所述來源頁面的第一處理后URL的字符的個數(shù)大于所述第一閾值,則從所述第二鍵值對的值中提取第二預(yù)設(shè)個數(shù)的字符,得到所述來源頁面的第二處理后URL,所述來源頁面的第二處理后URL的字符的個數(shù)小于或等于所述第一閾值。
優(yōu)選的,所述第一鍵值對的值的字符的個數(shù)和所述第二鍵值對的值的個數(shù)均大于或等于第二閾值。
優(yōu)選的,所述若所述來源頁面的URL中包括的鍵值對為多個,則提取部分鍵值對包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京國雙科技有限公司,未經(jīng)北京國雙科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610996918.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種動態(tài)檢測URL重定向死循環(huán)的方法及裝置
- 一種瀏覽器側(cè)提示訪問安全信息的方法及裝置
- 一種短URL服務(wù)的實現(xiàn)方法及裝置
- 一種用于發(fā)送和驗證URL簽名以進行自適應(yīng)流中URL認證和基于URL的內(nèi)容訪問授權(quán)的系統(tǒng)和方法
- 提供短統(tǒng)一資源定位符服務(wù)的方法和裝置及通信系統(tǒng)
- 一種URL檢測方法及檢測裝置
- 一種統(tǒng)一資源定位符的去重方法、裝置及電子設(shè)備
- 惡意URL檢測方法及系統(tǒng)
- 一種自身校驗發(fā)布和訪問URL的方法、裝置、系統(tǒng)和介質(zhì)
- 一種統(tǒng)一資源定位符URL的處理方法及裝置





