[發(fā)明專利]統(tǒng)一資源定位符重寫規(guī)則的生成方法及裝置有效
| 申請?zhí)枺?/td> | 201710892706.7 | 申請日: | 2017-09-27 |
| 公開(公告)號: | CN109561163B | 公開(公告)日: | 2022-03-15 |
| 發(fā)明(設(shè)計)人: | 張旭俊 | 申請(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號: | H04L9/40 | 分類號: | H04L9/40;H04L61/10;H04L61/4511;H04L101/604 |
| 代理公司: | 北京三友知識產(chǎn)權(quán)代理有限公司 11127 | 代理人: | 李輝 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 統(tǒng)一 資源 定位 重寫 規(guī)則 生成 方法 裝置 | ||
1.一種統(tǒng)一資源定位符URL重寫規(guī)則的生成方法,其特征在于,該方法包括:
獲取目標(biāo)網(wǎng)站的目標(biāo)URL集;所述目標(biāo)網(wǎng)站為:待生成統(tǒng)一資源定位符URL重寫規(guī)則的網(wǎng)站;
獲取所述目標(biāo)URL集中相互對應(yīng)的前綴參數(shù)和資源參數(shù)的參數(shù)集,其中,所述資源參數(shù)為所述前綴參數(shù)的子路徑;
依據(jù)所述參數(shù)集生成所述目標(biāo)網(wǎng)站的URL重寫規(guī)則集;其中,包括:依據(jù)所述參數(shù)集中各前綴參數(shù)下對應(yīng)的不同資源參數(shù)的數(shù)量確定所述目標(biāo)網(wǎng)站的URL重寫規(guī)則集。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取目標(biāo)網(wǎng)站的目標(biāo)URL集,包括:
對目標(biāo)網(wǎng)站的訪問日志中的初始URL集進(jìn)行預(yù)處理,得到目標(biāo)URL集。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對目標(biāo)網(wǎng)站的訪問日志中的初始URL集進(jìn)行預(yù)處理,得到目標(biāo)URL集,包括:
依據(jù)超文本傳輸協(xié)議HTTP狀態(tài)碼,從目標(biāo)網(wǎng)站的訪問日志中的初始URL集中過濾非法URL請求對應(yīng)的非法URL;
針對過濾了非法URL后的初始URL集進(jìn)行規(guī)范化處理,得到規(guī)范URL集,所述規(guī)范URL集中的規(guī)范URL包括:域名、路徑和文件名;
對所述規(guī)范URL集進(jìn)行去重處理,得到目標(biāo)URL集。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取所述目標(biāo)URL集中的前綴參數(shù)和資源參數(shù)的參數(shù)集,包括:
基于預(yù)設(shè)分隔符對所述目標(biāo)URL集中的各目標(biāo)URL進(jìn)行分割,分別得到各目標(biāo)URL對應(yīng)的字符數(shù)組;
依據(jù)所述字符數(shù)組中各字符串組成所述目標(biāo)URL的順序,分別確定所述各目標(biāo)URL中對應(yīng)的前綴參數(shù)和資源參數(shù),以得到參數(shù)集。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述依據(jù)所述字符數(shù)組中各字符串組成所述目標(biāo)URL的順序,分別確定各目標(biāo)URL中對應(yīng)的前綴參數(shù)和資源參數(shù),包括:
獲取任意一個字符數(shù)組作為當(dāng)前數(shù)組,執(zhí)行數(shù)組循環(huán)流程,所述數(shù)組循環(huán)流程包括:
按照從前到后的順序,獲取所述當(dāng)前數(shù)組中的第一個字符串作為當(dāng)前前綴參數(shù);
將所述當(dāng)前前綴參數(shù)與其后相鄰的資源參數(shù)對應(yīng)保存至初始參數(shù)集中;
判斷所述當(dāng)前前綴參數(shù)是否在初始URL重寫規(guī)則集中,如果是,則將所述當(dāng)前前綴參數(shù)與預(yù)設(shè)重寫參數(shù)組合為更新前綴參數(shù);如果否,則將所述當(dāng)前前綴參數(shù)與其后相鄰的資源參數(shù)組合為更新前綴參數(shù);
以所述更新前綴參數(shù)為當(dāng)前前綴參數(shù),執(zhí)行所述將所述當(dāng)前前綴參數(shù)與其后相鄰的資源參數(shù)對應(yīng)保存至初始參數(shù)集中的步驟,直至當(dāng)前目標(biāo)數(shù)組的所有字符串都循環(huán)完畢;
判斷所有字符數(shù)組是否都循環(huán)完畢,如果否,則將任意一個未循環(huán)的字符數(shù)組作為當(dāng)前數(shù)組,觸發(fā)執(zhí)行所述數(shù)組循環(huán)流程;
如果是,則將所述初始參數(shù)集作為目標(biāo)URL集對應(yīng)的目標(biāo)參數(shù)集。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,依據(jù)路徑參數(shù)和非路徑參數(shù)生成所述目標(biāo)網(wǎng)站的URL重寫規(guī)則集,包括:
針對各前綴參數(shù),分別判斷所述前綴參數(shù)下資源參數(shù)的數(shù)量是否大于預(yù)設(shè)閾值,如果是,則將所述前綴參數(shù)更新至所述初始URL重寫規(guī)則集中,得到更新后的URL重寫規(guī)則集,直至所述初始URL重新規(guī)則集不再更新;
將更新后的URL重寫規(guī)則集確定為目標(biāo)URL重寫規(guī)則集。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
依據(jù)所述目標(biāo)網(wǎng)站的URL重寫規(guī)則集,將待映射URL映射至重寫后的URL。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述依據(jù)所述目標(biāo)網(wǎng)站的URL重寫規(guī)則集,將待映射URL映射至重寫后的URL,包括:
對所述待映射URL進(jìn)行規(guī)范化,得到規(guī)范化后的URL;
基于預(yù)設(shè)分隔符對所述規(guī)范化后的URL進(jìn)行分割,分別得到分割后的字符數(shù)組;
依據(jù)分割后的字符數(shù)組中各前綴參數(shù)在所述URL重寫規(guī)則集中的匹配結(jié)果,將待映射URL映射至重寫后的URL。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710892706.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





