[發(fā)明專利]一種對(duì)URL進(jìn)行分類的方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201410093939.7 | 申請(qǐng)日: | 2014-03-13 |
| 公開(公告)號(hào): | CN103927325B | 公開(公告)日: | 2017-06-27 |
| 發(fā)明(設(shè)計(jì))人: | 賈卷群 | 申請(qǐng)(專利權(quán))人: | 中國(guó)聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京安信方達(dá)知識(shí)產(chǎn)權(quán)代理有限公司11262 | 代理人: | 栗若木,白瑩 |
| 地址: | 100033 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 url 進(jìn)行 分類 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),尤指一種對(duì)統(tǒng)一資源定位符(URL,Uniform Resource Locator)進(jìn)行分類的方法及裝置。
背景技術(shù)
目前,在對(duì)上網(wǎng)記錄數(shù)據(jù)中用戶訪問(wèn)的某個(gè)URL進(jìn)行分類時(shí),需要將該待分類URL的整個(gè)URL與分類庫(kù)中的各目標(biāo)URL逐一進(jìn)行匹配,如果能夠匹配上,則返回匹配上的分類庫(kù)中的目標(biāo)URL對(duì)應(yīng)的分類信息。以分類庫(kù)中有100個(gè)目標(biāo)URL為例,一次分類過(guò)程的平均匹配次數(shù)會(huì)在50次以上,而最大匹配系數(shù)則會(huì)是100次。
在現(xiàn)有對(duì)URL進(jìn)行分類的方法中,對(duì)URL的匹配是:將組成待分類URL的整個(gè)字符串與分類庫(kù)中的各目標(biāo)URL逐一進(jìn)行比較,效率不高;而且,當(dāng)分類庫(kù)中的目標(biāo)URL數(shù)量增加時(shí),匹配時(shí)間將大幅增加。
由于互聯(lián)網(wǎng)產(chǎn)業(yè)的迅速發(fā)展,用戶上網(wǎng)記錄數(shù)據(jù)的數(shù)量也呈現(xiàn)爆發(fā)式的增長(zhǎng),這樣,要實(shí)現(xiàn)對(duì)萬(wàn)億級(jí)的上網(wǎng)記錄數(shù)據(jù)中用戶訪問(wèn)的URL的快速分類,成為了一個(gè)難題。
發(fā)明內(nèi)容
為了解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種對(duì)URL進(jìn)行分類的方法及裝置,能夠提高效率并實(shí)現(xiàn)快速分類。
為了達(dá)到本發(fā)明目的,本發(fā)明提供了一種對(duì)URL進(jìn)行分類的方法,包括:根據(jù)URL分類庫(kù)中的目標(biāo)URL與分類信息的對(duì)應(yīng)關(guān)系,對(duì)每一個(gè)目標(biāo)URL按照字符進(jìn)行處理,構(gòu)建URL分類庫(kù)的分類樹;
當(dāng)有URL需要分類時(shí),待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配,確定待分類URL的分類信息。
該方法之前還包括:
建立所述URL分類庫(kù),URL分類庫(kù)中的內(nèi)容包括:一個(gè)或一個(gè)以上目標(biāo)URL,各目標(biāo)URL對(duì)應(yīng)的分類信息。
所述對(duì)每一個(gè)目標(biāo)URL按照字符進(jìn)行處理,構(gòu)建URL分類庫(kù)的分類樹包括:
依次取出所述目標(biāo)URL中的字符,以取出的字符的ASCII碼作為分類樹中的節(jié)點(diǎn)數(shù)組node[]的下標(biāo);
訪問(wèn)所述node[ASCII]的節(jié)點(diǎn),直至目標(biāo)URL的最后一個(gè)字符,則將所述對(duì)應(yīng)的分類信息存儲(chǔ)到節(jié)點(diǎn)數(shù)組node[ASCII]的目標(biāo)obj域。
所述確定待分類URL的分類信息包括:
依次取出所述待分類URL中一個(gè)字符,以該字符的ASCII碼作為所述分類樹中的節(jié)點(diǎn)數(shù)組node[]的下標(biāo),訪問(wèn)所述分類樹的節(jié)點(diǎn)數(shù)組node[ASCII]的節(jié)點(diǎn),如果其對(duì)應(yīng)的目標(biāo)obj域已存有分類信息,則確定所述目標(biāo)obj域中的分類信息為待分類URL的分類信息。
如果所述目標(biāo)obj域?yàn)榭眨乙呀?jīng)訪問(wèn)到所述待分類URL的最后一個(gè)字符,該方法還包括:確定所述分類信息為空。
本發(fā)明還公開了一種對(duì)URL進(jìn)行分類的方法,至少包括構(gòu)建模塊、分類模塊,其中,
構(gòu)建模塊,用于根據(jù)URL分類庫(kù)中的目標(biāo)URL與分類信息的對(duì)應(yīng)關(guān)系,對(duì)每一個(gè)目標(biāo)URL按照字符進(jìn)行處理,構(gòu)建URL分類庫(kù)的分類樹;
分類模塊,用于當(dāng)有URL需要分類時(shí),待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配,確定待分類URL的分類信息。
與現(xiàn)有技術(shù)相比,本發(fā)明包括根據(jù)URL分類庫(kù)中的目標(biāo)URL與分類信息的對(duì)應(yīng)關(guān)系,對(duì)每一個(gè)目標(biāo)URL按照字符進(jìn)行處理,構(gòu)建URL分類庫(kù)的分類樹;當(dāng)有URL需要分類時(shí),待分類URL在分類樹中按照自身的組成字符進(jìn)行逐一字符匹配,確定待分類URL的分類信息。本發(fā)明方法中,在建立分類樹時(shí),以目標(biāo)URL字符的ASCII碼的數(shù)值作為Tree中的節(jié)點(diǎn)數(shù)組node[]數(shù)組的下標(biāo)來(lái)構(gòu)建URL樹,即采用樹型結(jié)構(gòu)存儲(chǔ)目標(biāo)URL分類庫(kù)。這樣,在進(jìn)行URL分類時(shí),只需要對(duì)待分類URL做一次逐一字符的訪問(wèn),即可完成分類過(guò)程,提高了分類效率并實(shí)現(xiàn)了快速分類,進(jìn)而實(shí)現(xiàn)了對(duì)萬(wàn)億級(jí)的上網(wǎng)記錄數(shù)據(jù)中用戶訪問(wèn)的URL的快速分類。
本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書中闡述,并且,部分地從說(shuō)明書中變得顯而易見(jiàn),或者通過(guò)實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過(guò)在說(shuō)明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。
附圖說(shuō)明
附圖用來(lái)提供對(duì)本發(fā)明技術(shù)方案的進(jìn)一步理解,并且構(gòu)成說(shuō)明書的一部分,與本申請(qǐng)的實(shí)施例一起用于解釋本發(fā)明的技術(shù)方案,并不構(gòu)成對(duì)本發(fā)明技術(shù)方案的限制。
圖1為本發(fā)明對(duì)URL進(jìn)行分類的方法的流程圖;
圖2為本發(fā)明構(gòu)建URL分類庫(kù)的分類樹的示意圖;
圖3為本發(fā)明對(duì)URL進(jìn)行分類的裝置的組成結(jié)構(gòu)示意圖。
具體實(shí)施方式
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司,未經(jīng)中國(guó)聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410093939.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種動(dòng)態(tài)檢測(cè)URL重定向死循環(huán)的方法及裝置
- 一種瀏覽器側(cè)提示訪問(wèn)安全信息的方法及裝置
- 一種短URL服務(wù)的實(shí)現(xiàn)方法及裝置
- 一種用于發(fā)送和驗(yàn)證URL簽名以進(jìn)行自適應(yīng)流中URL認(rèn)證和基于URL的內(nèi)容訪問(wèn)授權(quán)的系統(tǒng)和方法
- 提供短統(tǒng)一資源定位符服務(wù)的方法和裝置及通信系統(tǒng)
- 一種URL檢測(cè)方法及檢測(cè)裝置
- 一種統(tǒng)一資源定位符的去重方法、裝置及電子設(shè)備
- 惡意URL檢測(cè)方法及系統(tǒng)
- 一種自身校驗(yàn)發(fā)布和訪問(wèn)URL的方法、裝置、系統(tǒng)和介質(zhì)
- 一種統(tǒng)一資源定位符URL的處理方法及裝置
- 請(qǐng)求沒(méi)有進(jìn)行IMS注冊(cè)的用戶進(jìn)行注冊(cè)的方法
- 對(duì)要進(jìn)行紋理操作的像素進(jìn)行分組
- 對(duì)餐盤進(jìn)行溫度調(diào)節(jié)和進(jìn)行分配的獨(dú)立小車
- 對(duì)圖像進(jìn)行編碼
- 對(duì)任務(wù)進(jìn)行調(diào)度
- 對(duì)任務(wù)進(jìn)行調(diào)度
- 蛋糕(甜蜜進(jìn)行時(shí))
- 對(duì)定位輔助數(shù)據(jù)進(jìn)行分級(jí)和分組以進(jìn)行廣播
- 對(duì)物體進(jìn)行分離和定向以進(jìn)行供料
- 對(duì)工件進(jìn)行評(píng)價(jià)以進(jìn)行加工的方法
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





