[發(fā)明專利]一種字符串分類方法、系統(tǒng)及一種字符串分類設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 201711046466.5 | 申請(qǐng)日: | 2017-10-31 |
| 公開(kāi)(公告)號(hào): | CN107807987B | 公開(kāi)(公告)日: | 2021-07-02 |
| 發(fā)明(設(shè)計(jì))人: | 劉文印;楊振國(guó);袁華平;陳旭;黎宇坤 | 申請(qǐng)(專利權(quán))人: | 廣東工業(yè)大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/955;G06F17/18;G06N20/00 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 510006 廣東省*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 字符串 分類 方法 系統(tǒng) 設(shè)備 | ||
1.一種字符串分類方法,其特征在于,包括:
獲取待分類字符串;
將所述待分類字符串輸入特征提取器中,得到所述待分類字符串對(duì)應(yīng)的特征向量;
將所述特征向量輸入分類器中,得到所述待分類字符串的分類結(jié)果;
其中,將所述待分類字符串輸入特征提取器中,得到所述待分類字符串對(duì)應(yīng)的特征向量,包括:
將所述待分類字符串輸入所述特征提取器中;
所述特征提取器將所述待分類字符串按照預(yù)先設(shè)定的劃分方式劃分為N個(gè)字符串子段,并從所述N個(gè)字符串子段中選擇M個(gè)字符串子段;其中,N為正整數(shù),M為不大于N的正整數(shù);
所述特征提取器將所述M個(gè)字符串子段輸入訓(xùn)練完成的C2V模型中,生成所述M個(gè)字符串子段中每一個(gè)字符串子段對(duì)應(yīng)的特征矩陣,所述特征矩陣的每一行對(duì)應(yīng)所述每一個(gè)字符串子段中的一個(gè)字符的n維特征向量,每一列對(duì)應(yīng)所述n維特征向量的每一個(gè)維度,其中,n為正整數(shù);
所述特征提取器利用統(tǒng)計(jì)學(xué)方法計(jì)算所述特征矩陣每一列的統(tǒng)計(jì)特征值,得到所述每一個(gè)字符串子段對(duì)應(yīng)的統(tǒng)計(jì)特征向量,并根據(jù)所有的所述統(tǒng)計(jì)特征向量生成所述待分類字符串對(duì)應(yīng)的特征向量;
其中,將所述M個(gè)字符串子段輸入訓(xùn)練完成的C2V模型中之前,還包括:
將訓(xùn)練集中的所有字符串切割為字符,并將所有切割完成的字符加入字符語(yǔ)料庫(kù)中;
利用Word2vec和所述字符語(yǔ)料庫(kù)中的所有字符訓(xùn)練Character Embedding模型得到訓(xùn)練完成的C2V模型。
2.根據(jù)權(quán)利要求1所述字符串分類方法,其特征在于,所述統(tǒng)計(jì)學(xué)方法至少包括取平均值、取標(biāo)準(zhǔn)差、取中位數(shù)中的任一項(xiàng)。
3.根據(jù)權(quán)利要求1所述字符串分類方法,其特征在于,所述根據(jù)所有的所述統(tǒng)計(jì)特征向量生成所述待分類字符串對(duì)應(yīng)的特征向量,包括:
將所有的所述統(tǒng)計(jì)特征向量串聯(lián)為所述待分類字符串對(duì)應(yīng)的特征向量。
4.根據(jù)權(quán)利要求1所述字符串分類方法,其特征在于,若待分類字符串為待檢測(cè)是否為釣魚(yú)網(wǎng)站的URL地址,且N為5,則將所述待分類字符串按照預(yù)先設(shè)定的劃分方式劃分為N個(gè)字符串子段,包括:
將所述URL地址分為網(wǎng)絡(luò)協(xié)議、子域名字段、域名字段、域名后綴和URL路徑五個(gè)字符串子段。
5.根據(jù)權(quán)利要求1所述字符串分類方法,其特征在于,若待分類字符串為待檢測(cè)是否為惡意請(qǐng)求或網(wǎng)站后門(mén)行為的網(wǎng)絡(luò)請(qǐng)求,且M為2,則將所述待分類字符串按照預(yù)先設(shè)定的劃分方式劃分為N個(gè)字符串子段,并從所述N個(gè)字符串子段中選擇M個(gè)字符串子段,包括:
將所述網(wǎng)絡(luò)請(qǐng)求按照預(yù)先設(shè)定的劃分方式劃分為N個(gè)字符串子段,并從所述N個(gè)字符串子段中選擇請(qǐng)求路徑和請(qǐng)求參數(shù)兩個(gè)字符串子段,其中,N為不小于2的整數(shù)。
6.根據(jù)權(quán)利要求1所述字符串分類方法,其特征在于,若待分類字符串為待檢測(cè)是否為惡意請(qǐng)求或網(wǎng)站后門(mén)行為的網(wǎng)絡(luò)請(qǐng)求,則將所述待分類字符串輸入特征提取器中,得到所述待分類字符串對(duì)應(yīng)的特征向量,包括:
將所述網(wǎng)絡(luò)請(qǐng)求輸入訓(xùn)練完成的C2V模型中,生成所述網(wǎng)絡(luò)請(qǐng)求對(duì)應(yīng)的特征矩陣。
7.根據(jù)權(quán)利要求1所述字符串分類方法,其特征在于,若待分類字符串為待分類文檔,則將所述待分類字符串輸入特征提取器中,包括:
將所述待分類文檔的所有字符輸入所述特征提取器中。
8.根據(jù)權(quán)利要求7所述字符串分類方法,其特征在于,將所述待分類字符串按照預(yù)先設(shè)定的劃分方式劃分為N個(gè)字符串子段,包括:
將所述所有字符以空格和/或標(biāo)點(diǎn)符號(hào)劃分為N個(gè)字符串子段。
9.根據(jù)權(quán)利要求1-8任一項(xiàng)所述字符串分類方法,其特征在于,所述分類器為通過(guò)機(jī)器學(xué)習(xí)算法訓(xùn)練得到的分類器。
10.根據(jù)權(quán)利要求9所述字符串分類方法,其特征在于,所述機(jī)器學(xué)習(xí)算法至少包括XGBoost算法、GBDT算法或神經(jīng)網(wǎng)絡(luò)算法中的任一項(xiàng)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東工業(yè)大學(xué),未經(jīng)廣東工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711046466.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





