[發(fā)明專利]一種基于K-means聚類和隨機(jī)森林算法的移動(dòng)應(yīng)用程序識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 201811422296.0 | 申請(qǐng)日: | 2018-11-27 |
| 公開(kāi)(公告)號(hào): | CN109726735A | 公開(kāi)(公告)日: | 2019-05-07 |
| 發(fā)明(設(shè)計(jì))人: | 陳丹偉;朱迪 | 申請(qǐng)(專利權(quán))人: | 南京郵電大學(xué) |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62 |
| 代理公司: | 南京蘇科專利代理有限責(zé)任公司 32102 | 代理人: | 姚姣陽(yáng) |
| 地址: | 210023 *** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 時(shí)間序列 數(shù)據(jù)流 聚類簇 算法 移動(dòng)應(yīng)用程序 加密數(shù)據(jù)流 聚類分析 輸出分組 隨機(jī)森林 統(tǒng)計(jì)特征 移動(dòng)應(yīng)用 過(guò)濾 無(wú)監(jiān)督學(xué)習(xí) 加密流量 聚類算法 輸入分組 數(shù)學(xué)統(tǒng)計(jì) 應(yīng)用類型 時(shí)間段 數(shù)據(jù)包 數(shù)據(jù)集 建模 聚類 加密 樣本 監(jiān)督 學(xué)習(xí) | ||
1.一種基于K-means聚類和隨機(jī)森林算法的移動(dòng)應(yīng)用程序識(shí)別方法,其特征在于,包括如下步驟:
步驟S1、將一個(gè)時(shí)間段的加密數(shù)據(jù)流根據(jù)TCP會(huì)話特點(diǎn)離散化為若干個(gè)數(shù)據(jù)流,每個(gè)數(shù)據(jù)流采用輸入分組時(shí)間序列、輸出分組時(shí)間序列和輸入輸出分組時(shí)間序列表示;
步驟S2、對(duì)每條數(shù)據(jù)流對(duì)應(yīng)的三個(gè)時(shí)間序列進(jìn)行數(shù)學(xué)統(tǒng)計(jì),獲取數(shù)據(jù)包的統(tǒng)計(jì)特征;
步驟S3、通過(guò)K-means聚類算法對(duì)加密數(shù)據(jù)流的統(tǒng)計(jì)特征聚類分析;
步驟S4、通過(guò)熵的計(jì)算方法對(duì)聚類分析所得到的每個(gè)聚類簇的純度打分,并過(guò)濾掉純度較低的聚類簇中的樣本;
步驟S5、通過(guò)隨機(jī)森立算法對(duì)過(guò)濾后的聚類簇作為數(shù)據(jù)集進(jìn)行建模,實(shí)現(xiàn)對(duì)加密劉所述移動(dòng)應(yīng)用類型的識(shí)別。
2.根據(jù)權(quán)利要求1所述的一種基于K-means聚類和隨機(jī)森林算法的移動(dòng)應(yīng)用程序識(shí)別方法,其特征在于,所述步驟S1中離散化的具體步驟如下:
步驟S11、以突發(fā)為單位將連續(xù)的加密網(wǎng)絡(luò)流量離散化,突發(fā)為時(shí)間間隔小于指定閾值的分組;
步驟S12、從每個(gè)突發(fā)中分離出多個(gè)加密數(shù)據(jù)流,加密數(shù)據(jù)流由在一個(gè)突發(fā)中與同一對(duì)四元祖相關(guān)的分組組成;
步驟S13、將每條數(shù)據(jù)流用用三哥分組時(shí)間序列表示,由數(shù)據(jù)流中流入的每個(gè)分組的包長(zhǎng)度按時(shí)間順序排列的序列,即為輸入分組時(shí)間序列;由數(shù)據(jù)流中流出的每個(gè)分組的包長(zhǎng)度按時(shí)間順序排序的順序,即為輸出分組時(shí)間序列;由數(shù)據(jù)流中流入和流出的每個(gè)分組按時(shí)間順序排列的序列,即為輸入輸出分組時(shí)間序列。
3.根據(jù)權(quán)利要求1所述的一種基于K-means聚類和隨機(jī)森林算法的移動(dòng)應(yīng)用程序識(shí)別方法,其特征在于,所述步驟S2的具體步驟如下:
步驟S21、對(duì)每條數(shù)據(jù)流對(duì)應(yīng)的每個(gè)分組時(shí)間序列進(jìn)行統(tǒng)計(jì)特征提取,統(tǒng)計(jì)特征包括數(shù)據(jù)包長(zhǎng)度最小值、數(shù)據(jù)包長(zhǎng)度最大值、數(shù)據(jù)包長(zhǎng)度平均值、數(shù)據(jù)包長(zhǎng)度中位數(shù)絕對(duì)偏差、數(shù)據(jù)包長(zhǎng)度標(biāo)準(zhǔn)偏差、數(shù)據(jù)包長(zhǎng)度方差、數(shù)據(jù)包長(zhǎng)度偏斜、數(shù)據(jù)包長(zhǎng)度峰度、數(shù)據(jù)包長(zhǎng)度百分位數(shù)(從10%到90%)以及該分組時(shí)間序列中的數(shù)據(jù)包數(shù)量共18個(gè)統(tǒng)計(jì)特征;
步驟S22、將上述每個(gè)分組時(shí)間序列對(duì)應(yīng)的統(tǒng)計(jì)特征,按輸入分組時(shí)間序列對(duì)應(yīng)的統(tǒng)計(jì)特征、輸出分組時(shí)間序列對(duì)應(yīng)的統(tǒng)計(jì)特征以及輸入輸出分組時(shí)間序列對(duì)應(yīng)的統(tǒng)計(jì)特征的順序組合成長(zhǎng)度為54的加密數(shù)據(jù)流特征向量;
步驟S23、對(duì)每條數(shù)據(jù)流按步驟22處理,直至所有數(shù)據(jù)流處理完畢。
4.根據(jù)權(quán)利要求1所述的一種基于K-means聚類和隨機(jī)森林算法的移動(dòng)應(yīng)用程序識(shí)別方法,其特征在于,所述步驟S3的具體步驟如下:
步驟S31、通過(guò)線型搜索選取聚類簇?cái)?shù)量常數(shù)k;
步驟S32、以常數(shù)k為參數(shù)通過(guò)K-means聚類算法建模;
步驟S33、獲取聚類結(jié)果的Dunn指數(shù)和輪廓系數(shù),評(píng)估聚類效果;
步驟S34、循環(huán)步驟S31-步驟S33直至聚類效果達(dá)到最佳。
5.根據(jù)權(quán)利要求1所述的一種基于K-means聚類和隨機(jī)森林算法的移動(dòng)應(yīng)用程序識(shí)別方法,其特征在于,所述步驟S4的具體步驟如下:
步驟S41、通過(guò)信息熵計(jì)算公式計(jì)算每個(gè)聚類簇的信息熵;
步驟S42、設(shè)置熵閾值,過(guò)濾超過(guò)閾值的熵的聚類簇的樣本;
步驟S43、通過(guò)隨機(jī)森林算法建模;
步驟S44、循環(huán)上訴步驟、調(diào)整熵閾值直至隨機(jī)森林算法模型的分類效果最佳。
6.根據(jù)權(quán)利要求1所述的一種基于K-means聚類和隨機(jī)森林算法的移動(dòng)應(yīng)用程序識(shí)別方法,其特征在于,所述步驟S5的具體步驟如下:
步驟S51、將經(jīng)過(guò)步驟三和步驟四數(shù)據(jù)預(yù)處理的數(shù)據(jù)集隨機(jī)分為訓(xùn)練集、驗(yàn)證集和測(cè)試集三個(gè)部分;
步驟S52、應(yīng)用隨機(jī)森林算法以訓(xùn)練集為數(shù)據(jù)訓(xùn)練分類器;
步驟S53、用驗(yàn)證集來(lái)檢測(cè)分類器對(duì)移動(dòng)應(yīng)用類型識(shí)別的效果;
步驟S54、調(diào)整隨機(jī)森林中基學(xué)習(xí)器數(shù)量、基學(xué)習(xí)器中選取屬性結(jié)點(diǎn)的衡量指標(biāo)等參數(shù);
步驟S55、循環(huán)步驟S52和步驟S53直至分類器對(duì)驗(yàn)證集的應(yīng)用類型識(shí)別效果最佳,最終用測(cè)試集檢測(cè)最終模型的識(shí)別效果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京郵電大學(xué),未經(jīng)南京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811422296.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 編碼裝置,編碼方法,程序和記錄媒體
- 網(wǎng)絡(luò)數(shù)據(jù)流識(shí)別系統(tǒng)及方法
- 一種數(shù)據(jù)流調(diào)度的方法、設(shè)備和系統(tǒng)
- 一種確定待清洗數(shù)據(jù)流的方法及裝置
- 用于分析儀器化軟件的數(shù)據(jù)流處理語(yǔ)言
- 用于數(shù)據(jù)流系統(tǒng)的數(shù)據(jù)流處理方法及裝置
- 數(shù)據(jù)流調(diào)度系統(tǒng)以及數(shù)據(jù)流調(diào)度方法
- 采用向量處理的同時(shí)分割
- 汽車數(shù)據(jù)流的監(jiān)控方法、系統(tǒng)及可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)流類型識(shí)別模型更新方法及相關(guān)設(shè)備
- 一種信息風(fēng)險(xiǎn)監(jiān)測(cè)方法及裝置
- 基于大數(shù)據(jù)的聚類方法、設(shè)備、存儲(chǔ)介質(zhì)及裝置
- 數(shù)據(jù)聚類的簇?cái)?shù)確定方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種無(wú)人機(jī)基站的部署方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)
- 聚類方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 一種客服對(duì)話語(yǔ)料聚類方法、系統(tǒng)、設(shè)備及存儲(chǔ)介質(zhì)
- 文本識(shí)別方法和裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種圖像的聚類方法和裝置
- 文本聚類方法、裝置、存儲(chǔ)介質(zhì)和電子設(shè)備
- 多媒體內(nèi)容處理方法、裝置、設(shè)備及介質(zhì)





