[發明專利]一種動態數據環境下的數據流混合分類方法在審
| 申請號: | 201310608553.0 | 申請日: | 2013-12-26 |
| 公開(公告)號: | CN103678512A | 公開(公告)日: | 2014-03-26 |
| 發明(設計)人: | 姚遠 | 申請(專利權)人: | 大連民族學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/66 |
| 代理公司: | 大連博晟專利代理事務所(特殊普通合伙) 21236 | 代理人: | 于忠晶 |
| 地址: | 116000 遼寧省大*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 動態 數據 環境 數據流 混合 分類 方法 | ||
1.一種動態數據環境下的數據流混合分類方法,具體包括以下步驟:
步驟1:動態數據流收集模塊(102)從海量實時數據流(101)中按照時間順序收集數據;
步驟2:數據流劃分模塊(103)讀取步驟1中的數據流數據,并且根據數據流數據的時間先后關系對數據流進行劃分;所述數據流初始化模塊(103)劃分得到的數據塊中,包含3類數據分別是訓練集、驗證集和測試集,每個數據集中所包含的數據樣本數量為N;N是固定變量,由使用者提前設定;
步驟3:將經過數據流劃分模塊(103)所得到的三種靜態數據集即訓練集、測試集和驗證集輸入到數據初始化模塊(104),對靜態數據集進行歸一化處理;
步驟4:將經過數據初始化模塊(104)處理后的訓練集數據輸入到集成分類器模塊(105)中,所述集成分類器模塊(105)使用訓練集數據進行訓練,構建集成分類器模型;
步驟5:利用參數優化模塊(106)對步驟4中集成分類器模型進行參數優化;
步驟6:將經過數據初始化模塊(104)處理后的驗證集輸入到步驟5優化后的集成分類器中,得到的數據類別標簽為數據集L;
步驟7:將數據集L輸入到聚類模塊(107)中,對所使用的聚類模型進行訓練;
步驟8:將數據初始化模塊(104)所得到的測試集數據輸入到所構建的混合分類模型中,完成數據流分類過程。
2.根據權利要求1所述的一種動態數據環境下的數據流混合分類方法,其特征在于,所述步驟2中數據流劃分模塊(103)對數據流的劃分,包括以下步驟:
步驟2.1:首先使用滑動窗口法對海量實時數據流進行靜態化處理;其中,滑動窗口每次滑動的距離為N,且每個靜態子集所包含的樣本數量也為N個;
步驟2.2:使用隨機抽取方法對步驟2.1所得到的子集進行混合,分別得到三個數據集,即訓練集、測試集和驗證集,其中訓練集和測試集的大小均為4N。
3.根據權利要求1所述的一種動態數據環境下的數據流混合分類方法,其特征在于,所述步驟3中數據初始化模塊(104)采用MapMinMax歸一化方法對數據進行歸一化處理,包括以下步驟:
步驟3.1:首先將得到的訓練集、測試集和驗證集,分別對其各個屬性值進行統計,找到各屬性的最大和最小屬性值;
步驟3.2:對數據集的各個屬性進行歸一化處理,所述歸一化方法公式為:
??????????????????????????????????????????????????????????????????????????
其中,xi表示當前樣本的第i個屬性值,min(xi)和max(xi)分別表示當前第i個屬性的最小和最大值,ymax和ymin分別表示歸一化的上限和下限,如果想歸一化到[0,1]區間時,則ymax為1,ymin為0。
4.根據權利要求1所述的一種動態數據環境下的數據流混合分類方法,其特征在于,所述步驟4中數據集成分類器模塊(105)采用支持向量機模型作為基本分類模型對數據流進行分類,并構建集成分類器,包括以下步驟:
步驟4.1:首先使用兩種支持向量機模型作為基本分類模型,即C-SVM和ν(nu)-SVM模型;
步驟4.2:使用三種個函數對上述兩種支持向量機模型進行劃分,得到六個不同的支持向量機分類模型,其中,所使用核函數為線性核函數、高斯徑向基核函數和Sigmoid核函數;
步驟4.3:對得到的集成學習模型進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連民族學院,未經大連民族學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310608553.0/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





