[發明專利]一種動態數據環境下的數據流概念漂移可視化方法有效
| 申請號: | 201310052088.7 | 申請日: | 2013-02-18 |
| 公開(公告)號: | CN103150470A | 公開(公告)日: | 2013-06-12 |
| 發明(設計)人: | 馮林;姚遠;陳灃 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F19/00 | 分類號: | G06F19/00 |
| 代理公司: | 大連星海專利事務所 21208 | 代理人: | 徐淑東 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 動態 數據 環境 數據流 概念 漂移 可視化 方法 | ||
技術領域
本發明涉及智能信息處理技術領域,特別涉及一種動態環境下的數據流概念漂移可視化法,適用于網絡入侵檢測,網絡安全監控、傳感器數據監控和電網供電等方面。?
背景技術
隨著信息技術的深入發展,傳統數據挖掘方法正面臨著新的挑戰,首當其沖的就是數據形式的變化,由傳統靜態數據轉變為動態數據流形式,因此如何對數據流進行有效挖掘,提取出內部所包含的知識越來越受到工業界的關注。?
與靜態數據不同,數據流本身具有三個特點:海量性、實時性和動態變化性。這三個特點就要求傳統數據挖掘模型必須進行調整和改變,以適應數據流的變化和特點,因此目前很多針對數據流模型和方法,都是圍繞數據流本身的數據屬性進行展開,例如數據流分類模型、聚類模型、降維模型等等。但是對于數據流中所包含的概念層面進行挖掘,目前仍然沒有相對應的研究方法和技術。?
目前僅存的數據流概念相關的技術,主要是針對數據流中存在概念漂移現象,進行實時檢測或者分類,為后續工作提供支持,而對于概念漂移可視化問題在學術界以及工業界仍然屬于空白。盡管概念漂移可視化目前仍然是探索階段,但由于概念是數據的高級表現形式,因此對于理解數據以及提取數據知識方法具有重要的意義。借鑒其他可視化方法,例如,流形圖,圓圈表示法等等方式,在獲取概念特征的前提下,對概念漂移進行可視化,可以為后續工作提供一個直觀的數據表達方式,這將有利于后續工作的順利而有效的進行。本領域中存在對提供動態環境數據流概念漂移可視化方法的需要。?
發明內容
本發明的目的是:為解決上述現有技術中存在的問題,以及對于概念漂移可視化方法研究的不足,提供一種動態環境下的數據流概念漂移可視化方法。?
為達到上述目的,本發明采用的技術方案是:提供了一種動態數據環境下的數據流概念漂移可視化方法,具體包括以下步驟:?
步驟1:動態數據流收集模塊102從海量實時數據流101中按照時間順序收集數據;
步驟2:數據流劃分模塊103讀取步驟1中的數據流數據,并根據數據流中數據到達的先后順序對數據流進行劃分;所述數據流劃分模塊103劃分得到的數據塊中,包含N條記錄;N是固定變量,由使用者提前設定;
步驟3:將使用數據流劃分模塊103劃分后得到靜態數據塊,輸入到kdq樹模塊104中構建kdq樹;其中,所述kdq樹對應的閾值使用基于KL散度的自助法計算給出或由使用者直接給定;
步驟4:將kdq樹模塊104所建立的kdq樹、kdq樹對應的閾值放入概念池106中保存;
步驟5:概念檢測模塊105在數據流劃分模塊103得到一個新的數據塊,并檢測新數據塊是否是新的概念,概念檢測模塊105的檢測結果根據由原始數據塊、新數據塊的KL散度值與概念池106中保存的kdq樹對應閾值的比較結果給出;在計算KL散度時需要對原始數據塊進行離散化,離散化的結果由數據塊通過kdq樹的結果給出;
步驟6:當數據流劃分模塊103獲取新的數據塊時,將此數據塊與概念池106中所保存的概念進行比較,如果找到相似的概念,則對概念統計模塊107進行更新;否則將此數據塊作為新的概念加入概念池106中;
步驟7:重復步驟1-6直至數據流結束。此時將概念統計模塊107中的統計信息進行匯總,計算出概念池106中每個概念的統計信息;
步驟8:將上述統計信息輸入到概念轉移圖模塊108,利用貝葉斯公式構建概念轉移圖,完成概念漂移可視化過程。
其中,所述步驟3中建立kdq樹包括以下子步驟:?
步驟3.1:首先選定數據塊中第一個屬性作為當前屬性,在當前維度中尋找中位數值v,能夠對數據塊進行劃分,使得劃分后得到的兩個子集中的樣本數量基本相等,即當前屬性的數值大于v的數據以及當前屬性的數值小于或等于v的數據的數量基本相等;
步驟3.2:在上述所得到的子集中,在后繼屬性中尋找能夠滿足劃分條件的屬性,并選擇此屬性作為當前屬性,重復尋找中位數值的過程,繼續劃分數據子集;
步驟3.3:重復以上過程,直到滿足終止條件為止;
所述劃分條件為:當前維度數據的最大值與小值之差大于變量ε,且ε值由用戶指定;
所述終止條件為:當前數據塊的數據規模小于nmin,或者每一維度的最大最小值之差均小于ε,其中于nmin值由用戶提前指定。
其中,所述步驟4中,kdq樹模塊104采用自助法給定kdq樹對應的相關閾值,包括以下步驟:?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310052088.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種輕薄型LED背光模組
- 下一篇:奧硝唑口服制劑及其制備方法
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建?;蚍抡?,例如:概率模型或動態模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





