[發(fā)明專利]一種動態(tài)流式數(shù)據(jù)的聚類方法在審
| 申請?zhí)枺?/td> | 201710454380.X | 申請日: | 2017-06-14 |
| 公開(公告)號: | CN107273930A | 公開(公告)日: | 2017-10-20 |
| 發(fā)明(設(shè)計)人: | 藍(lán)科;王純斌;王勇;覃進(jìn)學(xué) | 申請(專利權(quán))人: | 成都四方偉業(yè)軟件股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 成都金英專利代理事務(wù)所(普通合伙)51218 | 代理人: | 袁英 |
| 地址: | 610041 四川省*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 動態(tài) 數(shù)據(jù) 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種聚類方法,尤其涉及一種動態(tài)流式數(shù)據(jù)的聚類方法。
背景技術(shù)
聚類算法是數(shù)據(jù)挖掘領(lǐng)域的幾大方法之一,如分類、聚類、回歸、因素分析。在大數(shù)據(jù)時代,通過聚類算法分析海量數(shù)據(jù),從中得到更好的決策能力,聚類算法的優(yōu)勢可以處理無監(jiān)督機(jī)器學(xué)習(xí),對沒有標(biāo)記的數(shù)據(jù)主動的進(jìn)行分類。隨著對聚類算法的研究不斷深入,研究人員提出了越來越多不同的聚類算法,包括基于劃分的聚類,基于網(wǎng)格的聚類,以及基于層次的聚類。這些算法針對不同的維度、規(guī)模、類型的數(shù)據(jù)集提出,針對相同的數(shù)據(jù)集,使用不同的聚類算法,得到的結(jié)果可能差異很大。
目前已有的各類聚類方法,主要分兩類:一是指定固定的聚類算法,實施聚類算法并返回結(jié)果,但有限的算法導(dǎo)致面對復(fù)雜的數(shù)據(jù)結(jié)構(gòu)的時候,最終聚類效果不理想,但其優(yōu)點是處理的業(yè)務(wù)場景更加通用廣泛。另一類算法是針對特定的應(yīng)用領(lǐng)域,可以更細(xì)致的劃分聚類任務(wù)和聚類目標(biāo),從而更精確的改進(jìn)完善聚類算法,最終聚類結(jié)果也更符合用戶目標(biāo),但該類方法的缺點是應(yīng)用范圍單一,本發(fā)明屬于后者,是針對特定的流數(shù)據(jù)進(jìn)行更加細(xì)致的處理的聚類方法。
在實時流數(shù)據(jù)的應(yīng)用場景中,數(shù)據(jù)通常是以實時流數(shù)據(jù)形式進(jìn)入系統(tǒng),并且數(shù)據(jù)的個數(shù)隨著時間不斷變化,或者新增、或者減少,或者中途數(shù)據(jù)變化的情況。如果這些參數(shù)或維度字段是相對固定的,如果這些數(shù)據(jù)隨著時間在發(fā)生變化,那么可以針對每一個時間點,增加一個時間參數(shù),即在原有數(shù)據(jù)上增加了一個維度字段,仍使用K-means、X-means等方法進(jìn)行聚類計算。
但是這些方法是把時間作為一個單獨的字段或維度,融入原來數(shù)據(jù),實際上只是把原有數(shù)據(jù)提升了一個維度,來進(jìn)行聚類計算的。這樣會出現(xiàn)一個問題,某些業(yè)務(wù)場景本來是根據(jù)時間在不斷變化,而時間僅作為一個普通維度,聚類效果不好,也無法更好的反應(yīng)數(shù)據(jù)的分類特性。
綜上,在面對數(shù)據(jù)的個數(shù)隨著時間不斷變化,或者新增、或者減少,或者中途數(shù)據(jù)變化的情況,使用傳統(tǒng)的K-means、X-means等方法無法有效的進(jìn)行面對以上復(fù)雜的情況進(jìn)行有效的數(shù)據(jù)聚類,目前業(yè)界也尚無一種針對實時流數(shù)據(jù)的較好的解決方法。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種適用于對時間特性數(shù)據(jù)動態(tài)變化的流式數(shù)據(jù)的聚類方法。本方法針對數(shù)據(jù)的特性進(jìn)行了專項優(yōu)化、針對缺失數(shù)據(jù),使用HMM進(jìn)行預(yù)測、針對同時間片中同一標(biāo)識的重復(fù)數(shù)據(jù)進(jìn)行處理的方法,使本發(fā)明能夠甄別異常數(shù)據(jù)、自動優(yōu)化聚類類別個數(shù)、得到高質(zhì)量的聚類結(jié)果。
本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的,一種動態(tài)流式數(shù)據(jù)的聚類方法,它包括以下步驟:
S1:提取時間字段,將數(shù)據(jù)轉(zhuǎn)化為時間字段數(shù)據(jù),并單獨將時間字段提取出來;
S2:構(gòu)建時間片,時間字段排序后構(gòu)建出時間片段;
S3:判定數(shù)據(jù)點,定位識別每個數(shù)據(jù);
S4:時間片、數(shù)據(jù)求并集,并將沒有對應(yīng)數(shù)據(jù)的時間片標(biāo)記出來;
S5:構(gòu)建訓(xùn)練模型,對缺失數(shù)據(jù)構(gòu)建HMM預(yù)測;
S6:檢查數(shù)據(jù)有效性,對重復(fù)數(shù)據(jù)點新增時間片;
S7:剔除異常數(shù)據(jù),根據(jù)全部時間片,檢查是否存在波動異常的數(shù)據(jù);
S8:質(zhì)心數(shù)據(jù)聚類。
在步驟S1中所述的數(shù)據(jù)是字段、結(jié)構(gòu)清晰的結(jié)構(gòu)化數(shù)據(jù);所述的提取時間字段,時間字段在通過結(jié)構(gòu)儲存后,原來的數(shù)據(jù)結(jié)構(gòu)中不再含有時間字段。
在步驟S2中所述的構(gòu)建時間片是根據(jù)時間字段的數(shù)值,對每一個數(shù)據(jù)集升序排序,每一個數(shù)據(jù)集作為一個時間片,每個時間片內(nèi)又包含對應(yīng)的一個數(shù)據(jù)集,且每個數(shù)據(jù)在不同的時間片上能夠定位和識別,數(shù)據(jù)在任意時間點上可以缺失,但不存在重復(fù)。
在步驟S3中所述的判定數(shù)據(jù)點目的在于使數(shù)據(jù)在任意時間點不存在重復(fù),但可以缺失。
在步驟S4中所述的求并集是對所有時間片和數(shù)據(jù)求并集,即每一個時間片下,包含整時間段的所有數(shù)據(jù),如該數(shù)據(jù)點在該時間片下無對應(yīng)數(shù)據(jù),則標(biāo)識出來進(jìn)入步驟S5做出進(jìn)一步處理。
在步驟S5中所述的構(gòu)建訓(xùn)練模型是對缺失數(shù)據(jù)使用HMM構(gòu)建新模型,并對模型進(jìn)行訓(xùn)練和預(yù)測。
在步驟S6中所述的檢查數(shù)據(jù)有效性,如果出現(xiàn)重復(fù)數(shù)據(jù)則對重復(fù)數(shù)據(jù)進(jìn)行標(biāo)記,對時間片以增加副本形式進(jìn)行標(biāo)記,是數(shù)據(jù)處理的每個時間片都沒有重復(fù)。
在步驟S7中所述的剔除異常數(shù)據(jù)是根據(jù)全部時間片,檢查是否有存在波動異常的數(shù)據(jù),如存在則剔除該數(shù)據(jù)。
在步驟S8中所述的質(zhì)心數(shù)據(jù)聚類包括以下步驟:
S81:求質(zhì)心,利用求質(zhì)心公式,求出每一個數(shù)據(jù),在不同時間點下的所有數(shù)據(jù)的質(zhì)心;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都四方偉業(yè)軟件股份有限公司,未經(jīng)成都四方偉業(yè)軟件股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710454380.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 動態(tài)矢量譯碼方法和動態(tài)矢量譯碼裝置
- 動態(tài)口令的顯示方法及動態(tài)令牌
- 動態(tài)庫管理方法和裝置
- 動態(tài)令牌的身份認(rèn)證方法及裝置
- 令牌、動態(tài)口令生成方法、動態(tài)口令認(rèn)證方法及系統(tǒng)
- 一種動態(tài)模糊控制系統(tǒng)
- 一種基于動態(tài)信號的POS機(jī)和安全保護(hù)方法
- 圖像動態(tài)展示的方法、裝置、系統(tǒng)及介質(zhì)
- 一種基于POS機(jī)聚合碼功能分離顯示動態(tài)聚合碼的系統(tǒng)
- 基于動態(tài)口令的身份認(rèn)證方法、裝置和動態(tài)令牌
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





