[發(fā)明專利]基于聚類的大數(shù)據(jù)屬性重要性和辨識度的預(yù)警方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201410356010.9 | 申請日: | 2014-07-24 |
| 公開(公告)號: | CN104123368B | 公開(公告)日: | 2017-06-13 |
| 發(fā)明(設(shè)計(jì))人: | 王電;陳慶彬;黃煜可 | 申請(專利權(quán))人: | 中國軟件與技術(shù)服務(wù)股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)11200 | 代理人: | 余長江 |
| 地址: | 100081 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 數(shù)據(jù) 屬性 重要性 辨識 預(yù)警 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種時間序列預(yù)警方法,尤其涉及一種基于聚類的大數(shù)據(jù)屬性重要性和辨識度的時間序列預(yù)警系統(tǒng)。
背景技術(shù)
在現(xiàn)實(shí)生活中,我們經(jīng)常會面對具有一定周期性的復(fù)雜時間序列數(shù)據(jù),在每個時間點(diǎn)對應(yīng)的截面上,都對應(yīng)一組樣本數(shù)據(jù),各個時間點(diǎn)之間的樣本數(shù)據(jù)沒有必然的聯(lián)系,從而不是公知的面板數(shù)據(jù),甚至各時間點(diǎn)的樣本數(shù)量都不具有相等關(guān)系。我們希望在對這些數(shù)據(jù)缺乏足夠了解的情況下,確定每個截面上數(shù)據(jù)之間的相似性,判斷不同屬性對這種相似性的影響程度,以及這些蘊(yùn)含在數(shù)據(jù)中的關(guān)系在時間序列上如何傳遞和變化,并由此作出異常情況的預(yù)警。
這樣的周期時間序列數(shù)據(jù)十分復(fù)雜,但在現(xiàn)實(shí)生活中卻非常常見。案例1:某超市在近一年的時間里,持續(xù)記錄了每天中每個消費(fèi)者的購物籃數(shù)據(jù),每天的消費(fèi)者數(shù)量顯然不固定。但由于會員卡數(shù)據(jù)缺失,我們不能針對每個消費(fèi)者建立時間序列模型,再分析其消費(fèi)習(xí)慣的時間序列性質(zhì)并作出異常預(yù)警,我們只能并希望從整體上獲知消費(fèi)習(xí)慣的變化,特別是購物籃中產(chǎn)品對超市營利能力的重要程度的變化,并對產(chǎn)品采購等經(jīng)營活動作出異常預(yù)警和管理建議。案例2:某城市統(tǒng)計(jì)了近五年來所有高三學(xué)生參加高考的各科成績,顯然每年參加高考的學(xué)生人數(shù)不固定,且絕大部分學(xué)生只參加一次高考,我們不能針對每個學(xué)生建立時間序列模型,再分析其各科成績的時間序列性質(zhì)并作出異常預(yù)警,我們只能并希望從整體上獲知學(xué)生高考情況的變化,提供預(yù)警并對高考改革提供參考意見,這里不存在明顯的周期,我們可以按照歷史數(shù)據(jù)的數(shù)量確定一個合適的周期,或者以一為周期做拐點(diǎn)分析。
由于我們對數(shù)據(jù)的了解非常缺乏,我們常常需要依據(jù)經(jīng)驗(yàn)、主觀地將屬性進(jìn)行分類,一般進(jìn)行后續(xù)的研究。例如,在案例1中,我們將消費(fèi)者按照消費(fèi)金額分為高、中、低三類,或者按照消費(fèi)者年齡分為老、中、青三類,再比較各個分類的眾多數(shù)據(jù)的均值、方差等指標(biāo)隨時間序列的變化,由此作出預(yù)警。這種分類方法存在兩大缺陷:其一,嚴(yán)重依賴于主觀的分類,使分析結(jié)果喪失客觀性;其二,將眾多數(shù)據(jù)壓縮成均值、方差等指標(biāo),喪失了大量的信息,使分析結(jié)果不能充分反映情況,預(yù)警效果差強(qiáng)人意。
對具有一定周期性的復(fù)雜時間序列數(shù)據(jù)做出預(yù)警時,還會遇到“大數(shù)據(jù)”的問題。隨著信息技術(shù)的高速發(fā)展,人們積累的數(shù)據(jù)量急劇增長,如何從海量的數(shù)據(jù)中提取有用的知識成為當(dāng)務(wù)之急。經(jīng)過清洗的已知標(biāo)簽樣本數(shù)據(jù)匯總到中央數(shù)據(jù)庫。由于樣本量巨大,形成了維數(shù)大、規(guī)模大、復(fù)雜性大的大數(shù)據(jù)形態(tài),要挖掘其中有意義的知識和內(nèi)容以指導(dǎo)實(shí)際生產(chǎn)和具體應(yīng)用,需要首先進(jìn)行降維處理,即維數(shù)約簡,它一方面可以解決“維數(shù)災(zāi)難”,緩解大數(shù)據(jù)中“信息豐富但知識貧乏”的問題,降低計(jì)算的復(fù)雜度;另一方面可以引導(dǎo)人們更好地認(rèn)識和理解數(shù)據(jù)。數(shù)據(jù)降維的方法很多,例如:根據(jù)數(shù)據(jù)本身的特性,可以分為線性降維和非線性降維兩種;根據(jù)是否考慮和利用數(shù)據(jù)的監(jiān)督信息,可以分為無監(jiān)督降維、有監(jiān)督降維和半監(jiān)督降維三種;根據(jù)是否需要保持?jǐn)?shù)據(jù)的結(jié)構(gòu),可以分為全局保持降維、局部保持降維和全局與局部保持一致降維等。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中存在的技術(shù)問題,本發(fā)明的目的在于提供一種基于聚類的大數(shù)據(jù)屬性重要性和辨識度的時間序列預(yù)警方法和系統(tǒng)。
我們首先根據(jù)實(shí)際需要選擇時間段,根據(jù)時間段劃分樣本,以便進(jìn)行比較。其次使用“抽樣->聚類->計(jì)算降維指標(biāo)”的流程進(jìn)行大數(shù)據(jù)降維,將聚類獲得的簇作為已知的標(biāo)簽,采用完全客觀的算法來選擇對樣本的已知標(biāo)簽具有較大影響力的維度。也就是說,這些在降維中被保留下來的維度不是主觀確定的,不依賴于經(jīng)驗(yàn)?zāi)P汀T俅吾槍稻S后的數(shù)據(jù),使用聚類分析(clustering)算法將樣本進(jìn)行聚類,獲得數(shù)據(jù)客觀蘊(yùn)含的相似性,再將聚類結(jié)果(簇,cluster)作為分類標(biāo)簽,使用屬性重要性和辨識度提取方法,提取由數(shù)據(jù)本身決定的“屬性對分類的影響力”指標(biāo),這些指標(biāo)包括:屬性值辨識度、屬性辨識度、屬性值重要性、屬性重要性。相比而言,在數(shù)據(jù)挖掘(Data Mining)的決策樹(Decision Tree)算法中,我們主要使用信息增益、增益率、Gini指標(biāo)來衡量屬性對分類的影響力,它們分別應(yīng)用于三種最常見的決策樹算法:ID3、C4.5、CART。本發(fā)明可以獲得比上述傳統(tǒng)算法更加全面的屬性重要程度信息。最后,將各個時間段的四項(xiàng)指標(biāo)分別形成時間序列,使用拐點(diǎn)分析方法進(jìn)行時間序列的研究,可以做出不同層面的異常值預(yù)警,預(yù)警效果好。
本發(fā)明的技術(shù)方案為:
一種基于聚類的大數(shù)據(jù)屬性重要性和辨識度的預(yù)警方法,其步驟為:
1)中央服務(wù)器從各終端服務(wù)器采集樣本數(shù)據(jù),并按照時間段對樣本數(shù)據(jù)進(jìn)行劃分,每個時間段對應(yīng)一樣本數(shù)據(jù)集;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國軟件與技術(shù)服務(wù)股份有限公司,未經(jīng)中國軟件與技術(shù)服務(wù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410356010.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





