[發(fā)明專利]一種基于聚類的大數(shù)據(jù)常態(tài)模式提取方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201410356957.X | 申請日: | 2014-07-24 |
| 公開(公告)號: | CN104156403A | 公開(公告)日: | 2014-11-19 |
| 發(fā)明(設(shè)計)人: | 王電;魏毅;黃煜可 | 申請(專利權(quán))人: | 中國軟件與技術(shù)服務(wù)股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11200 | 代理人: | 余長江 |
| 地址: | 100081 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)據(jù) 常態(tài) 模式 提取 方法 系統(tǒng) | ||
1.一種基于聚類的大數(shù)據(jù)常態(tài)模式提取方法,其步驟為:
1)中央服務(wù)器從各終端服務(wù)器采集樣本數(shù)據(jù),得到一總樣本數(shù)據(jù)集;
2)從該總樣本數(shù)據(jù)集中抽取若干樣本,得到一抽樣樣本集合并對其進(jìn)行聚類分析,得到若干簇;將聚類得到的簇作為樣本的標(biāo)簽,對樣本進(jìn)行標(biāo)注,然后根據(jù)選取的屬性降維指標(biāo)計算所述抽樣樣本集合中已標(biāo)注樣本每一屬性的屬性值辨識度、屬性辨識度和或?qū)傩灾抵匾浴傩灾匾裕?/p>
3)分別根據(jù)屬性值辨識度、屬性辨識度和或?qū)傩灾抵匾浴傩灾匾詫傩赃M(jìn)行排序,選取若干屬性作為大數(shù)據(jù)降維后保留的屬性;
4)對屬性降維后的全體樣本數(shù)據(jù)進(jìn)行聚類,將聚類得到的簇作為樣本的標(biāo)簽,對樣本進(jìn)行標(biāo)注;
5)根據(jù)選取的屬性劃分指標(biāo)計算步驟4)中已標(biāo)注樣本每一屬性的屬性值辨識度、屬性辨識度和或?qū)傩灾抵匾浴傩灾匾裕缓髮τ嬎憬Y(jié)果進(jìn)行排序選取若干屬性特征對該總樣本數(shù)據(jù)集進(jìn)行劃分,將劃分結(jié)果作為常態(tài)模式;
其中,屬性值辨識度的計算方法為:選取樣本一屬性i的一屬性值a,計算具有該屬性值a的樣本屬于標(biāo)簽j的條件概率值,以及未增加該屬性值條件時樣本屬于該標(biāo)簽j的概率值;將所述條件概率值與所述概率值的差值作為該屬性值a對于該標(biāo)簽j的屬性值辨識度;將該屬性值a對于所有標(biāo)簽的屬性值辨識度的平方平均數(shù)作為該屬性值a的屬性值辨識度;
屬性辨識度的計算方法為:根據(jù)屬性i所有屬性值辨識度計算該屬性i的屬性辨識度;
屬性值重要性的計算方法為:將樣本屬性i取屬性值a時屬于標(biāo)簽j的樣本量乘以該屬性值a對于該標(biāo)簽j的屬性辨識度,得到該屬性值a對于該標(biāo)簽j的屬性值重要性;將該屬性值a對于所有標(biāo)簽的屬性值重要性的平方平均數(shù)作為該屬性值a的屬性值重要性;
屬性重要性的計算方法為:根據(jù)屬性i所有屬性值重要性計算該屬性i的屬性重要性。
2.如權(quán)利要求1所述的方法,其特征在于對該屬性i所有屬性值的屬性值辨識度的平方平均數(shù)作為該屬性i的屬性辨識度。
3.如權(quán)利要求1所述的方法,其特征在于對該屬性i所有屬性值的屬性值重要性的平方平均數(shù)作為該屬性i的屬性重要性。
4.如權(quán)利要求1或2或3所述的方法,其特征在于分別選用屬性重要性最高的屬性、屬性辨識度最高的屬性對樣本進(jìn)行劃分,得到所述常態(tài)模式;或者選取劃分結(jié)果與聚類結(jié)果的差異量小的原則選擇屬性重要性最高的屬性或?qū)傩员孀R度最高的屬性對樣本進(jìn)行劃分,得到所述常態(tài)模式。
5.如權(quán)利要求1或2或3所述的方法,其特征在于根據(jù)所述常態(tài)模式劃分所依據(jù)的屬性和屬性值,命名所述常態(tài)模式的名稱。
6.如權(quán)利要求5所述的方法,其特征在于命名所述常態(tài)模式的名稱的方法為:在得到所述常態(tài)模式的過程中,記錄每一所述常態(tài)模式所用到的屬性和屬性值;將第一所用的屬性和或?qū)傩灾涤涗洖楦?jié)點,最后一次所用的屬性和或?qū)傩灾涤涗洖槿~節(jié)點;然后沿著根節(jié)點向該葉節(jié)點發(fā)展,將涉及的全部屬性值的集合作為該常態(tài)模式的名稱。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國軟件與技術(shù)服務(wù)股份有限公司,未經(jīng)中國軟件與技術(shù)服務(wù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410356957.X/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





