[發明專利]一種基于聚類的大數據常態模式提取方法及系統有效
| 申請號: | 201410356957.X | 申請日: | 2014-07-24 |
| 公開(公告)號: | CN104156403A | 公開(公告)日: | 2014-11-19 |
| 發明(設計)人: | 王電;魏毅;黃煜可 | 申請(專利權)人: | 中國軟件與技術服務股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 余長江 |
| 地址: | 100081 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 常態 模式 提取 方法 系統 | ||
技術領域
本發明涉及一種常態模式提取系統,尤其涉及一種基于聚類的大數據常態模式提取方法及系統。
背景技術
在現實生活中,我們經常需要對一組樣本數據進行分類。常用的處理方法有兩種:
第一種分類方法,基于經驗確定一些分類的指標(屬性、屬性值)并按照這些指標將樣本數據分類,例如將一群人分為“青年”、“中年”、“老年”三類,就是基于屬性“年齡層”做出的。這種分類方式強烈的依賴于分類人的經驗,具有較強的主觀色彩,使得不同人對同一組樣本數據得到的分類結果可能有較大不同,而且難以確定究竟哪種分類更加科學。
第二種分類方法,基于數據挖掘聚類分析的聚類結果,將聚類結果直接作為分類結果,這種方法具有較好的客觀性,但存在以下不足:
(1)主流的聚類算法沒有給出確切的分類標準,基于距離得到的聚類簇中,不同樣本的屬性值混雜,沒有確切的規律,可能某個簇的100個樣本中99個都是“性別=男性”,僅有1個是“性別=女性”,使得分類結果的實踐指導意義較差。
(2)對于一類復雜的趨勢數據樣本,例如某超市每天的顧客購物情況,使用聚類分析得到的簇,不能確定相鄰兩天得到的簇之間的關系,從而難以研究相關簇之間的時間序列關系。
(3)主流的聚類算法屬于隨機算法,基于隨機的初值,聚類結果也隨著初值變化,聚類結果的不確定性在一定程度上影響了聚類結果在實際應用中的可信度。
對樣本數據進行分類(提取常態模式)時,還會遇到“大數據”的問題。隨著信息技術的高速發展,人們積累的數據量急劇增長,如何從海量的數據中提取有用的知識成為當務之急。經過清洗的已知標簽樣本數據匯總到中央數據庫。由于樣本量巨大,形成了維數大、規模大、復雜性大的大數據形態,要挖掘其中有意義的知識和內容以指導實際生產和具體應用,需要首先進行降維處理,即維數約簡,它一方面可以解決“維數災難”,緩解大數據中“信息豐富但知識貧乏”的問題,降低計算的復雜度;另一方面可以引導人們更好地認識和理解數據。數據降維的方法很多,例如:根據數據本身的特性,可以分為線性降維和非線性降維兩種;根據是否考慮和利用數據的監督信息,可以分為無監督降維、有監督降維和半監督降維三種;根據是否需要保持數據的結構,可以分為全局保持降維、局部保持降維和全局與局部保持一致降維等。
在降維過程中,本專利旨在采用完全客觀的算法來選擇對樣本的已知標簽具有較大影響力的維度。也就是說,這些在降維中被保留下來的維度不是主觀確定的,不依賴于經驗模型。
發明內容
針對現有技術中存在的技術問題,本發明的目的在于提供一種基于聚類的大數據常態模式提取方法及系統,本發明的常態模式劃分方法是基于聚類分析的結果,具有較強的客觀性,又有效的克服了主流聚類算法的不足。
本發明通過對樣本數據進行聚類分析,將所得“簇”作為已知的分類標準(標簽),提取屬性值辨識度、屬性辨識度、屬性值重要性、屬性重要性等“屬性對相似性的影響力”的四項指標,再使用全新的常態模式提取方法獲取“常態模式”,并給出常態模式的命名方法。
本發明的技術方案為:
一種基于聚類的大數據常態模式提取方法,其步驟為:
1)中央服務器從各終端服務器采集樣本數據,得到一總樣本數據集;
2)從該總樣本數據集中抽取若干樣本,得到一抽樣樣本集合并對其進行聚類分析,得到若干簇;將聚類得到的簇作為樣本的標簽,對樣本進行標注,然后根據選取的屬性降維指標計算所述抽樣樣本集合中已標注樣本每一屬性的屬性值辨識度、屬性辨識度和或屬性值重要性、屬性重要性;
3)分別根據屬性值辨識度、屬性辨識度和或屬性值重要性、屬性重要性對屬性進行排序,選取若干屬性作為大數據降維后保留的屬性;
4)對屬性降維后的全體樣本數據進行聚類,將聚類得到的簇作為樣本的標簽,對樣本進行標注;
5)根據選取的屬性劃分指標計算步驟4)中已標注樣本每一屬性的屬性值辨識度、屬性辨識度和或屬性值重要性、屬性重要性,然后對計算結果進行排序選取若干屬性特征對該總樣本數據集進行劃分,將劃分結果作為常態模式;
其中,屬性值辨識度的計算方法為:選取樣本一屬性i的一屬性值a,計算具有該屬性值a的樣本屬于標簽j的條件概率值,以及未增加該屬性值條件時樣本屬于該標簽j的概率值;將所述條件概率值與所述概率值的差值作為該屬性值a對于該標簽j的屬性值辨識度;將該屬性值a對于所有標簽的屬性值辨識度的平方平均數作為該屬性值a的屬性值辨識度;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國軟件與技術服務股份有限公司,未經中國軟件與技術服務股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410356957.X/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





