[發(fā)明專利]一種基于大數(shù)據(jù)的數(shù)據(jù)分析方法在審
| 申請?zhí)枺?/td> | 201510036086.8 | 申請日: | 2015-01-23 |
| 公開(公告)號: | CN104573063A | 公開(公告)日: | 2015-04-29 |
| 發(fā)明(設計)人: | 謝叔陽 | 申請(專利權)人: | 四川中科騰信科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京天奇智新知識產(chǎn)權代理有限公司 11340 | 代理人: | 楊春 |
| 地址: | 610041 四川省成都市高*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數(shù)據(jù) 分析 方法 | ||
技術領域
本發(fā)明涉及數(shù)據(jù)處理,特別涉及一種大數(shù)據(jù)分析和挖掘方法。
背景技術
面對增長迅速的數(shù)據(jù)量,如何從數(shù)據(jù)中發(fā)掘有用的信息成為當前大多數(shù)數(shù)據(jù)挖掘系統(tǒng)面臨的問題。大數(shù)據(jù)集的數(shù)據(jù)分析與挖掘系統(tǒng)需要具備的特性包括(1)數(shù)據(jù)適應性:系統(tǒng)可接受多種類型的數(shù)據(jù),避免系統(tǒng)對存儲的數(shù)據(jù)的類型、結構和數(shù)據(jù)完整性的強要求,從而避免通常的數(shù)據(jù)倉庫對數(shù)據(jù)的強要求帶來的問題;(2)敏捷性:系統(tǒng)能夠適應數(shù)據(jù)遞增且更新頻繁的應用場景;(3)分析深度:提供對數(shù)據(jù)分析多角度、多切面的分析,可便捷得加入復雜的概率統(tǒng)計和機器學習算法,適應多類型數(shù)據(jù)分析需求。
關系型數(shù)據(jù)庫通常提供進行數(shù)據(jù)分析與挖掘的數(shù)據(jù)分析工具,然而,以關系型數(shù)據(jù)庫為基礎的數(shù)據(jù)挖掘系統(tǒng)存在以下幾個弊端:
(1)在龐大數(shù)據(jù)量背景下,數(shù)據(jù)遷移所帶來的時間損失巨大,在此種情況下,把計算力移向數(shù)據(jù)是比數(shù)據(jù)遷移到計算系統(tǒng)更有效率的方法;
(2)只能通過抽樣的方式使得數(shù)據(jù)量縮小到內(nèi)存可接受的范圍內(nèi),數(shù)據(jù)的抽樣通常會導致數(shù)據(jù)信息量丟失;
(3)不斷增加的數(shù)據(jù)很容易造成數(shù)據(jù)庫索引的不斷增加,索引增加的滯后性容易導致數(shù)據(jù)庫的處理速度降低。
因此數(shù)據(jù)庫系統(tǒng)在數(shù)據(jù)處理效率和可處理的數(shù)據(jù)量無法滿足當前大數(shù)據(jù)量的爆炸式增長。針對相關技術中所存在的上述問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
為解決上述現(xiàn)有技術所存在的問題,本發(fā)明提出了一種基于大數(shù)據(jù)的數(shù)據(jù)分析方法,包括:
通過可視化的界面接收用戶定義的數(shù)據(jù)挖掘過程,并配置相關的組件信息,實現(xiàn)圖形化的數(shù)據(jù)流程處理;生成符合Hadoop規(guī)范的代碼,用戶通過參數(shù)配置界面配置需用戶定義的參數(shù);然后將用戶定義的數(shù)據(jù)挖掘過程模型轉換成可在Hadoop上運行的代碼,該轉換包括過程模型分析、依賴關系分析、代碼模板解析;將數(shù)據(jù)挖掘組件連接起來構成數(shù)據(jù)挖掘過程,所述數(shù)據(jù)挖掘組件封裝不同的數(shù)據(jù)操作邏輯,分成數(shù)據(jù)挖掘算法組件、連接器組件、用戶自定義組件;以Hadoop提供的框架作為數(shù)據(jù)挖掘過程執(zhí)行平臺,向執(zhí)行框架提交代碼,運用云平臺的并行計算能力實現(xiàn)挖掘過程的并行化。
優(yōu)選地,該方法還包括:
用戶通過數(shù)據(jù)挖掘過程模型組件來定義符合過程邏輯模型的數(shù)據(jù)挖掘過程,并實現(xiàn)邏輯模型到物理模型的轉換,挖掘過程中的每一步數(shù)據(jù)操作被抽象成一個數(shù)據(jù)操作節(jié)點,稱為邏輯節(jié)點,通過解析邏輯節(jié)點的輸入輸出信息、用戶配置參數(shù)、節(jié)點對應的系統(tǒng)組件元信息來構建物理過程模型,邏輯模型經(jīng)過系統(tǒng)的后臺解析轉換成物理模型后才能執(zhí)行;
用戶通過模型的圖形化方式來實現(xiàn)邏輯模型的定義,數(shù)據(jù)挖掘過程包括數(shù)據(jù)收集、數(shù)據(jù)預處理、數(shù)據(jù)挖掘和結果展示,其中在數(shù)據(jù)收集中定義一個或多個數(shù)據(jù)來源,并在執(zhí)行過程中完成數(shù)據(jù)提取工作,通過定義不同的連接器組件來實現(xiàn)對不同數(shù)據(jù)源的數(shù)據(jù)提取;在數(shù)據(jù)預處理中包括數(shù)據(jù)清理、數(shù)據(jù)集成和數(shù)據(jù)選擇,定義過濾、正則匹配組件來實現(xiàn)預處理;運用數(shù)據(jù)挖掘算法對經(jīng)過預處理的數(shù)據(jù)執(zhí)行挖掘算法,最后將執(zhí)行結果以數(shù)據(jù)或圖表的形式展示給用戶。
優(yōu)選地,該方法還包括:利用代碼生成引擎完成從邏輯模型到可由執(zhí)行框架執(zhí)行的可執(zhí)行代碼的轉換過程,該轉換分成模型解析與代碼生成;
所述模型解析包括解析邏輯模型,根據(jù)數(shù)據(jù)挖掘過程模型定義的節(jié)點信息來劃分操作子流程,以數(shù)據(jù)挖掘操作節(jié)點為劃分點,以子流程構造任務集,并根據(jù)流程的連接順序來定義子流程之間的依賴關系;
所述代碼生成,根據(jù)以上模型解析得到的子流程以及依賴關系生成代碼,數(shù)據(jù)挖掘組件接收與其相連組件的輸入輸出類型信息,根據(jù)輸入輸出類型信息和組件代碼模板,生成相應的代碼,并將處理后的輸出按照輸出模式存儲,其中組件模型包含組件ID、代碼模板、用戶定義參數(shù)類與組件元信息,組件ID用于標識組件的唯一性;代碼模板包括了與執(zhí)行平臺相關的模板信息;用戶自定義參數(shù)類是用戶輸入的參數(shù);組件描述元信息包含組件描述、可視化圖標、模板路徑數(shù)據(jù);
所述數(shù)據(jù)挖掘過程模型被轉換成Java可執(zhí)行代碼,最后生成一個以用戶定義的數(shù)據(jù)挖掘過程名稱為類名的主類來控制整個數(shù)據(jù)挖掘過程,并通過配置模板提供的信息按照模型解析獲得的任務依賴關系構建挖掘代碼。
本發(fā)明相比現(xiàn)有技術,具有以下優(yōu)點:
通過定義組件模型,用戶可快速定義數(shù)據(jù)挖掘過程;實現(xiàn)對數(shù)據(jù)挖掘過程的可視化定義,以及挖掘過程到可執(zhí)行代碼的轉換;實現(xiàn)了對多種數(shù)據(jù)存儲系統(tǒng)的數(shù)據(jù)訪問。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川中科騰信科技有限公司;,未經(jīng)四川中科騰信科技有限公司;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510036086.8/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結構
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





