[發(fā)明專利]一種多源異構(gòu)行業(yè)領(lǐng)域大數(shù)據(jù)處理全鏈路解決方案在審
| 申請?zhí)枺?/td> | 201710376130.9 | 申請日: | 2017-05-25 |
| 公開(公告)號: | CN107193967A | 公開(公告)日: | 2017-09-22 |
| 發(fā)明(設(shè)計(jì))人: | 張瑩;羅永洪;楊志帆;史慧珂;宋珂慧;袁曉潔 | 申請(專利權(quán))人: | 南開大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 天津佳盟知識產(chǎn)權(quán)代理有限公司12002 | 代理人: | 李益書 |
| 地址: | 300071*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 多源異構(gòu) 行業(yè) 領(lǐng)域 數(shù)據(jù)處理 全鏈路 解決方案 | ||
1.一種多源異構(gòu)行業(yè)領(lǐng)域大數(shù)據(jù)處理全鏈路解決方案,所述解決方案詳細(xì)步驟如下:
第1、歸納行業(yè)領(lǐng)域大數(shù)據(jù)處理流程
總結(jié)現(xiàn)有的大數(shù)據(jù)處理平臺,在傳統(tǒng)大數(shù)據(jù)處理基本流程基礎(chǔ)上,結(jié)合行業(yè)領(lǐng)域大數(shù)據(jù)的可視性和真實(shí)性特點(diǎn)和領(lǐng)域應(yīng)用需求,探索出面向行業(yè)領(lǐng)域大數(shù)據(jù)處理的最基本流程;
第2、設(shè)計(jì)三層數(shù)據(jù)存儲模型
定義1:用于選取數(shù)據(jù)存儲模型的指標(biāo)具體定義如下:
①.查詢代價(jià):查詢代價(jià)是指在數(shù)據(jù)存儲模型中對單位數(shù)據(jù)進(jìn)行查詢所耗費(fèi)的時(shí)間;
②.插入代價(jià):插入代價(jià)是指在數(shù)據(jù)存儲模型中對單位數(shù)據(jù)進(jìn)行插入操作所耗費(fèi)的時(shí)間;
③.刪除代價(jià):刪除代價(jià)是指在數(shù)據(jù)存儲模型中刪除單位數(shù)據(jù)所耗費(fèi)的時(shí)間;
④.壓縮效率:壓縮效率是指數(shù)據(jù)壓縮后的大小和壓縮前的大小之比;
在選取每層數(shù)據(jù)存儲模型時(shí),每個(gè)指標(biāo)對每層數(shù)據(jù)存儲模型的影響程度是不一樣的,通過分析這些指標(biāo)對每層數(shù)據(jù)存儲模型的影響大小來選取合適的數(shù)據(jù)存儲工具以構(gòu)建三層數(shù)據(jù)存儲模型;
第2.1、設(shè)計(jì)第一層數(shù)據(jù)源層存儲模型;數(shù)據(jù)源層用于存儲抽取自眾多外部數(shù)據(jù)源的數(shù)據(jù);
第2.2、設(shè)計(jì)第二層中間數(shù)據(jù)層存儲模型;中間數(shù)據(jù)層用于存儲在行業(yè)領(lǐng)域日常使用中涉及的報(bào)表;中間數(shù)據(jù)層存儲模型分為基礎(chǔ)數(shù)據(jù)層表和數(shù)據(jù)集市層表;在中間數(shù)據(jù)層存儲模型中,將由數(shù)據(jù)源層存儲模型經(jīng)過數(shù)據(jù)集成產(chǎn)生的表稱為基礎(chǔ)數(shù)據(jù)層表,這些內(nèi)容包含更多內(nèi)容,面向廣泛的需求;將由基礎(chǔ)數(shù)據(jù)層表經(jīng)過ETL(Extraction,Transormation and Loading),即數(shù)據(jù)抽取、轉(zhuǎn)化和裝載產(chǎn)生的表稱為數(shù)據(jù)集市層表,這些內(nèi)容往往涉及某一具體領(lǐng)域,為某一具體部門服務(wù);
第2.3、設(shè)計(jì)第三層結(jié)果表示層存儲模型;結(jié)果表示層用于存儲中間數(shù)據(jù)層經(jīng)過數(shù)據(jù)統(tǒng)計(jì)分析或數(shù)據(jù)挖掘分析產(chǎn)生的結(jié)果表;
第3、提出面向管理決策的多層次多維度數(shù)據(jù)分析與知識發(fā)現(xiàn)方案
第3.1、構(gòu)建多層次多維度分析模型;
定義2:多層次多維度分析模型被定義成一個(gè)四元組的形式,Dimension=(Subject,Time,Attributes,Rules),四元組分別是:
①.主體元(Subject),為個(gè)體、群體或全體;其中個(gè)體指的是某一具體事物,大部分情況下指的是某一特定用戶;群體指的是一群事物,這些事物往往具有某些共同特征,全體指的是所有事物的全集;
②.時(shí)間元(Time),為年、月、日、小時(shí)或分鐘的不同粒度,能夠按照不同時(shí)間粒度進(jìn)行統(tǒng)計(jì)分析;
③.屬性元(Attributes),存在單屬性行為分析和多屬性行為分析;單屬性分析的意義在于分析某一屬性的價(jià)值,而多屬性分析則側(cè)重于分析多個(gè)屬性之間的聯(lián)系和在多屬性共同作用下對事物的影響;
④.規(guī)則元(Rules),表示對屬性元、時(shí)間元組施加的規(guī)則,這些規(guī)則是統(tǒng)計(jì)分析規(guī)則,或是數(shù)據(jù)挖掘算法;
第3.2、設(shè)計(jì)基于Spark的分布式?jīng)Q策知識發(fā)現(xiàn)方法;設(shè)計(jì)分布式數(shù)據(jù)挖掘算法,使之能夠和分布式計(jì)算平臺Spark進(jìn)行交互;
第4、構(gòu)建行業(yè)領(lǐng)域大數(shù)據(jù)處理分析平臺
第4.1、數(shù)據(jù)集成實(shí)現(xiàn);數(shù)據(jù)集成模塊主要完成從數(shù)據(jù)源導(dǎo)入數(shù)據(jù)源層存儲模型、將數(shù)據(jù)從數(shù)據(jù)源層存儲模型通過ETL和清洗融合導(dǎo)入中間數(shù)據(jù)層存儲模型中的基礎(chǔ)數(shù)據(jù)層表、將數(shù)據(jù)從中間數(shù)據(jù)層的基礎(chǔ)數(shù)據(jù)層表通過ETL導(dǎo)入中間數(shù)據(jù)層的數(shù)據(jù)集市層表的功能;
第4.2、數(shù)據(jù)存儲模型具體實(shí)現(xiàn);根據(jù)第2步設(shè)計(jì)得到的三層數(shù)據(jù)存儲模型,選取數(shù)據(jù)存儲工具構(gòu)建三層數(shù)據(jù)存儲架構(gòu);
第4.3、數(shù)據(jù)分析實(shí)現(xiàn);使用基于Spark的分布式計(jì)算框架搭建數(shù)據(jù)分析模塊;
第4.4、數(shù)據(jù)可視分析;采用HTML5,echarts技術(shù)進(jìn)行數(shù)據(jù)可視分析;
第4.5、任務(wù)流管理;使用上下游機(jī)制和基于任務(wù)隊(duì)列的生產(chǎn)者消費(fèi)者模型并行任務(wù)流調(diào)度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南開大學(xué),未經(jīng)南開大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710376130.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種帶有醒酒臺的移動式紅酒柜
- 下一篇:一種智能開合的床頭柜
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 多源異構(gòu)數(shù)據(jù)高效匯聚存取架構(gòu)系統(tǒng)
- 用于電網(wǎng)的多源異構(gòu)數(shù)據(jù)處理方法及裝置
- 一種配用電數(shù)據(jù)的處理方法及系統(tǒng)
- 一種面向水下探測的多源異構(gòu)數(shù)據(jù)預(yù)處理方法及系統(tǒng)
- 一種基于深度學(xué)習(xí)的綜采工作面多源異構(gòu)數(shù)據(jù)融合方法
- 基于業(yè)務(wù)規(guī)則的多源異構(gòu)數(shù)據(jù)表示與分發(fā)方法、裝置
- 一種基于邊緣計(jì)算的電力異構(gòu)數(shù)據(jù)處理方法
- 適用于多源異構(gòu)電網(wǎng)的運(yùn)行方式拓?fù)浣Y(jié)構(gòu)特征提取方法
- 一種多源異構(gòu)數(shù)據(jù)關(guān)聯(lián)方法
- 一種多源異構(gòu)數(shù)據(jù)的描述方法、解析方法及裝置
- 運(yùn)動行業(yè)卡
- 支持行業(yè)應(yīng)用空中下載的方法、系統(tǒng)及裝置
- 行業(yè)特征詞確定方法和裝置及行業(yè)文本聚類方法和服務(wù)器
- 機(jī)箱(行業(yè)版)
- 鐵路行業(yè)服
- 酒精行業(yè)及淀粉行業(yè)乏汽余熱回收裝置
- 文本分類方法、系統(tǒng)、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 基于行業(yè)畫像的行業(yè)利潤預(yù)測方法、系統(tǒng)、介質(zhì)及終端
- 一種行業(yè)主體審核方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種選擇目標(biāo)行業(yè)方法及系統(tǒng)
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計(jì)算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





