[發明專利]一種基于大數據的分析訓練平臺在審
| 申請號: | 201711428840.8 | 申請日: | 2017-12-26 |
| 公開(公告)號: | CN108170770A | 公開(公告)日: | 2018-06-15 |
| 發明(設計)人: | 呂雪嶺;黃波士;呂曉燕;王飛雁;呂曉超;朱飛 | 申請(專利權)人: | 山東聯科云計算股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250101 山東省濟南市高新區*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 服務模塊 加載模塊 數據抽取 訓練平臺 大數據 數據處理單元 應用程序數據 集中式部署 企業數據源 數據庫文件 數據源信息 自動化服務 分析文件 集成服務 平面文件 數據集成 數據加載 數據模型 統計服務 統計計算 頁面設計 用戶管理 自動更新 組件模塊 管理器 瀏覽器 轉換 調用 引擎 管理 分析 創建 發布 部署 | ||
1.一種基于大數據的分析訓練平臺,其特征在于,包括以下模塊:
Web分析服務模塊,用于發布和分析結果,基于瀏覽器的頁面設計;
自動化服務組件模塊,數據任務的調用與自動更新;
管理和集成服務模塊,數據集成、用戶管理、分析文件管理、數據源信息管理等集中式部署相關功能;
統計服務模塊,提供先進的統計計算引擎與部署管理器;
應用程序數據服務模塊,與企業數據源直接集成:SAP R/3、SAP B/W、用友ERP、OracleEBS、金蝶ERP;
還包括數據抽取轉換加載模塊;
所述的數據抽取轉換加載模塊包括平面文件數據處理單元、數據庫文件數據加載單元以及創建數據模型單元;
所述的平面文件數據處理單元包括以下步驟:
S1.1:平面txt文件應用
(1)選擇“文件”->“添加數據表”->“添加”,進行數據加載;
(2)添加分析文本文件;
(3)打開分析文件;
(4)點擊“確定”,導入文本;
S1.2:平面excel文件應用
(1)選擇“文件”->“添加數據表”->“添加”,進行數據加載;
(2)添加Excel分析文件;
(3)打開Excel分析文件;
(4)點擊“確定”,導入Excel分析文件;
S1.3:轉換數據步驟:
(1)選擇“文件”—“替換數據表”或選擇“插入”—“行”或選擇“插入”—“列”;
(2)選擇轉換方式;
(3)添加數據表時可將多種規范化方法寫為表達式或用作轉換步驟;
(4)轉換可在添加數據的對話框中應用,“添加數據表”對話框、或者從外部數據工具的插入列或行中;單擊“轉換”—“規范化”—“添加”以顯示以下所述的控件;
S1.4:對數據進行預處理,計算列,規范化處理操作;
S1.5:轉置數據
(1)選擇“轉換”—“轉置”—“添加”進行數據轉置;
(2)行標識符:所選標識列或層級中的每個唯一值會在生成表中形成一行;
(3)列標題:所選類別列或層級中的每個唯一值會對所生成數據表中的每個聚合方法形成一個新行;
(4)值和聚合方法:從其計算數據值的列。所生成數據表中的值根據列選擇器菜單中“聚合”下選擇的方法進行計算;
S1.6:逆轉置數據
(1)選擇“轉換”—“逆轉置”—“添加”進行數據逆轉置;
(2)要通過的列:選定的列,其中包含未經轉換而應傳輸到逆轉置數據集的信息;
(3)要轉換的列:選定的列,其中包含要合并到單個列中的值。這些列的列名稱將用作生成的新類別列中的類別值;
(4)類別列名稱:鍵入一個能夠匯總在已選定進行轉換的列中所提供的信息的列名稱;
(5)值列名稱:鍵入一個能夠顯示包含在新值列中的信息類型的列名稱;
所述的數據庫文件數據加載單元包括以下步驟:
S1.7:使用OLE DB打開數據的步驟
(1)選擇“文件”->“添加數據表”->“添加”->“其他”->“數據庫”;
(2)在“打開數據庫”對話框中,單擊以選擇“OleDb Data Provider”;
(3)單擊“配置”;
S1.8:使用ODBC打開數據的步驟
(1)選擇“文件”->“添加數據表”->“添加”->“其他”->“數據庫”;
(2)在“打開數據庫”對話框中,單擊以選擇“Odbc Data Provider”;
(3)單擊“配置”。
所述的創建數據模型單元包括以下步驟:
S1.9:添加數據連接
S1.91:在庫中添加數據源的步驟:
(1)在菜單欄單擊“工具”選擇“管理數據連接”選項,彈出“管理數據連接”對話框;
(2)選擇“添加新”的“數據源”選項,從列表中選擇數據源類型。
(3)根據所選的數據源類型,填寫相應信息,連接至數據源,選擇數據庫并“確定”;
(4)在“數據源對話框”中添加“說明”可選填;
(5)點擊“保存”將顯示“另存為庫項目”對話框;
(6)將新建數據源保存在庫中指定位置。
S1.92:在庫中添加數據連接的步驟:
(1)在菜單欄單擊“工具”選擇“管理數據連接”選項;
(2)選擇“添加新項目”的“數據連接”選項,從列表中選擇“庫中數據的源連接”選項;
(3)根據所選的數據連接類型,填寫相應信息,連接至數據源,選擇數據庫并“確定”,彈出“連接中的視圖”對話框;
(4)在“數據庫中的可用表”列表中,雙擊大數據的分析訓練平臺中使用的表;
(5)完成后,單擊“確定”;彈出“數據連接設置”對話框;所添加的數據表會顯示在“數據表視圖”列表中;
(6)在“連接說明”框內輸入連接說明,方便其他用戶了解使用;
(7)單擊“保存”將數據連接保存在庫中指定位置;
S1.10:在分析中使用數據連接
(1)單擊“文件”中選擇“添加數據表”選項,彈出“添加數據表”對話框;
(2)單擊“添加”連接至“庫中的數據連接”選項,彈出“選擇數據連接”對話框;
(3)在庫中選擇你要使用的數據連接,并“確定”;
(4)在“添加數據表”對話框中,通過選中復選框,選擇要將數據連接中的哪些視圖添加為新數據表;
(5)選擇“加載方法”以及“導入數據表”還是“將數據表保留在外”,也可指定是否按需加載數據;
(6)點擊“確定”;
S1.10:數據連接的編輯
S1.101在庫中編輯數據連接:
(1)選擇“工具”單擊“管理數據連接”;
(2)選擇你要編輯的數據連接,然后單擊“編輯”;將顯示“數據連接設置”對話框;
(3)做出更改并保存數據連接;
S1.102在庫中編輯數據源:
(1)選擇“工具”單擊“管理數據連接”;
(2)選擇你要編輯的數據源,然后單擊“編輯”將顯示“數據源設置”對話框;
(3)做出更改并保存數據源;
S1.11:自定義查詢
(1)使用工具>管理數據連接或文件>添加數據表...創建一個到關系數據庫的新數據連接,然后選擇必要的內容,直到顯示“連接中的視圖”對話框;
(2)在“連接中的視圖”對話框中,選擇“自定義查詢”>“新建自定義查詢”;
(3)在“自定義查詢”中鍵入查詢名稱;
(4)使用所選數據庫的語言鍵入查詢;
(5)單擊驗證;
(6)瀏覽結果列,確保列出所需的所有結果列,并確保它們具有正確的數據類型;
(7)單擊“確定”;
S1.12:創建數據表關系
用于數據連接中建立數據表之間的關系;當數據表之間存在關系,通過關系建立數據模型;
S1.121數據表“關系”的創建:
(1)在“連接中的視圖”中,選擇建立“關系”的數據表;
(2)選擇“關系”->“新建關系”建立關系;
(3)單擊“確定”;
S1.122表“關系”的查看:
加號表示該表已與數據庫中的其他表建立了一種或多種結構關系,若要查看關系結構,單擊加號以展開視圖;
還包括大數據挖掘模塊,所述的大數據挖掘模塊包括:
主成分分析函數prcomp(x,...)
prcomp.default(x,retx=TRUE,center=TRUE,scale.=FALSE,tol=NULL,...)
參數說明:
x默認指定用來分析的數值型或復數矩陣;
retx邏輯變量,指定是否返回旋轉變量;
center邏輯變量,指定是否將變量中心化;
scale.邏輯變量,指定是否將變量標準化;
tol數值型變量,用來指定精度,小于該數值的值將被忽略;
主成分分析是指將多指標化為少數幾個綜合指標的一種統計分析方法,生成的主成分能夠反映原始變量的絕大多數信息,通常為原始變量的線性組合;
主成分信息查詢函數summary.aov(object,intercept=FALSE,split,expand.split=TRUE,keep.zero.df=TRUE,...);
summary函數可提取主成分信息,提供最小值、最大值、四分位數和數值型變量的均值,以及因子向量和邏輯型向量的頻數統計;
參數說明:
object:繼承自類avo的模型對象;
Intercept:此選項僅適用于單層模型.默認情況下。intercept=FALSE
expand.split:是否在層級中繼續使用;
expand.split=TRUE
keep.zero.df:是否保留原有的數據長度;
線性最小二乘擬合lsfit(x,y,wt=NULL,intercept=T,tolerance=1.e-07,yname=NULL)
適合加權最小二乘法多元回歸;返回了解釋變量矩陣的估計系數和殘差以及QR分解的列表;
參數說明:
x向量或解釋變量矩陣;
y響應變量可以是一個矩陣;
wt可選參數,加權最小二乘法的執行權重向量;
intercept是否應使用截距項;
tolerance公差將用于在矩陣分解;
yname用于響應變量的名稱;
因子分析factanal(x,factors,data=NULL,covmat=NULL,n.obs=NA,subset,na.action,start=NULL,scores=c(none,regression,Bartlett),rotation=varimax,control=NULL,...)
factanal函數可以從樣本,樣本方差矩陣或樣本相關矩陣出發對數據做因子分析;
參數說明:
x是由數據構成的矩陣或者數據框。
factors是因子的個數;
data數據幀或矩陣,這僅在x是公式時使用;
covmat是樣本的協方差矩陣或樣本的相關矩陣;
x.scores表示因子得分的方法。rotation表示旋轉,使用的旋轉函數的名稱;
主成分分析預測函數predict.prcomp(object,newdata,...)
通過主成分分析的預測模型,對數據進行預測處理;
參數說明:
object:類prcomp的對象;
newdata:用來分析的數據矩陣或數值;
方差分析計算aov(formula,data=NULL,projections=FALSE,qr=TRUE,contrasts=NULL,...)
指定模型的方差分析的類“aov”,進行擬合差異模型分析;
參數說明:
formula表示方差分析的公式,在單因素方差分析中即為x~A;
data表示做方差分析的數據框;
projections為邏輯值,表示是否返回預測結果;
qr為邏輯標志,表示是否返回正交分解;
回歸預測函數lm(formula,data,weights,subset,na.action,method=qr,model=FALSE,x=FALSE,y=FALSE,contrasts=NULL,...)
lm()函數能返回擬合的結果,它可以用來進行回歸,單地層分析,方差和協方差分析;
參數介紹:
Formula一種擬合模型;
Data一個可選的數據框,列表;
Subset選取的觀測值的子集;
model,x,y,qr邏輯值,擬合對象的模型組件中返回模型框架,矩陣,響應及矩陣的QR分解;
分層聚類函數hclust(d,method=complete,members=NULL)hclust能在距離或相似性結構上執行層次聚類;
參數說明:
d表示距離結構或距離矩陣;
method提供聚類方法的字符串;
complete最長距離法;
members為NULL或d長度的矢量,默認值是所有元素的值都是1;
K均值聚類kmeans(x,centers,iter.max=10,nstart=1,algorithm=c())
K-means聚類算法采用的是將N*P的矩陣X劃分為K個類,使得類內對象之間的距離最大,而類之間的距離最小;
參數說明:
x是由數據構成的矩陣或者數據框;
centers是聚類的個數或者是初始類的中心;
iter.max最大迭代次數缺省時為10;
nstart隨機集合的個數。
algorithm指定用于聚類計算的算法;
關聯分析函數confint(object,parm,level=0.95,...)
confint函數能獲取模型參數的置信區間;
參數說明:
object適合的模型;
parm字符串向量,指所求區間估計的參數;
level表示置信區間的置信水平必須介于0和1之間;
ARIMA時間序列建模函數arima(x,order=c(0,0,0),seasonal=list(order=c(0,0,0),period=NA),xreg=NULL,include.mean=TRUE,transform.pars=TRUE,fixed=NULL,init=NULL,method=c(CSS-ML,ML,CSS),n.cond,optim.method=BFGS,optim.control=list(),kappa=1e+06)
ARIMA模型,是指將非平穩時間序列轉化為平穩時間序列,然后將因變量僅對它的滯后值以及隨機誤差項的現值和滯后值進行回歸所建立的模型;
參數說明:
x數字向量或單變量時間序列;
order整數向量,為模型的階數(p,d,q);
seasonal指定是否為季節模型;fixed指定模型是否為固定模型,若固定參數為0;
xreg時間序列,向量或回歸矩陣;
時間函數time(x,...)
cycle(x,...)
給出時間序列一個周期中的時間點或位置,返回單時間序列或其他對象;
x一個時間序列對象;
時間函數ar(x,aic=TRUE,order.max=NULL,method=c(“yule-walker”,“burg”,“ols”,
“mle”,“yw”),na.action=na.fail,series=deparse(substitute(x)),...)
適合時間序列的自回歸模型,能將自回歸模型擬合為時間序列;
參數說明:
x:從“ts”類繼承的單變量或多變量時間序列;
order.max:自回歸的最大順序適合時間序列;
na.action:處理缺失值的函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東聯科云計算股份有限公司,未經山東聯科云計算股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711428840.8/1.html,轉載請聲明來源鉆瓜專利網。





