[發(fā)明專利]一種面向分布式數(shù)據(jù)挖掘工作流的調(diào)度系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110650899.1 | 申請日: | 2021-06-10 |
| 公開(公告)號: | CN113553353A | 公開(公告)日: | 2021-10-26 |
| 發(fā)明(設計)人: | 李暉;李一水;周彧 | 申請(專利權(quán))人: | 貴州優(yōu)聯(lián)博睿科技有限公司 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06F16/25;G06F16/27;G06F9/445;G06Q10/04;G06Q10/06;G06Q10/10 |
| 代理公司: | 北京華創(chuàng)智道知識產(chǎn)權(quán)代理事務所(普通合伙) 11888 | 代理人: | 彭隨麗 |
| 地址: | 550081 貴州省貴陽*** | 國省代碼: | 貴州;52 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 分布式 數(shù)據(jù) 挖掘 工作流 調(diào)度 系統(tǒng) | ||
1.一種面向分布式數(shù)據(jù)挖掘工作流的調(diào)度系統(tǒng),其特征在于,包括功能模塊、搜索模塊、控件模塊、畫布模塊,所述功能模塊用于實現(xiàn)用戶通過功能區(qū)對任務進行的操作,包括新建、保存、打開工作流,交互式執(zhí)行工作流,刪除控件操作;
所述搜索模塊用于實現(xiàn)用戶通過搜索區(qū)對控件搜索,用戶在搜索欄中輸入控件名稱,快速查找出所需要的控件;
所述控件模塊用于提供常用的數(shù)據(jù)加載、數(shù)據(jù)預處理和數(shù)據(jù)挖掘控件,用戶通過控件區(qū)選擇需要的控件;
所述畫布模塊對應于構(gòu)建數(shù)據(jù)挖掘工作流任務的畫布區(qū),通過鼠標選中控件區(qū)的控件拖拽到畫布,點擊控件相對應的輸入和輸出則出現(xiàn)一條曲線將兩個控件連接在一起,控件兩兩相連即構(gòu)建一個數(shù)據(jù)挖掘工作流任務。
2.根據(jù)權(quán)利要求1所述的面向分布式數(shù)據(jù)挖掘工作流的調(diào)度系統(tǒng),其特征在于,所述數(shù)據(jù)挖掘工作流的調(diào)度系統(tǒng)采用Workflow工作流框架來實現(xiàn)數(shù)據(jù)挖掘任務自動化執(zhí)行。
3.根據(jù)權(quán)利要求2所述的面向分布式數(shù)據(jù)挖掘工作流的調(diào)度系統(tǒng),其特征在于,所述Workflow工作流框架包含以下表結(jié)構(gòu)信息:
控件配置表,所述控件配置表用于存放配置的相關信息;
控件輸入端配置表,所述控件輸入端配置表用于存放控件輸入端配置的相關信息;
控件輸出端配置表,所述控件輸出端配置表用于存放控件輸出端配置的相關信息;
目錄表,所述目錄表用于存放控件目錄的相關信息;
控件表,所述控件表用于存放控件的相關信息;
工作流表,所述工作流表用于存放工作流的相關信息。
4.根據(jù)權(quán)利要求1所述的面向分布式數(shù)據(jù)挖掘工作流的調(diào)度系統(tǒng),其特征在于,所述搜索模塊支持模糊搜索,在搜索欄中輸入K,控件區(qū)中可查找出與K有關的控件。
5.根據(jù)權(quán)利要求4所述的面向分布式數(shù)據(jù)挖掘工作流的調(diào)度系統(tǒng),其特征在于,所述控件包括:
加載數(shù)據(jù)集,其用于選擇數(shù)據(jù)集,加載數(shù)據(jù)集頁面會顯示該數(shù)據(jù)集的記錄數(shù)、屬性列及屬性列的類型;
抽樣,其可設置分層屬性、抽樣比例參數(shù);
拆分數(shù)據(jù),其將數(shù)據(jù)集分為訓練集和測試集,可設置拆分比例、分層抽樣分層屬性、是否可重復抽樣,輸出分為兩部分:train為訓練集、test為測試集;
選擇屬性,其可設置特征屬性、分組屬性、標記屬性;
線性回歸,其可設置算法名稱;
邏輯回歸,其可設置優(yōu)化器、迭代次數(shù);
K-Means,其可設置簇數(shù)量、最大迭代次數(shù)、最小質(zhì)心、聚合函數(shù)參數(shù);
支持向量積,其可設置SVM類型、核函數(shù)、初始學習率數(shù);
決策樹,其可設置樹的最大深度、最小分支節(jié)點數(shù)參數(shù);
隨機森林,其可設置樹數(shù)量、樹的最大深度、最小分支節(jié)點數(shù)參數(shù);
預測,其連接訓練好的模型和測試集,對測試集進行預測以表格的形式展示預測結(jié)果;
數(shù)據(jù)查看器:以表格的形式展示數(shù)據(jù)。
6.根據(jù)權(quán)利要求1所述的面向分布式數(shù)據(jù)挖掘工作流的調(diào)度系統(tǒng),其特征在于,還包括副調(diào)度系統(tǒng),所述副調(diào)度系統(tǒng)部署在基于KVM虛擬機搭建的集群環(huán)境中。
7.根據(jù)權(quán)利要求6所述的面向分布式數(shù)據(jù)挖掘工作流的調(diào)度系統(tǒng),其特征在于,所述副調(diào)度系統(tǒng)包括:前端模塊、任務調(diào)度模塊和任務執(zhí)行模塊,所述前端模塊用于以默認參數(shù)運行的方式執(zhí)行數(shù)據(jù)挖掘工作流任務;所述任務調(diào)度模塊用于從數(shù)據(jù)庫中獲取并行子任務,再根據(jù)LTF調(diào)度算法對子任務進行調(diào)度;所述任務執(zhí)行模塊用于從任務隊列中獲取子任務并將其交給Greenplum集群執(zhí)行。
8.根據(jù)權(quán)利要求7所述的面向分布式數(shù)據(jù)挖掘工作流的調(diào)度系統(tǒng),其特征在于,所述Greenplum集群執(zhí)行步驟如下:集群中的主節(jié)點根據(jù)群集資源隊列的信息,依次從任務調(diào)度模塊接收任務,并任務分配系統(tǒng)資源,生成任務執(zhí)行計劃分發(fā)到各子節(jié)點,子節(jié)點負責任務的執(zhí)行。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于貴州優(yōu)聯(lián)博睿科技有限公司,未經(jīng)貴州優(yōu)聯(lián)博睿科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110650899.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





