[發(fā)明專利]一種大數(shù)據(jù)挖掘系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201710799148.X | 申請(qǐng)日: | 2017-09-07 |
| 公開(公告)號(hào): | CN107577771B | 公開(公告)日: | 2020-02-07 |
| 發(fā)明(設(shè)計(jì))人: | 白云飛 | 申請(qǐng)(專利權(quán))人: | 北京海融興通信息安全技術(shù)有限公司 |
| 主分類號(hào): | G06F16/2458 | 分類號(hào): | G06F16/2458 |
| 代理公司: | 11392 北京衛(wèi)平智業(yè)專利代理事務(wù)所(普通合伙) | 代理人: | 謝建玲;郝亮 |
| 地址: | 100091 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 挖掘 系統(tǒng) | ||
1.一種大數(shù)據(jù)挖掘系統(tǒng),其特征在于:包括大數(shù)據(jù)存儲(chǔ)模塊、數(shù)據(jù)提取模塊、數(shù)據(jù)檢查模塊、數(shù)據(jù)挖掘模塊、結(jié)果驗(yàn)證模塊、數(shù)據(jù)報(bào)告模塊和日志模塊;
所述數(shù)據(jù)提取模塊用于根據(jù)用戶需求、通過回歸統(tǒng)計(jì)分析從大數(shù)據(jù)存儲(chǔ)模塊中提取符合用戶需求的數(shù)據(jù)集,將數(shù)據(jù)集發(fā)送給數(shù)據(jù)檢查模塊;
所述數(shù)據(jù)檢查模塊用于根據(jù)用戶需求檢查數(shù)據(jù)集,并對(duì)數(shù)據(jù)集進(jìn)行過濾,去除數(shù)據(jù)集中錯(cuò)誤的或不一致的數(shù)據(jù),過濾后的有效數(shù)據(jù)構(gòu)成有效數(shù)據(jù)集,將有效數(shù)據(jù)集發(fā)送給數(shù)據(jù)挖掘模塊;
所述數(shù)據(jù)挖掘模塊用于采用挖掘算法對(duì)有效數(shù)據(jù)集進(jìn)行挖掘分析,獲得數(shù)據(jù)挖掘結(jié)果,將數(shù)據(jù)挖掘結(jié)果發(fā)送給結(jié)果驗(yàn)證模塊;
所述結(jié)果驗(yàn)證模塊用于驗(yàn)證數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性,準(zhǔn)確性低于用戶預(yù)設(shè)閾值時(shí),返回?cái)?shù)據(jù)提取模塊,重新進(jìn)行數(shù)據(jù)提取;準(zhǔn)確性達(dá)到或超過用戶預(yù)設(shè)閾值時(shí),將數(shù)據(jù)挖掘結(jié)果發(fā)送給數(shù)據(jù)報(bào)告模塊;
所述數(shù)據(jù)報(bào)告模塊用于根據(jù)數(shù)據(jù)挖掘結(jié)果生成數(shù)據(jù)報(bào)告;
所述日志模塊用于記錄整個(gè)數(shù)據(jù)挖掘過程中產(chǎn)生的日志數(shù)據(jù);
所述數(shù)據(jù)挖掘模塊內(nèi)嵌有敏感關(guān)聯(lián)規(guī)則隱藏算法模塊、決策樹挖掘分類算法模塊和K-Means聚類算法模塊,采用這三種算法分別對(duì)有效數(shù)據(jù)集進(jìn)行挖掘分析;
所述數(shù)據(jù)挖掘模塊進(jìn)行數(shù)據(jù)挖掘的流程如下:
步驟1,采用敏感關(guān)聯(lián)規(guī)則隱藏算法對(duì)有效數(shù)據(jù)集進(jìn)行挖掘分析,獲得數(shù)據(jù)挖掘結(jié)果Ⅰ;
步驟2,采用決策樹挖掘分類算法對(duì)有效數(shù)據(jù)集進(jìn)行挖掘分析,獲得數(shù)據(jù)挖掘結(jié)果Ⅱ;
步驟3,采用K-Means聚類算法對(duì)有效數(shù)據(jù)集進(jìn)行挖掘分析,獲得數(shù)據(jù)挖掘結(jié)果Ⅲ;
步驟4,數(shù)據(jù)挖掘結(jié)果Ⅰ、數(shù)據(jù)挖掘結(jié)果Ⅱ和數(shù)據(jù)挖掘結(jié)果Ⅲ同時(shí)發(fā)送給結(jié)果驗(yàn)證模塊,進(jìn)行準(zhǔn)確性驗(yàn)證;
步驟5,選取準(zhǔn)確率最高的數(shù)據(jù)挖掘結(jié)果發(fā)送給數(shù)據(jù)報(bào)告模塊;
步驟1中采用敏感關(guān)聯(lián)規(guī)則隱藏算法進(jìn)行挖掘分析的具體過程如下:
(1)找出有效數(shù)據(jù)集中各數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)性,根據(jù)各數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)性預(yù)設(shè)最小支持度閾值和最小置信度閾值;
(2)根據(jù)Partition算法,挖掘出有效數(shù)據(jù)集中滿足最小支持度閾值的所有數(shù)據(jù)項(xiàng),構(gòu)成頻繁項(xiàng)集;
(3)從頻繁項(xiàng)集中挖掘出所有滿足最小置信度閾值的數(shù)據(jù)項(xiàng),生成強(qiáng)關(guān)聯(lián)規(guī)則集R;
(4)根據(jù)需求預(yù)設(shè)敏感規(guī)則集RH,通過清理算法降低敏感規(guī)則集RH中數(shù)據(jù)項(xiàng)的支持度和置信度,使之低于最小支持度閾值和最小置信度閾值,從而實(shí)現(xiàn)對(duì)敏感規(guī)則的隱藏。
2.根據(jù)權(quán)利要求1所述的大數(shù)據(jù)挖掘系統(tǒng),其特征在于:所述大數(shù)據(jù)存儲(chǔ)模塊包括存儲(chǔ)層、管理層、應(yīng)用接口層和訪問層。
3.根據(jù)權(quán)利要求2所述的大數(shù)據(jù)挖掘系統(tǒng),其特征在于:所述存儲(chǔ)層為滿足FC協(xié)議、iSCSI協(xié)議和NAS協(xié)議的存儲(chǔ)設(shè)備;
所述管理層是大數(shù)據(jù)存儲(chǔ)模塊的核心,用于通過集群、分布式文件系統(tǒng)和網(wǎng)格計(jì)算實(shí)現(xiàn)多存儲(chǔ)設(shè)備間的協(xié)同工作;
所述應(yīng)用接口層用于提供各種應(yīng)用服務(wù)接口;
所述訪問層用于控制數(shù)據(jù)提取模塊的訪問權(quán)限。
4.根據(jù)權(quán)利要求3所述的大數(shù)據(jù)挖掘系統(tǒng),其特征在于:所述數(shù)據(jù)提取模塊接收用戶需求,向大數(shù)據(jù)存儲(chǔ)模塊發(fā)送訪問請(qǐng)求,大數(shù)據(jù)存儲(chǔ)模塊中的訪問層對(duì)數(shù)據(jù)提取模塊進(jìn)行權(quán)限認(rèn)證,認(rèn)證通過后,大數(shù)據(jù)存儲(chǔ)模塊將相應(yīng)數(shù)據(jù)發(fā)送給數(shù)據(jù)提取模塊。
5.根據(jù)權(quán)利要求1所述的大數(shù)據(jù)挖掘系統(tǒng),其特征在于:所述數(shù)據(jù)檢查模塊根據(jù)用戶需求檢查數(shù)據(jù)集的完整性和一致性,當(dāng)數(shù)據(jù)集中的數(shù)據(jù)不完整時(shí),返回?cái)?shù)據(jù)提取模塊繼續(xù)進(jìn)行數(shù)據(jù)提取。
6.根據(jù)權(quán)利要求1所述的大數(shù)據(jù)挖掘系統(tǒng),其特征在于:所述決策樹挖掘分類算法為基于Hadoop的混合并行共享決策樹挖掘分類算法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京海融興通信息安全技術(shù)有限公司,未經(jīng)北京海融興通信息安全技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710799148.X/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





