[發明專利]一種基于并行化關聯規則算法的教育云應用統計方法有效
| 申請號: | 201510066472.1 | 申請日: | 2015-02-09 |
| 公開(公告)號: | CN104573124B | 公開(公告)日: | 2018-04-10 |
| 發明(設計)人: | 袁東風;王宏賓;劉萍 | 申請(專利權)人: | 山東大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南金迪知識產權代理有限公司37219 | 代理人: | 呂利敏 |
| 地址: | 250100 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 并行 關聯 規則 算法 教育 應用 統計 方法 | ||
技術領域
本發明涉及一種基于并行化關聯規則算法的教育云應用統計方法,屬于計算機統計的技術領域。
背景技術
近年來,隨著互聯網和云計算技術的發展,數據產生的速度和規模大大超過以往。海量數據中蘊含著大量的價值,如何快速有效的利用數據,這是大數據時代我們面臨的一大挑戰。教育云平臺是云計算技術向教育領域的遷移,包括了教育信息化所必需的一切硬件計算資源,這些資源經過虛擬化之后,向用戶提供一個平臺,以云應用的形式提供教育云服務。教育云平臺通過在SaaS(Software as a service)層部署教育云應用,通過網頁瀏覽器或其他客戶端軟件來接入,遠程服務器上的應用通過網絡來運行。隨著教育云應用的不斷豐富,遠程服務器端產生的數據量也在迅速增加。
數據挖掘方法作為處理和利用數據的有效途徑,誕生于上世紀90年代,由于當時數據量在規模和復雜度方面不大,傳統的數據挖掘算法完全可以處理。但是隨著大數據時代的到來,有限的存儲資源和計算資源,再加上算法本身對海量數據處理的適應性,形成了數據挖掘的瓶頸。其中,關聯規則挖掘是數據挖掘領域一項很重要的方法。關聯規則挖掘的主要思想是隨著數據量的增加,數據項之間一定存在著某種關聯關系,因此算法主要實現的就是對這種關聯規則的挖掘。目前,常用的關聯規則挖掘相關算法有:Apriori算法、FPTree算法、Eclat算法以及決策樹分類等,它們往往只面向小規模數據量的處理,而且處理系統相對單一,并不能適應大規模集群系統的關聯規則分析。由于傳統數據挖掘方法本身計算量很大,在運算過程中會產生大量中間結果,需要頻繁掃描數據庫,大大增加了系統I/O消耗,隨著數據量的增大,有限的內存很難進行海量數據的處理,隨著數據量的爆炸式增長,傳統方法很難滿足用戶需求。
現有的技術中也存在并行化關聯分析方法,中國專利CN103914528A的發明專利申請“一種關聯分析算法的并行化方法”,該發明申請公開了一種針對經典關聯規則分析算法Apriori的優化,但該方法主要是基于分布式系統自有的文件分發機制對原始數據進行處理,本質上仍需頻繁掃描原始數據的一部分,在性能方面并不能達到很好的效果。
中國專利CN101799810A,該專利公開了一種關聯規則挖掘方法及其系統。方法包括:由頻繁K項集生成K+1項集;執行多個并行的處理任務,其中,每個處理任務獲取事務數據集中相應部分的數據,并統計K+1項集在該部分數據中的頻繁計數值;對所有處理任務的統計結果進行匯總得到K+1項集在所述事務數據集中的頻繁計數值,根據K+1項集的頻繁計數值生成滿足支持度要求的頻繁K+1項集,并根據所述頻繁K+1項集在判斷有滿足可信度要求的關聯規則時輸出該關聯規則。該專利所述方法是關聯規則算法在分布式框架下的執行,而本發明首先基于并行化架構對原始數據進行數據建模,建模后的數據再依據MapReduce框架進行迭代,得到頻繁項集和關聯規則,并針對教育云這一應用場景進行圖形化展示,運行效率更高。
中國專利申請CN103150163A,該專利公開了一種基于MapReduce模型的并行關聯方法。該方法首先對數據進行預處理,設置最小支持度和最小置信度;然后經特殊處理1項集,求得第1項集和第2項集;然后配置第k項集,執行后再統計出k項集的計數,通過主進程讀取第k個任務的輸出,計算支持度,獲得頻繁k項集和k+1項候選集,并設置k=k+1,開始循環,直至k+1項候選集為空。該專利所述方法是關聯規則算法的一般步驟在分布式框架MapReduce下的執行,而本發明創新性地對原始數據進行建模,然后對分布式框架的輸入輸出進行了設置,通過迭代計算,得到關聯規則,算法運行效率更高。
現有技術中還沒有一種基于MapReduce框架通過數據預處理和數據建模對數據的關聯規則進行挖掘的方法。因此,開發出一種適用于大數據信息挖掘處理的規則算法是當前的熱點和難點。
發明內容
針對現有技術的不足,本發明具體提出了一種基于并行化關聯規則算法的教育云應用統計方法。
本發明的技術方案如下:
發明概述:
一種基于并行化關聯規則算法的教育云應用統計方法,首先獲取教育云應用的訪問情況,對教育云應用訪問情況進行數據建模,將源數據以布爾矩陣的形式存儲在分布式文件系統HDFS中;其次基于MapReduce框架對關聯規則算法進行并行化優化,分別編寫Map函數和Reduce函數,對存儲在分布式文件系統HDFS中的源數據進行挖掘分析,然后得到訪問者對教育云應用的訪問情況。
發明詳述:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東大學,未經山東大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510066472.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:指令的處理方法、指令的處理裝置和終端
- 下一篇:語音識別方法和裝置





