[發明專利]一種基于MapReduce模型的并行關聯方法無效
| 申請號: | 201310064117.1 | 申請日: | 2013-03-01 |
| 公開(公告)號: | CN103150163A | 公開(公告)日: | 2013-06-12 |
| 發明(設計)人: | 李千目;陳強富;施叢叢;魏士祥;印杰;侯君 | 申請(專利權)人: | 南京理工大學常熟研究院有限公司 |
| 主分類號: | G06F9/44 | 分類號: | G06F9/44;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 215513 江蘇省蘇州市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 mapreduce 模型 并行 關聯 方法 | ||
1.一種基于Hadoop的并行關聯方法,其特征在于具體步驟如下:
第一步,對數據集進行預處理,將所有的數據值規約在有限的離散集合中,并設置最小支持度fF和最小置信度fS;
第二步,在MapReduce編程框架下,特殊處理1項集,把整個數據集作為輸入文件,實現一個map類來統計數據中候選項的計數,實現一個reduce類來合并由map進程返回的計數,然后處理第一個任務,輸出作為一個文件,包含1項集的計數m和總記錄個數n;
第三步,利用MapReduce分布式編程模型來在集群中執行分布式計算,采用遞推式的方式來求得k項集,直到第k項集為空為止;?
第四步,利用公式???????????????????????????????????????????????來計算置信度,如果置信度大于最小置信度fS,該規則就是強規則。
2.根據權利要求1所述的基于Hadoop的并行關聯方法,其特征在于:第三步中所述的利用MapReduce分布式編程模型來在集群中執行分布式的計算,具體實現過程如下:
第一步,安裝Hadoop集群,并且將數據分為M份,M大于整個Hadoop集群的處理單元數;
第二步,特殊處理1項集,把整個數據集作為輸入文件,編寫一個map類來實現從數據集中尋找相同的數據項并計數,編寫一個reduce類來實現計數,在實驗中采用hadoop自帶的類LongSumReducer,在hadoop框架中設定map類和reduce類,然后處理第一個任務;輸出作為一個文件,包含1項集的計數m和總記錄個數n;
第三步,主進程讀取第一個任務的輸出文件,利用公式計算出支持度,如果該支持度不小于最小支持度fF的話,那么該項就包含于頻繁1項集;
第四步,為第k(k>=2)個任務設置map類和reduce類,將分割的數據集DSi作為參數傳遞給該任務,利用map/reduce框架來執行任務,輸出為一個列表,該列表中包含(key,value)項,其中key為項目的名稱,value為計數;
第五步,待第k個任務完成后,主進程讀取第k個任務的輸出列表,計算并對比其支持度,獲得了頻繁k項集,然后在整個數據集DS中尋找包含k項的項目,如果其長度等于k+1的話,該項目就屬于k+1項侯選集,如果k+1項候選集為空,那么結束該步驟;如果候選集為非空,那么執行第四步,設置k值等于k+1,開始下一輪的循環;
第六步,計算最后所獲得的最大k項集的置信度,根據置信度確定關聯規則。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學常熟研究院有限公司,未經南京理工大學常熟研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310064117.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多功能芯軸裝置
- 下一篇:加工筒形殼體零件用裝卡工裝





