[發(fā)明專利]一種基于并行化關(guān)聯(lián)規(guī)則算法的教育云應(yīng)用統(tǒng)計(jì)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201510066472.1 | 申請(qǐng)日: | 2015-02-09 |
| 公開(公告)號(hào): | CN104573124B | 公開(公告)日: | 2018-04-10 |
| 發(fā)明(設(shè)計(jì))人: | 袁東風(fēng);王宏賓;劉萍 | 申請(qǐng)(專利權(quán))人: | 山東大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 濟(jì)南金迪知識(shí)產(chǎn)權(quán)代理有限公司37219 | 代理人: | 呂利敏 |
| 地址: | 250100 山*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 并行 關(guān)聯(lián) 規(guī)則 算法 教育 應(yīng)用 統(tǒng)計(jì) 方法 | ||
1.一種基于并行化關(guān)聯(lián)規(guī)則算法的教育云應(yīng)用統(tǒng)計(jì)方法,首先獲取教育云應(yīng)用的訪問情況,對(duì)教育云應(yīng)用訪問情況進(jìn)行數(shù)據(jù)建模,將源數(shù)據(jù)以布爾矩陣的形式存儲(chǔ)在分布式文件系統(tǒng)HDFS中;其次基于MapReduce框架對(duì)關(guān)聯(lián)規(guī)則算法進(jìn)行并行化優(yōu)化,分別編寫Map函數(shù)和Reduce函數(shù),對(duì)存儲(chǔ)在分布式文件系統(tǒng)HDFS中的源數(shù)據(jù)進(jìn)行挖掘分析,然后得到訪問者對(duì)教育云應(yīng)用的訪問情況,具體步驟如下:
步驟一、從教育云服務(wù)器獲取日志信息數(shù)據(jù)并定時(shí)上傳到集群節(jié)點(diǎn)的分布式文件系統(tǒng)HDFS中;
步驟二、以存儲(chǔ)在HDFS中的日志信息數(shù)據(jù)作為源數(shù)據(jù),進(jìn)行數(shù)據(jù)庫數(shù)據(jù)建模;
步驟二的具體步驟如下:
2-1)建立教育云應(yīng)用和訪問者訪問路徑的對(duì)應(yīng)關(guān)系:建立如表1所示的應(yīng)用名稱與訪問路徑映射表,對(duì)應(yīng)關(guān)系為:{(01,高中教學(xué),/union/senior/index.html),(02,初中教學(xué),/union/junior/index.html),(03,小學(xué)教育,/union/primary/index.html),(04,兒童教育,/union/child/index.html),(05,網(wǎng)絡(luò)磁盤,/union/disk/index.html),(06,在線影音,/union/media/index.html),(07,在線編輯,/union/edit/index.html),(08,在線考試,/union/test/index.html)};
表1應(yīng)用名稱與訪問路徑映射表
2-2)以存儲(chǔ)在HDFS中的日志信息數(shù)據(jù)作為源數(shù)據(jù),日志信息數(shù)據(jù)逐行存儲(chǔ),每一行記錄了訪問者訪問教育云平臺(tái)的信息,每一行的格式為<remotehost,ident,authuser,date,request,status,bytes,referrer,agent>,其中remotehost為訪問主機(jī)地址或者已解析的域名,ident為標(biāo)示符,authuser為授權(quán)訪問者,用于記錄訪問者進(jìn)行身份驗(yàn)證時(shí)提供名字,date為日期時(shí)間,request為請(qǐng)求資源的URL,包括請(qǐng)求類型、請(qǐng)求資源、協(xié)議版本號(hào),status為狀態(tài)碼,表示服務(wù)器的響應(yīng)狀態(tài),bytes為傳輸?shù)淖止?jié)數(shù),referrer為來源頁面的URL,表示瀏覽者在訪問該頁面之前所瀏覽的頁面,agent為訪問者的詳細(xì)信息;編寫shell腳本,使用awk命令分割每一行,獲取每行的<remotehost,date,request,referrer>四個(gè)字段,再存入分布式文件系統(tǒng)HDFS中;
2-3)基于分割所獲取的字段生成訪問序列:基于字段date獲取同一時(shí)間段的記錄<remotehost,request,referrer>,其中request和referrer字段根據(jù)表1所示的應(yīng)用名稱與訪問路徑映射表映射為相應(yīng)的ID,然后基于字段remotehost進(jìn)行排序,同一remotehost視為同一訪問者;
2-4)針對(duì)每個(gè)訪問者的訪問序列生成數(shù)據(jù)項(xiàng)集;每行的訪問序列的格式為<referrer,request>,其中referrer為來源頁面的URL,request為請(qǐng)求資源的URL;基于MapReduce進(jìn)行單表連接
步驟三、源數(shù)據(jù)經(jīng)過建模之后,以數(shù)據(jù)項(xiàng)集文件的形式存儲(chǔ)在HDFS中,每一行代表一個(gè)訪問者的點(diǎn)擊流序列;在進(jìn)行頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則挖掘之前,采用二進(jìn)制表示法,將數(shù)據(jù)項(xiàng)集轉(zhuǎn)換成布爾矩陣,布爾矩陣存儲(chǔ)在分布式文件系統(tǒng)HDFS中;
步驟四、關(guān)聯(lián)規(guī)則挖掘:基于MapReduce對(duì)傳統(tǒng)的挖掘方法進(jìn)行并行化優(yōu)化,具體步驟為:
4-1)掃描存儲(chǔ)在分布式文件系統(tǒng)HDFS中的布爾矩陣,生成頻繁項(xiàng)集;
4-2)生成關(guān)聯(lián)規(guī)則:由頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則;
步驟五、根據(jù)步驟四的步驟4-1)生成的頻繁項(xiàng)集,以圖形化形式向訪問者展示教育云應(yīng)用的使用情況。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東大學(xué),未經(jīng)山東大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510066472.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:指令的處理方法、指令的處理裝置和終端
- 下一篇:語音識(shí)別方法和裝置
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 簡單網(wǎng)絡(luò)管理協(xié)議設(shè)備的數(shù)據(jù)并行采集歸并方法及系統(tǒng)
- 減少EMI的并行數(shù)據(jù)傳輸方法
- 一種多媒體數(shù)據(jù)并行處理系統(tǒng)及方法
- 一種高速并行OQPSK解調(diào)時(shí)鐘的恢復(fù)系統(tǒng)
- 一種海量地震數(shù)據(jù)并行抽道集方法
- 3G協(xié)議的turbo碼并行譯碼方法及裝置
- 并行擴(kuò)展輸入輸出的教學(xué)裝置
- 數(shù)據(jù)的并行處理
- 并行式插件機(jī)
- 一種SPI總線與并行總線的橋接方法、設(shè)備、系統(tǒng)及介質(zhì)
- 關(guān)聯(lián)裝置
- 數(shù)據(jù)關(guān)聯(lián)裝置和數(shù)據(jù)關(guān)聯(lián)方法
- 安全關(guān)聯(lián)
- 設(shè)備關(guān)聯(lián)
- 終端關(guān)聯(lián)裝置和終端關(guān)聯(lián)方法
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)分析方法和關(guān)聯(lián)分析系統(tǒng)
- 報(bào)文關(guān)聯(lián)方法、報(bào)文關(guān)聯(lián)裝置及報(bào)文關(guān)聯(lián)系統(tǒng)
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 不規(guī)則瓶蓋
- 相關(guān)規(guī)則分析裝置以及相關(guān)規(guī)則分析方法
- 分析規(guī)則調(diào)整裝置、分析規(guī)則調(diào)整系統(tǒng)以及分析規(guī)則調(diào)整方法
- 規(guī)則抽取方法和規(guī)則抽取設(shè)備
- 終端規(guī)則引擎裝置、終端規(guī)則運(yùn)行方法
- 布(規(guī)則)
- 規(guī)則呈現(xiàn)方法、存儲(chǔ)介質(zhì)和規(guī)則呈現(xiàn)裝置
- 可編寫規(guī)則配置模塊、規(guī)則生成系統(tǒng)、及規(guī)則管理平臺(tái)
- 不規(guī)則圍棋





