[發明專利]一種基于Hadoop的網絡數據挖掘與分析平臺及其方法有效
| 申請號: | 201710141476.0 | 申請日: | 2017-03-10 |
| 公開(公告)號: | CN106934014B | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 朱世偉;趙燕清;閻淮海;鞠鎂隆;于俊鳳;魏墨濟;李晨;李思思;徐蓓蓓;李憲毅;王愛萍 | 申請(專利權)人: | 山東省科學院情報研究所 |
| 主分類號: | G06F16/27 | 分類號: | G06F16/27;G06F16/25;G06F16/958;G06F16/182 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 hadoop 網絡 數據 挖掘 分析 平臺 及其 方法 | ||
1.一種基于Hadoop的網絡數據挖掘與分析平臺,其特征在于,包括數據采集層、數據存儲層、業務應用層和用戶層;
所述數據采集層,采用分布式定向采集體系架構且以不同網絡中的終端站點作為網絡數據采集的一個基本任務單位來對原始網絡數據進行采集,并向數據存儲層匯聚傳輸;其中,每個基本任務單位采用獨立的采集規則及策略;及
所述數據存儲層,用于完成數據的原始網絡數據的匯聚、存儲及原始處理,并提供不同類型的功能調用服務;所述數據存儲層采用Hadoop框架實現;及
所述業務應用層,用于調取數據存儲層處理后的網絡數據并進行分析,來實現公有組件與個性業務應用組件剝離,并將網絡數據分析后的結果傳送至用戶層進行實時展示;
所述基本任務單位包括論壇數據采集單元,其用于分別通過動態網頁采集方法和網頁信息抽取方法對在線論壇及離線論壇內的網絡數據進行采集;
所述基本任務單位包括博客數據采集單元,其用于負責廣度遍歷博客站點,目的是獲取博客Feed地址;對每個Feed地址對應的博客進行實時采集,跟蹤更新的博客文章,以增量更新方式采集博客信息;
所述基本任務單位包括新聞數據采集單元,其用于采用基于行塊分布函數的方法抽取新聞網頁中的正文文本,進而獲取新聞數據;
所述架構采用“主從分布、自主協同”的分布式定向采集體系架構,從邏輯上劃分為四個層次:采集層、采集管理層、主控層、展現層;
所述采集規則及策略包括最新的垂直搜索模板半自動生成技術、動態頁面優化訪問技術和智能化的抓取進程調度策略;
在所述數據存儲層中對原始數據的處理過程包括采用窗口技術來分塊所要處理的數據、采用滑窗模型來描述流數據的變化及使用滑窗模型保存原有數據中的模式;
使用滑窗模型保存原有數據中的模式,具體為:根據數據的變化分塊數據,將未變化部分數據的模式存入滑窗;分別計算添加和刪除部分數據的模式;根據變化部分數據的模式,更新滑窗中所保存的模式;
使用多窗口方法,支持用戶的在線挖掘請求;多窗口方法將數據流劃分為多個固定長度的段,每個段都形成一個窗口,當內存中的窗口數達到一定數目時,就將這多個窗口合并,形成概要層次更高的窗口隨著數據流的流入,概要層次不同的多個窗口形成一個層次結構,此時,每個窗口相當于對數據流上兩個預定義的時間戳之間數據的一個快照。
2.如權利要求1所述的基于Hadoop的網絡數據挖掘與分析平臺,其特征在于,所述Hadoop框架由分布式文件系統HDFS和MapReduce組成;HDFS是Hadoop的文件系統,用于存儲超大文件;MapReduce是Hadoop的并行編程模型,用于對HDFS上存儲的數據進行深度分析。
3.一種基于如權利要求1-2中任一項所述的Hadoop的網絡數據挖掘與分析平臺的工作方法,其特征在于,包括:
數據采集層采用分布式定向采集體系架構且以不同網絡中的終端站點作為網絡數據采集的一個基本任務單位來對原始網絡數據進行采集,并向數據存儲層匯聚傳輸;
數據存儲層完成數據的原始網絡數據的匯聚、存儲及原始處理,并提供不同類型的功能調用服務;
業務應用層調取數據存儲層處理后的網絡數據并進行分析,來實現公有組件與個性業務應用組件剝離,并將網絡數據分析后的結果傳送至用戶層進行實時展示;
所述架構采用“主從分布、自主協同”的分布式定向采集體系架構,從邏輯上劃分為四個層次:采集層、采集管理層、主控層、展現層;
所述采集規則及策略包括最新的垂直搜索模板半自動生成技術、動態頁面優化訪問技術和智能化的抓取進程調度策略;
在所述數據存儲層中對原始數據的處理過程包括采用窗口技術來分塊所要處理的數據、采用滑窗模型來描述流數據的變化及使用滑窗模型保存原有數據中的模式;
使用滑窗模型保存原有數據中的模式,具體為:根據數據的變化分塊數據,將未變化部分數據的模式存入滑窗;分別計算添加和刪除部分數據的模式;根據變化部分數據的模式,更新滑窗中所保存的模式;
使用多窗口方法,支持用戶的在線挖掘請求;多窗口方法將數據流劃分為多個固定長度的段,每個段都形成一個窗口,當內存中的窗口數達到一定數目時,就將這多個窗口合并,形成概要層次更高的窗口隨著數據流的流入,概要層次不同的多個窗口形成一個層次結構,此時,每個窗口相當于對數據流上兩個預定義的時間戳之間數據的一個快照。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東省科學院情報研究所,未經山東省科學院情報研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710141476.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種事項數據表分發方法和裝置
- 下一篇:地址數據處理方法和裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





