[發明專利]一種面向網絡的多通道大數據采集系統及方法有效
| 申請號: | 201710142262.5 | 申請日: | 2017-03-10 |
| 公開(公告)號: | CN106844782B | 公開(公告)日: | 2020-03-20 |
| 發明(設計)人: | 朱世偉;楊子江;于俊鳳;李源;馮海洲;魏墨濟;王燕;李思思;張銘君;王彥 | 申請(專利權)人: | 山東省科學院情報研究所 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28 |
| 代理公司: | 濟南圣達知識產權代理有限公司 37221 | 代理人: | 黃海麗 |
| 地址: | 250014 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 網絡 通道 數據 采集 系統 方法 | ||
1.一種面向網絡的多通道大數據采集系統,其特征在于,所述面向網絡的多通道大數據采集系統由論壇數據采集單元、博客數據采集單元、新聞數據采集單元及關系型數據庫中數據采集單元構成的分布式定向采集體系架構組成;
所述論壇數據采集單元,用于分別通過動態網頁采集方法和網頁信息抽取方法對在線論壇及離線論壇內的網絡數據進行采集;
所述博客數據采集單元,用于負責廣度遍歷博客站點,目的是獲取博客Feed地址;對每個Feed地址對應的博客進行實時采集,跟蹤更新的博客文章,以增量更新方式采集博客信息;
所述新聞數據采集單元,用于采用基于行塊分布函數的方法抽取新聞網頁中的正文文本,進而獲取新聞數據;
所述關系型數據庫中數據采集單元,用于采用數據轉移工具來批量采集關系型數據庫中數據;
在所述論壇數據采集單元中,論壇內的網絡數據以版塊為基本單位進行采集,通過版塊網頁獲取、版塊網頁信息提取、帖子網頁獲取和帖子網頁信息提取這四個階段,將網頁采集與網頁信息提取進行有結合而獲取論壇內網絡數據;
其中,版塊網頁抽取帖子的元信息;分為兩個部分:①從版塊頁面中抽取出元數據;②將元數據集成入庫:即識別出元數據的含義,使元數據成為真正的元信息,保存入庫;
對于元數據的抽取,離線操作包括:用戶提供一個版塊頁面作為樣例頁面,通過無監督學習方法,為與訓練樣例同類的版塊頁面生成一個模板;在線操作包括:根據模板,對新版塊頁面進行元數據抽取;元數據的抽取基于DOM進行操作,抽取過程充分利用版塊頁面中帖子記錄、記錄中的屬性與DOM樹中的結點之間的對應關系,以及這些結點在組織結構上的特性。
2.如權利要求1所述的一種面向網絡的多通道大數據采集系統,其特征在于,所述博客數據采集單元由一個Feed發現器和多個信息采集器構成,所述Feed發現器用于獲取博客的URL地址或者RSS地址并通過每個博客頁面的鏈接關系去獲取其他博客的URL地址或者RSS地址;所述采集器用于對博客進行增量的刷新采集,并抽取新發表的博文信息,生成相應的博文信息記錄并入庫。
3.如權利要求1所述的一種面向網絡的多通道大數據采集系統,其特征在于,所述新聞數據采集單元包括網頁HTML源碼預處理模塊,其用于對網頁HTML源碼進行編碼、去腳本及特殊字符進行處理;及
格式標簽去除模塊,其用于對預處理后的網頁HTML源碼進行去除格式標簽,得到粗糙網頁正文;及
正文提取模塊,其用于利用預設的求行字數的分布函數提取粗糙網頁正文中的待獲取網頁正文,進而得到新聞數據。
4.如權利要求1所述的一種面向網絡的多通道大數據采集系統,其特征在于,在所述關系型數據庫中數據采集單元中,所述數據轉移工具為Sqoop。
5.一種面向網絡的多通道大數據采集方法,其特征在于,其采用分布式定向采集體系架構對論壇數據、博客數據、新聞數據及關系型數據庫中數據進行分布同時采集;
其中,分別通過動態網頁采集方法和網頁信息抽取方法對在線論壇及離線論壇內的網絡數據進行采集;
在博客數據的過程中,首先,獲取博客Feed地址;然后,對每個Feed地址對應的博客進行實時采集,跟蹤更新的博客文章,以增量更新方式采集博客信息;
采用基于行塊分布函數的方法抽取新聞網頁中的正文文本,進而獲取新聞數據;
采用數據轉移工具來批量采集關系型數據庫中數據;
在采集論壇數據采的過程中,論壇內的網絡數據以版塊為基本單位進行采集,通過版塊網頁獲取、版塊網頁信息提取、帖子網頁獲取和帖子網頁信息提取這四個階段,將網頁采集與網頁信息提取進行有結合而獲取論壇內網絡數據;
其中,版塊網頁抽取帖子的元信息;分為兩個部分:①從版塊頁面中抽取出元數據;②將元數據集成入庫:即識別出元數據的含義,使元數據成為真正的元信息,保存入庫;
對于元數據的抽取,離線操作包括:用戶提供一個版塊頁面作為樣例頁面,通過無監督學習方法,為與訓練樣例同類的版塊頁面生成一個模板;在線操作包括:根據模板,對新版塊頁面進行元數據抽取;元數據的抽取基于DOM進行操作,抽取過程充分利用版塊頁面中帖子記錄、記錄中的屬性與DOM樹中的結點之間的對應關系,以及這些結點在組織結構上的特性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東省科學院情報研究所,未經山東省科學院情報研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710142262.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種安全密封耐腐蝕的直通式襯氟截止閥
- 下一篇:信息處理方法和裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





