[發明專利]數據抽取方法及裝置在審
| 申請號: | 201611161732.4 | 申請日: | 2016-12-15 |
| 公開(公告)號: | CN108228629A | 公開(公告)日: | 2018-06-29 |
| 發明(設計)人: | 曹六一;張丹;于曉明 | 申請(專利權)人: | 北大方正集團有限公司;北京北大方正電子有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 張蓮蓮;劉芳 |
| 地址: | 100871 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據抽取 插件 抽取 數據總線 物理資源 數據抽取模塊 數據總線連接 抽取模塊 抽取數據 獲取數據 集中管理 爬蟲系統 緊耦合 數據發 原系統 子模塊 復用 調配 散步 | ||
本發明實施例提供一種數據抽取方法及裝置。該方法包括:數據抽取插件從數據總線獲取數據抽取任務,所述數據總線連接有多個數據抽取插件,每個數據抽取插件用于抽取不同種類的數據;數據抽取插件根據所述數據抽取任務抽取數據;并將其抽取到的數據發送給所述數據總線。本發明實施例基于數據抽取插件的數據抽取子系統,將散步在各個爬蟲系統的中的抽取子模塊插件化,解除與原系統的緊耦合,因此可以方便的對數據抽取模塊進行復用;同時,將抽取模塊以插件的方式集中管理,能更好的調配機器物理資源,提高物理資源的利用率。
技術領域
本發明實施例涉及計算機技術領域,尤其涉及一種數據抽取方法及裝置。
背景技術
大數據時代,數據的生產達到了空前的速度,數據的來源、種類、組織形式也越來越廣泛,這給數據采集系統(爬蟲),提出了更高的要求。數據抽取是爬蟲系統的重要步驟,其主要作用是從各種各樣的原始的格式化或者非格式化數據,例如網頁、JavaScript對象表示法(JavaScript Object Notation,簡稱JSON)、可擴展標記語言(Extensible MarkupLanguage,簡稱XML)等,抽取出指定內容并將其組織成一定格式以便其它系統使用。在爬蟲系統中,爬取到的原始數據是多種多樣的,常見的比如超文本標記語言(Hyper TextMarkup Language,簡稱HTML)、JSON等,針對不同的數據類型通常需要采用不同的抽取方法,即使對同一種數據類型通常抽取方法也是不一樣的。比如,從HTML網頁中抽取正文,不同的網站的HTML結構是不一樣的,那么就需要在抽取時針對不同的HTML結構使用不同的抽取規則。
在實踐中,數據抽取通常有基于模板的抽取、不基于模板的自動抽取以及定制化抽取等幾種方式。基于模板的抽取是針對不同數據格式以及數據結構編寫不同的抽取模板,數據抽取中通過使用模板中指定的抽取信息,對原始數據進行抽取;不基于模板的抽取是利用機器學習等方法自動訓練抽取模型,針對不同的原始數據,其能自動定位需要抽取內容;定制化抽取主要是針對某一中特定的格式,在程序內部編寫固定的抽取方法。
一般的爬蟲系統為了性能考慮,數據抽取步驟通常在一個單獨數據抽取模塊中實現。而在一個數據采集項目中,通常都需要多個爬蟲子系統,才能完成數據采集的需求,比如新聞定向爬蟲子系統,電子公告牌系統(Bulletin Board System,簡稱BBS)定向采集子系統以及非定向網頁采集系統等。多套采集爬蟲子系統也就意味著有多套數據抽取子模塊,而這些子模塊系統通常會占用不同的機器物理資源,如果某個子系統負載比較小,那么就會導致其占用的資源不能被有效的利用,而且抽取子系與系統中其它模塊通常是緊耦合的,不能有效實現子模塊的復用。
發明內容
本發明實施例提供一種數據抽取方法及裝置,以提高爬蟲系統的資源利用率,有效實現子模塊的復用。
本發明實施例的一個方面是提供一種數據抽取方法,包括:
數據抽取插件從數據總線獲取數據抽取任務,所述數據總線連接有多個數據抽取插件,每個數據抽取插件用于抽取不同種類的數據;
所述數據抽取插件根據所述數據抽取任務抽取數據;
所述數據抽取插件將其抽取到的數據發送給所述數據總線。
本發明實施例的另一個方面是提供一種數據抽取裝置,包括:
獲取模塊,用于從數據總線獲取數據抽取任務,所述數據總線連接有多個數據抽取插件,每個數據抽取插件用于抽取不同種類的數據;
抽取模塊,用于根據所述數據抽取任務抽取數據;
發送模塊,用于將其抽取到的數據發送給所述數據總線。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京北大方正電子有限公司,未經北大方正集團有限公司;北京北大方正電子有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611161732.4/2.html,轉載請聲明來源鉆瓜專利網。





