[發明專利]一種基于爬蟲技術的新聞大數據采集和自動化發布方法在審
| 申請號: | 202210147776.0 | 申請日: | 2022-02-17 |
| 公開(公告)號: | CN114637902A | 公開(公告)日: | 2022-06-17 |
| 發明(設計)人: | 賴貴全;任小強 | 申請(專利權)人: | 成都易達數安科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06F40/186;G06F16/2458 |
| 代理公司: | 成都聚蓉眾享知識產權代理有限公司 51291 | 代理人: | 孟凡娜 |
| 地址: | 610000 四川省成都市*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 爬蟲 技術 新聞 數據 采集 自動化 發布 方法 | ||
本發明公開了一種基于爬蟲技術的新聞大數據采集和自動化發布方法,屬于APP開發技術領域,目的在于解決現有技術都是基于海量URL的進行數據采集,導致采集的新聞稿件數據比較泛,對采集的新聞稿件類別歸納、分類等難度增加,使數據分析難度增加,造成人力成本增加、工作效率降低的問題。其基于爬蟲技術對數據源的新聞大數據進行采集,通過數據源定義數據源類型,然后定制采集特征,對采集的數據進行數據分析、數據歸類。再通過spiderCore對數據進行數據挖掘處理,加載多樣式稿件模板,自動生成新聞稿件,結合當前業務,定義欄目分類、專題分類,自動分發新聞稿件到指定欄目。本發明適用于一種基于爬蟲技術的新聞大數據采集和自動化發布方法。
技術領域
本發明屬于新聞采集和發布技術領域,具體涉及一種基于爬蟲技術的新聞大數據采集和自動化發布方法。
背景技術
目前在各種新聞網站大量收集新聞源稿件,均通過CMS后臺人工篩選稿件作為新聞稿件進行轉發。現有爬蟲技術如Nutch、Crawler4j、WebMagic、scrapy、WebCollector等,都是基于海量URL的進行數據采集,導致采集的新聞稿件數據比較泛,對采集的新聞稿件類別歸納、分類等難度增加,使數據分析難度增加,從而需要投入大量的人力成本。
發明內容
本發明的目的在于:提供一種基于爬蟲技術的新聞大數據采集和自動化發布方法,解決現有技術都是基于海量URL的進行數據采集,導致采集的新聞稿件數據比較泛,對采集的新聞稿件類別歸納、分類等難度增加,使數據分析難度增加,造成人力成本增加、工作效率降低的問題。
本發明采用的技術方案如下:
一種基于爬蟲技術的新聞大數據采集和自動化發布方法,包括以下步驟:
(1)啟動列表頁爬蟲,讀取配置文件并完成配置;
(2)將數據源網址放入到采集請求中,通過數據源定義數據源類型,然后定制采集特征,發出采集請求;
(3)接收采集返回的數據,并保存,若保存失敗,重新將數據源網址放入到采集請求中,重復步驟(2);
(4)對數據進行分析,將采集的數據進行歸類,提取需要的數據,將異常數據進行歸類、儲存,并可對異常數據進行展示;
(5)通過spiderCore對數據進行數據挖掘處理,加載多樣式稿件模板,自動生成新聞稿件,結合當前需求的新聞業務,定義欄目分類、專題分類,將新聞稿件自動分發到特定欄目。
進一步地,所述步驟(1)中,配置文件包括數據源配置、異常特征配置、數據解析配置、調度配置、代理配置、手工驗證。
進一步地,所述步驟(5)spiderCore對數據進行數據挖掘處理基于特征檢測引擎、數據分發機制、數據抓取引擎、數據解析引擎對數據進行挖掘處理。
進一步地,所述步驟(5)spiderCore對數據進行數據挖掘處理的具體方式包括任務調度、異常重試、去重機制、增量機制、隨機IP代理、數據儲存。
綜上所述,由于采用了上述技術方案,本發明的有益效果是:
1、本發明中,基于爬蟲技術對數據源的新聞大數據進行采集,通過數據源定義數據源類型,然后定制采集特征,對采集的數據進行數據分析、數據歸類。再通過spiderCore對數據進行數據挖掘處理,加載多樣式稿件模板,自動生成新聞稿件,結合當前業務,定義欄目分類、專題分類,自動分發新聞稿件到指定欄目,有效解決了現有技術都是基于海量URL的進行數據采集,導致采集的新聞稿件數據比較泛,對采集的新聞稿件類別歸納、分類等難度增加,使數據分析難度增加,造成人力成本增加、工作效率降低的問題。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都易達數安科技有限公司,未經成都易達數安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210147776.0/2.html,轉載請聲明來源鉆瓜專利網。





