[發明專利]一種網頁解析并采集新聞的方法在審
| 申請號: | 201810444006.6 | 申請日: | 2018-05-10 |
| 公開(公告)號: | CN108829729A | 公開(公告)日: | 2018-11-16 |
| 發明(設計)人: | 梁莎莎;童晶;李天群;朱紅強 | 申請(專利權)人: | 河海大學常州校區 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 丁濤 |
| 地址: | 213022 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁解析 抓取 新聞數據 新聞條目 信息挖掘 篩選 解析 統一資源定位符 采集 關鍵字判斷 信息準確度 目標網頁 挖掘算法 網絡新聞 網頁信息 新聞內容 用戶定義 用戶需求 預設標準 通用的 自定義 多層 鏈接 涵蓋 發布 配合 渠道 | ||
本發明公開了一種網頁解析并采集新聞的方法,抓取多個涵蓋新聞條目和新聞數據的目標網頁信息;解析抓取的包含統一資源定位符URL地址的網頁信息,獲得多個網頁解析信息;獲取用戶輸入的關鍵字判斷篩選上述URL信息是否符合預設標準以及用戶需求;使用通用的鏈接挖掘算法并配合用戶自定義的信息挖掘條件來獲限制;提取篩選后的新聞列表取新聞內容,并對新聞數據進行多層篩選。本發明一方面可以獲取頁面上所有可以解析的新聞條目,另一方面使用用戶定義的信息挖掘條件作為限制提高了信息準確度,增強了目的性,具有高度的靈活性,擴大了發布者的獲取網絡新聞的渠道。
技術領域
本發明涉及一種網頁解析并采集新聞的方法,屬于網頁分析處理領域。
背景技術
隨著計算機網絡技術的不斷發展和互聯網的普及,人們可以通過高速的網絡實時獲取需要的新聞消息。但同時,人們對于信息的及時性、準確性的需求量也在日益增長。隨之產生的眾多新聞媒體網站也應運而生。傳統的新聞發布網站需要新聞發布人員獨立完成新聞的撰寫和審核工作,最后發送并將內容呈現給最終用戶。對于一些面向中小型企業和學校等相對規模較小群體的新聞發布網站,日常獨立編寫和審核新聞時間開銷大,代價和成本較高,因此相比而言適應度不高。本方法擬提供一套面向中小型企業和學校組織的新聞采集方案。其基本目標在于利用互聯網現有的新聞資源,結合WEB挖掘,為用戶提供一整套方便快捷的數據獲取、發布的解決方案,從而簡化新聞采集、審核者的工作。同時,當前的一些新聞采集及網頁解析的方法有時會出現信息獲取太雜,無法根據用戶自定義信息獲得想要的新聞,或不支持對關鍵字搜索的解析等問題。由于網頁與網頁之間的結構千差萬別,信息更新快且含有大量廣告等對于新聞發布端無用的信息,因此很難通過某一套完善的算法來自動過濾廣告并獲取所有有效的信息。
發明內容
為了解決上述現有技術存在的問題,本發明提出一種網頁解析并采集新聞的方法,采用解析網頁源文件的方式來獲取新聞信息,使用通用的鏈接挖掘算法并配合用戶自定義的信息挖掘條件來獲取新聞內容。
為達到上述目的,本發明的技術方案是這樣實現的:
一種網頁解析并采集新聞的方法,包括:
A1.抓取多個涵蓋新聞條目和新聞數據的目標網頁信息,所抓取的目標網頁信息包含統一資源定位符URL地址;
A2.解析步驟A1中所抓取的包含統一資源定位符URL地址的網頁信息,獲得多個網頁解析信息,其中包涵標題、摘要、新聞圖片和新聞鏈接信息;
A3.獲取用戶輸入的關鍵字判斷A2中獲得的網頁解析信息是否符合預設標準以及用戶需求;
A4.使用半智能化的方式,即通過通用的鏈接挖掘算法并配合用戶自定義的信息挖掘條件來獲限制,自定義的信息挖掘條件主要包括缺省設置,關鍵字查詢;
A5.提取步驟A3中符合要求的且符合步驟A4中限制條件的新聞列表并獲取新聞內容,并對新聞數據進行多層篩選,包括語言篩選,條目顯示在主界面中,呈現給用戶。
優選地,在步驟A1和步驟A2間還包括步驟A11,判斷所述的目標網頁信息的URL地址是否可以解析或是否已被解析過,若可以解析且未被解析過,則進入步驟A2,若不可解析或已被解析過,則丟棄此URL地址。
優選地,所述步驟A2中為了從目標網頁信息中解析獲取新聞內容,采用解析網頁源文件的方式來獲取新聞內容。
優選地,所述網頁解析并采集新聞的方法支持根據發布者自定義的URL,將對應的頁面作為數據源,并采用步驟A3和A4中所述方法自定義篩選,獲取該頁面所有符合條件的新聞條目。
優選地,在步驟A2中,對于解析后不可用的新聞源,選擇以通用的鏈接挖掘算法獲取所有鏈接數據,當頁面包含的數據編碼與當前編碼不同而產生中文亂碼時,改變當前字符集編碼來解析包含的中文。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學常州校區,未經河海大學常州校區許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810444006.6/2.html,轉載請聲明來源鉆瓜專利網。





