[發明專利]一種面向用戶的WEB信息自動提取方法在審
| 申請號: | 201410758981.6 | 申請日: | 2015-08-03 |
| 公開(公告)號: | CN104504016A | 公開(公告)日: | 2015-07-29 |
| 發明(設計)人: | 劉文婷 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 董建林 |
| 地址: | 211100 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 用戶 web 信息 自動 提取 方法 | ||
1.一種面向用戶的WEB信息自動提取方法,其特征在于包含如下步驟:
(1)根據用戶給定的WEB站點鏈接列表,依次遍歷每個WEB站點,獲得用戶關注頁面;
(2)識別WEB站點中每個頁面的鏈接地址并存儲;
(3)提取用戶關注頁面的標題、發布時間、頁面正文;
(4)將提取的內容格式規范化后存儲于數據庫和文件系統中,其中頁面標題、發布時間存儲于數據庫中,頁面正文存儲于文件系統中;
(5)去除抽取的重復信息。
2.根據權利要求1所述的一種面向用戶的WEB信息自動提取方法,其特征在于:所述步驟(1)中,用戶給定的鏈接列表為用戶手動輸入或從系統默認的WEB站點列表中選擇獲得。
3.根據權利要求1所述的一種面向用戶的WEB信息自動提取方法,其特征在于:所述步驟(2)識別連接地址并存儲具體包括以下步驟:
2a)對于每個WEB站點,以一個URL作為信息來源,根據HTML文檔的DOM樹結構獲得相應WEB頁面的HTML源代碼,再根據WEB頁面的編碼格式獲得WEB頁面的分頁鏈接格式,根據分頁鏈接格式獲得分頁的全部鏈接地址,再根據分頁鏈接地址獲得所有分頁的HTML源代碼;
2b)依次獲取用戶關注的WEB站點列表中每個URL,連接并解析相應頁面,提取頁面中所有鏈接地址后,逐個判斷這些鏈接是否為網站內部鏈接,且是否已存在于待檢索鏈接隊列或已檢索鏈接隊列中,如果某一鏈接被判定為該網站內部鏈接,且不存在于待檢索鏈接隊列與已檢索鏈接隊列中,則將該鏈接地址存入待檢索鏈接隊列,否則不對該鏈接地址進行操作,直接獲取下一個鏈接進行判斷;
2c)在該頁面所有鏈接處理完畢后,系統將從待檢索鏈接隊列中取出下一個鏈接地址替代用戶關注的WEB站點的首頁鏈接地址,重復步驟2a)到2b),處理完畢后,將該鏈接存入已檢索鏈接隊列,然后繼續從待檢索鏈接隊列中提取下一鏈接地址,如此循環,直到待檢索鏈接隊列為空,則結束當前站點的檢索工作,開始對下一站點進行檢索。
4.根據權利要求1所述的一種面向用戶的WEB信息自動提取方法,其特征在于:所述步驟(3)具體包括以下步驟:
3a)提取標題,從目標鏈接隊列中逐個提取信息鏈接地址,并對該鏈接地址進行連接與頁面解析,過濾出該頁面HTML文檔中的<title>標簽,提取出符合要求的節點存入節點列表,然后獲取節點的顯示文本信息,并對所提取的信息進行適應性修改;
3b)提取正文,提取主體內容,過濾出HTML文檔中的<p>節點、<div>節點、<div>節點作為先輩節點的節點、<a>節點以及擁有后代節點<a>的節點;
3c)提取發布時間,當頁面解析完成后通過正則表達式匹配法提取出信息發布時間。
5.根據權利要求1所述的一種面向用戶的WEB信息自動提取方法,其特征在于:所述步驟(5)去除抽取重復的信息具體為:對一個信息站點進行過一次采集后,為了避免對已采集信息的重復采集,僅對新產生的頁面進行采集,提取信息基本屬性后,在數據庫中查詢該信息是否存在,如果存在,直接提取下一信息鏈接進行操作,否則,將該條信息存入系統。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410758981.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:頁面內容的搜索處理方法和系統
- 下一篇:用于網站分享的分享方法和裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





