[發明專利]一種Web信息采集系統在審

申請號：	201611194216.1	申請日：	2016-12-21
公開（公告）號：	CN108228650A	公開（公告）日：	2018-06-29
發明（設計）人：	不公告發明人	申請（專利權）人：	青島祥智電子技術有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	暫無信息	代理人：	暫無信息
地址：	266100 山東省青島***	國省代碼：	山東;37
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	采集重復內容檢測協議處理器采集系統語義信息重復內容鏈接檢測器網絡信息資源信息獲取器建立索引文本內容信息采集頁面數據解析器頁面排序數據庫存儲挖掘轉換檢測分配分析
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.Web信息采集系統，其特征在于，包括：URL處理器、協議處理器、重復內容檢測器、URL提取器、Meta信息獲取器、語義信息解析器以及數據庫；所述的URL處理器，其用于給待采集的URL排序，并根據一定的策略向協議處理器分配URL；所述的協議處理器，其用于通過各種Web協議完成數據的采集；所述的Web協議包括HTTP、FTP、Gopher以及BBS；所述的重復內容檢測器，其用于對鏡像頁面和內容中的重復內容進行檢測，所述的URL提取器，其用于對已經經過重復內容檢測的頁面的鏈接進行分析，并對鏈接進行必要的轉換；所述的Meta信息獲取器，其用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結構等語義信息；并對頁面中提取出來的URL的好壞給出度量，并將度量結果傳輸到URL處理器用于排序；所述的語義信息解析器，其用于對文本內容建立索引；所述的數據庫，其用于存儲經過重復內容檢測后的頁面數據、提取出來的Meta信息、主題和摘要。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于青島祥智電子技術有限公司，未經青島祥智電子技術有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201611194216.1/1.html，轉載請聲明來源鉆瓜專利網。