[發明專利]一種Web信息采集系統在審
| 申請號: | 201611194216.1 | 申請日: | 2016-12-21 |
| 公開(公告)號: | CN108228650A | 公開(公告)日: | 2018-06-29 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 青島祥智電子技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266100 山東省青島*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 采集 重復內容檢測 協議處理器 采集系統 語義信息 重復內容 鏈接 檢測器 網絡信息資源 信息獲取器 建立索引 文本內容 信息采集 頁面數據 解析器 頁面 排序 數據庫 存儲 挖掘 轉換 檢測 分配 分析 | ||
1.Web信息采集系統,其特征在于,包括:URL處理器、協議處理器、重復內容檢測器、URL提取器、Meta信息獲取器、語義信息解析器以及數據庫;所述的URL處理器,其用于給待采集的URL排序,并根據一定的策略向協議處理器分配URL;所述的協議處理器,其用于通過各種Web協議完成數據的采集;所述的Web協議包括HTTP、FTP、Gopher以及BBS;所述的重復內容檢測器,其用于對鏡像頁面和內容中的重復內容進行檢測,所述的URL提取器,其用于對已經經過重復內容檢測的頁面的鏈接進行分析,并對鏈接進行必要的轉換;所述的Meta信息獲取器,其用于對已采集到的Meta信息、頁面的主題、頁面的摘要進行挖掘meta、結構等語義信息;并對頁面中提取出來的URL的好壞給出度量,并將度量結果傳輸到URL處理器用于排序;所述的語義信息解析器,其用于對文本內容建立索引;所述的數據庫,其用于存儲經過重復內容檢測后的頁面數據、提取出來的Meta信息、主題和摘要。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島祥智電子技術有限公司,未經青島祥智電子技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611194216.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于數據訪問的方法和設備
- 下一篇:一種地理信息系統





