[發(fā)明專利]一種Web 信息采集系統(tǒng)在審
| 申請?zhí)枺?/td> | 201410583183.4 | 申請日: | 2014-10-27 |
| 公開(公告)號: | CN105630782A | 公開(公告)日: | 2016-06-01 |
| 發(fā)明(設計)人: | 李東 | 申請(專利權)人: | 青島金訊網(wǎng)絡工程有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 266109 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 web 信息 采集 系統(tǒng) | ||
1.Web信息采集系統(tǒng),其特征在于,包括:URL處理器、協(xié)議處理器、重復內(nèi)容檢測器、 URL提取器、Meta信息獲取器、語義信息解析器以及數(shù)據(jù)庫;所述的URL處理器,其 用于給待采集的URL排序,并根據(jù)一定的策略向協(xié)議處理器分配URL;所述的協(xié)議處理 器,其用于通過各種Web協(xié)議完成數(shù)據(jù)的采集;所述的Web協(xié)議包括HTTP、FTP、Gopher 以及BBS;所述的重復內(nèi)容檢測器,其用于對鏡像頁面和內(nèi)容中的重復內(nèi)容進行檢測,所 述的URL提取器,其用于對已經(jīng)經(jīng)過重復內(nèi)容檢測的頁面的鏈接進行分析,并對鏈接進行 必要的轉換;所述的Meta信息獲取器,其用于對已采集到的Meta信息、頁面的主題、頁 面的摘要進行挖掘meta、結構等語義信息;并對頁面中提取出來的URL的好壞給出度量, 并將度量結果傳輸?shù)経RL處理器用于排序;所述的語義信息解析器,其用于對文本內(nèi)容 建立索引;所述的數(shù)據(jù)庫,其用于存儲經(jīng)過重復內(nèi)容檢測后的頁面數(shù)據(jù)、提取出來的Meta 信息、主題和摘要。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島金訊網(wǎng)絡工程有限公司,未經(jīng)青島金訊網(wǎng)絡工程有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410583183.4/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:網(wǎng)絡相冊瀏覽方法和裝置
- 下一篇:信息處理方法及系統(tǒng)
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





