[發(fā)明專利]一種智能化網(wǎng)絡信息采集系統(tǒng)及采集方法在審
| 申請?zhí)枺?/td> | 202010883237.4 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112182462A | 公開(公告)日: | 2021-01-05 |
| 發(fā)明(設計)人: | 尤媛媛;李梁 | 申請(專利權)人: | 鎮(zhèn)江智越智能科技有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;H04L29/08;G06F40/126;G06F16/335 |
| 代理公司: | 北京欣鼎專利代理事務所(普通合伙) 11834 | 代理人: | 王陽虹 |
| 地址: | 212000 江蘇省鎮(zhèn)江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 智能化 網(wǎng)絡 信息 采集 系統(tǒng) 方法 | ||
1.一種智能化網(wǎng)絡信息采集系統(tǒng),包括網(wǎng)絡服務器、任務管理器、網(wǎng)頁數(shù)據(jù)提取器、任務分配器和信息采集器,其特征在于:所述網(wǎng)絡服務器與網(wǎng)頁數(shù)據(jù)提取器連接,所述網(wǎng)頁數(shù)據(jù)提取器與任務管理器連接,所述任務管理器與任務分配器連接,所述任務分配器與信息采集器連接;
所述網(wǎng)絡服務器用于根據(jù)web協(xié)議獲取網(wǎng)頁中的圖片和文字數(shù)據(jù);
所述網(wǎng)頁數(shù)據(jù)提取器用于提取網(wǎng)頁中的圖片和文字數(shù)據(jù);
所述任務管理器用于管理數(shù)據(jù)庫,并存儲網(wǎng)頁中的圖片和文字數(shù)據(jù),保存網(wǎng)頁的使用規(guī)則;
所述任務分配器用于對采集到的任務進行分配及任務完成情況進行反饋,所述任務分配器對信息采集器在設定的緩沖周期內針對常用網(wǎng)頁的訪問次數(shù)判斷及選擇信息采集器中當前最適于執(zhí)行信息采集工作的信息采集器,以及常用網(wǎng)站中當前最適于訪問的目標網(wǎng)站,并將信息采集任務分配到當前最適于訪問的目標網(wǎng)站的信息采集器;
所述信息采集器用于接收采集任務,并將采集的任務添加至任務分配器,所述信息采集器用于對分配到其的信息采集任務的目標網(wǎng)站進行訪問及下載。
2.根據(jù)權利要求1所述的一種智能化網(wǎng)絡信息采集系統(tǒng),其特征在于:所述網(wǎng)絡服務器在獲取網(wǎng)頁中的圖片和文字數(shù)據(jù)的過程中,通過至少HTTP,F(xiàn)TP,Gopher以及BBS中的一種或者多種方式的Web協(xié)議獲取網(wǎng)頁的數(shù)據(jù)。
3.根據(jù)權利要求1所述的一種智能化網(wǎng)絡信息采集系統(tǒng),其特征在于:所述信息采集器用于下載目標網(wǎng)站的規(guī)則,且依據(jù)該規(guī)則對網(wǎng)絡信息進行采集,且將采集的結果上傳至數(shù)據(jù)庫。
4.根據(jù)權利要求1所述的一種智能化網(wǎng)絡信息采集系統(tǒng),其特征在于:所述任務分配器用于對信息采集器的采集結果進行分析處理,然后進行數(shù)據(jù)統(tǒng)計得到統(tǒng)計結果,并將統(tǒng)計結構上傳至數(shù)據(jù)庫。
5.一種智能化網(wǎng)絡信息采集方法,其特征在于:包括以下步驟:
S1:根據(jù)web協(xié)議獲取網(wǎng)頁中的數(shù)據(jù),提取得到網(wǎng)頁中的元素數(shù)據(jù),并將提取的元數(shù)據(jù)儲存在數(shù)據(jù)庫中;
S2:網(wǎng)頁數(shù)據(jù)提取器對中英文網(wǎng)頁及文字的判別處理,若超文本網(wǎng)頁編碼采用GB2312標準則為中文網(wǎng)頁,否則為英文網(wǎng)頁,對在網(wǎng)頁標題及正文中的中文、英文或符號通過字符編碼的范圍進行判斷,提取文本,對獲取的HTML源文件進行過濾處理并去掉其中的標簽控制符提取文本信息,去除腳本,對HTML進行解析時,若遇到Script開始標簽,則查找Script結束標簽,查找成功后在該結束標簽后繼續(xù)進行解析;根據(jù)預先建立的特殊字符表查找出網(wǎng)頁數(shù)據(jù)中的特殊字符并對特殊字符進行處理,過濾網(wǎng)頁數(shù)據(jù)字符和存儲網(wǎng)頁文本:對一個網(wǎng)頁中的文本進行存儲并對各分離的文本之間加上分隔符,同時將標簽劃分為分隔標簽和普通標簽,當兩個文本之間為普通標簽時則兩個文本是連續(xù)文本;最后過濾網(wǎng)頁數(shù)據(jù)后統(tǒng)一網(wǎng)頁數(shù)據(jù)字符格式;
S3:任務管理器對網(wǎng)頁數(shù)據(jù)提取器提取的網(wǎng)頁中的圖片和文字數(shù)據(jù)進行管理,并對網(wǎng)頁的使用規(guī)則進行設定;
S4:任務分配器根據(jù)接收到的信息對存儲在數(shù)據(jù)庫內的數(shù)據(jù)進行判斷,根據(jù)判斷得到合適的信息采集器對目標信息進行采集,并將采集的信息分配至任務管理器中的目標網(wǎng)頁,對目標網(wǎng)頁進行訪問及下載。
6.根據(jù)權利要求5所述的一種智能化網(wǎng)絡信息采集系統(tǒng),其特征在于:所述S2中去除腳本還可以為默認腳本為文本并將其提取出來,然后再判斷該文本是否為腳本代碼,若是腳本則不予收集。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鎮(zhèn)江智越智能科技有限公司,未經(jīng)鎮(zhèn)江智越智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010883237.4/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 網(wǎng)絡和網(wǎng)絡終端
- 網(wǎng)絡DNA
- 網(wǎng)絡地址自適應系統(tǒng)和方法及應用系統(tǒng)和方法
- 網(wǎng)絡系統(tǒng)及網(wǎng)絡至網(wǎng)絡橋接器
- 一種電力線網(wǎng)絡中根節(jié)點網(wǎng)絡協(xié)調方法和系統(tǒng)
- 一種多網(wǎng)絡定位方法、存儲介質及移動終端
- 網(wǎng)絡裝置、網(wǎng)絡系統(tǒng)、網(wǎng)絡方法以及網(wǎng)絡程序
- 從重復網(wǎng)絡地址自動恢復的方法、網(wǎng)絡設備及其存儲介質
- 神經(jīng)網(wǎng)絡的訓練方法、裝置及存儲介質
- 網(wǎng)絡管理方法和裝置
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





