[發明專利]一種主題網絡爬蟲方法、電子設備、存儲介質、系統有效
| 申請號: | 201711071026.5 | 申請日: | 2017-11-03 |
| 公開(公告)號: | CN107908698B | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 石忠民;徐葉強;鐘力;殷長濤 | 申請(專利權)人: | 廣州索答信息科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 廣州市越秀區哲力專利商標事務所(普通合伙) 44288 | 代理人: | 莫之特;羅峰 |
| 地址: | 510000 廣東省廣州市高新技術*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 主題 網絡 爬蟲 方法 電子設備 存儲 介質 系統 | ||
本發明提供一種主題網絡爬蟲方法,包括步驟獲取主題爬蟲的起始URL,將起始URL加載入種子任務隊列,主題爬蟲從任務隊列中依次獲取起始URL進行爬取,將起始URL對應的網絡文檔下載至本地,對網絡文檔進行主題相關性分類,獲得主題相關文本,將主題相關文本結構化存儲至數據倉庫;本發明涉及電子設備與可讀存儲介質,用于執行一種主題網絡爬蟲方法;本發明還涉及一種主題網絡爬蟲系統;本發明通過采用word2vec的CBOW模型獲得文本分詞結果的詞向量,采用PCA主成分分析算法對詞向量進行降維,采用LSTM模型對降維的詞向量進行分類,通過對爬取文檔先進行分類,然后針對特定主題有選擇性的對文檔進行存儲,提高主題與爬取文檔的相關程度,增加搜索引擎覆蓋率。
技術領域
本發明涉及網絡爬蟲技術領域,尤其涉及一種主題網絡爬蟲方法、電子設備、存儲介質、系統。
背景技術
網絡規模的迅速增長給人們帶來極其豐富信息的同時,也給對信息的檢索帶來很大的挑戰,網絡爬蟲是一種“自動化瀏覽網絡”的程序,或者說是一種網絡機器人,目前網絡爬蟲已被廣泛用于互聯網搜索引擎或其他類似網站,其可以自動采集所有搜索引擎或網站中其能夠訪問到的頁面內容,使得用戶能夠更快的通過網絡爬蟲檢索到需要的信息,并且通過網絡爬蟲采集到的頁面內容可以供搜索引擎或者網站做進一步處理,以使搜索引擎或網站可以基于采集到的頁面內容進行訓練。目前,即使是規模十分龐大的搜索引擎對互聯網信息的覆蓋率不足50%,檢索服務器資源遠遠跟不上網絡規模不斷增長的速度。如果依舊采用傳統的信息爬取方法會使信息檢索的覆蓋面越來越小。
為解決上述問題,根據在信息檢索時用戶只對某一主題信息感興趣的特點,本發明通過使用文本分類的方法,針對特定主題網頁,提出一種主題網絡爬蟲方法。
發明內容
為了克服現有技術的不足,本發明的目的之一在于提供一種主題網絡爬蟲方法,通過對爬取文檔進行分類,提高主題與爬取文檔的相關程度,增加搜索引擎覆蓋率。
本發明的目的之一采用以下技術方案實現:
一種主題網絡爬蟲方法,包括以下步驟:
初始化主題爬蟲,獲取主題爬蟲的起始URL,將所述起始URL加載入種子任務隊列;
文檔內容爬取,所述主題爬蟲從任務隊列中依次獲取所述起始URL進行爬取,將所述起始URL對應的網絡文檔下載至本地;
文本分類,對所述網絡文檔進行主題相關性分類,獲得主題相關文本;
文本存儲,將所述主題相關文本結構化存儲至數據倉庫。
進一步地,所述步驟文本分類包括以下步驟:
文檔預處理,對所述網絡文檔進行分詞和去除停用詞處理;
文本數據轉換,采用word2vec的CBOW模型將分詞后的文本數據轉換為詞向量;
詞向量降維,采用PCA主成分分析算法對所述詞向量進行降維,獲得降維詞向量;
文本分類,采用LSTM模型對所述降維詞向量進行分類,獲得所述分類結果。
進一步地,在所述步驟文檔內容爬取和所述步驟文本分類之間還包括步驟未爬取URL收集,獲取所述網絡文檔的URL,當所述網絡文檔的URL未爬取時,將未爬取的URL加入所述種子任務隊列。
進一步地,所述步驟文檔預處理具體為采用正向最大匹配算法和CRF分詞算法對所述網絡文檔進行分詞。
一種電子設備,包括:處理器;
存儲器;以及程序,其中所述程序被存儲在所述存儲器中,并且被配置成由處理器執行,所述程序包括用于執行上述一種主題網絡爬蟲方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州索答信息科技有限公司,未經廣州索答信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711071026.5/2.html,轉載請聲明來源鉆瓜專利網。





