[發明專利]一種主題網絡爬蟲方法、電子設備、存儲介質、系統有效
| 申請號: | 201711071026.5 | 申請日: | 2017-11-03 |
| 公開(公告)號: | CN107908698B | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 石忠民;徐葉強;鐘力;殷長濤 | 申請(專利權)人: | 廣州索答信息科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06F16/35;G06F40/289;G06F40/30 |
| 代理公司: | 廣州市越秀區哲力專利商標事務所(普通合伙) 44288 | 代理人: | 莫之特;羅峰 |
| 地址: | 510000 廣東省廣州市高新技術*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 主題 網絡 爬蟲 方法 電子設備 存儲 介質 系統 | ||
1.一種主題網絡爬蟲方法,其特征在于包括以下步驟:
初始化主題爬蟲,獲取主題爬蟲的起始URL,將所述起始URL加載入種子任務隊列;
文檔內容爬取,所述主題爬蟲從任務隊列中依次獲取所述起始URL進行爬取,將所述起始URL對應的網絡文檔下載至本地;
未爬取URL收集,獲取所述網絡文檔的URL,當所述網絡文檔的URL未爬取時,將未爬取的URL加入所述種子任務隊列;
文本分類,對所述網絡文檔進行主題相關性分類,獲得主題相關文本;
文本存儲,將所述主題相關文本結構化存儲至數據倉庫;
所述步驟文本分類包括以下步驟:
文檔預處理,對所述網絡文檔進行分詞和去除停用詞處理;
文本數據轉換,采用word2vec的CBOW模型將分詞后的文本數據轉換為詞向量;
詞向量降維,采用PCA主成分分析算法對所述詞向量進行降維,獲得降維詞向量;
文本分類,采用LSTM模型對所述降維詞向量進行分類,獲得所述分類結果。
2.如權利要求1所述的一種主題網絡爬蟲方法,其特征在于:所述步驟文檔預處理具體為采用正向最大匹配算法和CRF分詞算法對所述網絡文檔進行分詞。
3.一種電子設備,其特征在于包括:處理器;
存儲器;以及程序,其中所述程序被存儲在所述存儲器中,并且被配置成由處理器執行,所述程序包括用于執行權利要求1-2任意一項所述的方法。
4.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于:所述計算機程序被處理器執行如權利要求1-2任意一項所述的方法。
5.一種主題網絡爬蟲系統,其特征在于:包括初始化模塊、文檔爬取模塊、文本分類模塊、文本存儲模塊,所述初始化模塊獲取主題爬蟲的起始URL,將所述起始URL加載入種子任務隊列,并維護所述種子任務隊列的爬取順序;所述文檔爬取模塊從任務隊列中依次獲取所述起始URL進行爬取,將所述起始URL對應的網絡文檔下載至本地,所述文本分類模塊對所述網絡文檔進行主題相關性分類,獲得主題相關文本,所述文本存儲模塊將所述主題相關文本結構化存儲至數據倉庫;還包括未爬取URL收集模塊,所述未爬取URL收集模塊獲取所述網絡文檔的URL,將未爬取的URL加入所述種子任務隊列;
所述文本分類模塊還包括文檔預處理模塊、文本數據轉換模塊、詞向量降維模塊,所述文檔預處理模塊對所述網絡文檔進行分詞和去除停用詞處理;所述文本數據轉換模塊采用word2vec的CBOW模型將分詞后的文本數據轉換為詞向量;所述詞向量降維模塊采用PCA主成分分析算法對所述詞向量進行降維,獲得降維詞向量;所述文本分類模塊采用LSTM模型對所述降維詞向量進行分類,獲得所述分類結果。
6.如權利要求5所述的一種主題網絡爬蟲系統,其特征在于:所述文檔預處理模塊采用正向最大匹配算法和CRF分詞算法對所述網絡文檔進行分詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州索答信息科技有限公司,未經廣州索答信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711071026.5/1.html,轉載請聲明來源鉆瓜專利網。





