[發(fā)明專利]一種基于搜索引擎的輕量級通用網(wǎng)頁主題爬蟲方法有效
| 申請?zhí)枺?/td> | 201310285000.6 | 申請日: | 2013-07-08 |
| 公開(公告)號: | CN103310026B | 公開(公告)日: | 2016-11-23 |
| 發(fā)明(設計)人: | 姚瑞波;周鳳波;翁強 | 申請(專利權(quán))人: | 焦點科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 張?zhí)K沛 |
| 地址: | 210061 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 搜索引擎 輕量級 通用 網(wǎng)頁 主題 爬蟲 方法 | ||
1.一種基于搜索引擎的輕量級網(wǎng)頁主題爬蟲方法,其特征在于,包括步驟為:
步驟1、初始種子:給定的少量描述特定主題相關(guān)種子,然后根據(jù)主題擴充規(guī)則,對種子進行擴充,使得每一個種子被擴充為一系列種子;
步驟2、發(fā)現(xiàn)網(wǎng)站:將初始種子轉(zhuǎn)換為查詢詞,通過搜索引擎接口獲得相關(guān)的若干網(wǎng)站,并經(jīng)過多層相關(guān)性過濾算法找到和查詢詞對應的網(wǎng)站;
步驟3、下載網(wǎng)站:將相關(guān)的網(wǎng)站下載到本地并存入數(shù)據(jù)庫;
步驟4、網(wǎng)頁解析:從下載的網(wǎng)站進行分析,獲取其中的鏈接信息,對相關(guān)性符合的鏈接,進一步判斷其指向網(wǎng)站是否和主題相關(guān),如果相關(guān),則將該鏈接存為一個待爬取URL;
步驟5、種子更新:通過分析已爬取到的新網(wǎng)站,從中提取主題相關(guān)詞,并以此構(gòu)造新種子,保證爬取過程持續(xù)進行;
步驟6、爬取更新:根據(jù)已爬取網(wǎng)站的更新信息,計算重新爬取的周期,使得已爬取網(wǎng)站能實現(xiàn)自適應的自動更新。
2.根據(jù)權(quán)利要求1所述的基于搜索引擎的輕量級網(wǎng)頁主題爬蟲方法,其特征在于,步驟1中所述初始種子需要人工提供使得爬取持續(xù)進行的主題相關(guān)詞匯,一般而言,特定領域的用戶都熟悉本領域內(nèi)的典型詞匯,因此這種提出初始種子的過程較為可行。
3.根據(jù)權(quán)利要求1所述的基于搜索引擎的輕量級網(wǎng)頁主題爬蟲方法,其特征在于,步驟2中對所述將傳統(tǒng)繁重的爬蟲尋找相關(guān)網(wǎng)站的難題轉(zhuǎn)化為簡單的搜索查詢?nèi)蝿眨蠢媚壳俺墒斓乃阉饕娌樵傾PI,準確定位和查詢詞相關(guān)的候選網(wǎng)站集合,這極大避免了主題爬蟲中漫無目遍歷網(wǎng)頁的過程,簡化了爬蟲整體設計。
4.根據(jù)權(quán)利要求1所述的基于搜索引擎的輕量級網(wǎng)頁主題爬蟲方法,其特征在于,步驟4中所述網(wǎng)頁解析包括兩方面的內(nèi)容,一方面是發(fā)現(xiàn)爬取到的網(wǎng)站中的外鏈,由此發(fā)現(xiàn)更多的主題相關(guān)網(wǎng)站,另一方面通過分析網(wǎng)頁文本來自動構(gòu)造新的種子,是實現(xiàn)種子更新的基礎。
5.根據(jù)權(quán)利要求1所述的基于搜索引擎的輕量級網(wǎng)頁主題爬蟲方法,其特征在于,步驟6中所述爬取更新則是為了保證已爬取的網(wǎng)頁和實際的網(wǎng)站盡量保持一致,即爬蟲能根據(jù)實際網(wǎng)頁發(fā)生變化的過程,智能地調(diào)整自身重新對網(wǎng)站進行爬取的周期。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于焦點科技股份有限公司,未經(jīng)焦點科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310285000.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 高速高帶寬AHB總線到低速低帶寬AHB總線的雙向轉(zhuǎn)換橋
- 可拆裝換鉤頭的1輕量級的鋁制手柄及十四枚鋼鉤針組合
- 一種輕量級節(jié)點的數(shù)據(jù)傳輸方法、裝置、設備和介質(zhì)
- 一種輕量級節(jié)點的數(shù)據(jù)傳輸方法、裝置、設備和介質(zhì)
- 輕量級請求的并發(fā)處理方法及相關(guān)設備
- 一種輕量級深度卷積神經(jīng)網(wǎng)絡的FPGA實現(xiàn)方法
- 一種小區(qū)選擇方法、輕量級終端及網(wǎng)絡設備
- 授權(quán)簽名生成方法、節(jié)點管理方法、裝置、設備和介質(zhì)
- 輕量級桌面機械臂底座及輕量級桌面機械臂
- 輕量級機械臂束線結(jié)構(gòu)、輕量級機械臂及機器人





