[發明專利]超文本抓取方法和裝置在審
| 申請號: | 201710228779.6 | 申請日: | 2017-04-10 |
| 公開(公告)號: | CN108694197A | 公開(公告)日: | 2018-10-23 |
| 發明(設計)人: | 張波;孟遙;孫俊 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李春暉;李德山 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 頁面 權威度 抓取 遍歷 方法和裝置 鏈接頁面 超文本頁面 頁面集合 鏈接 舍棄 指向 保留 申請 | ||
本申請公開了一種超文本抓取方法和裝置。其中,基于第一種子頁面,對鏈接頁面進行第一遍歷,以抓取超文本頁面。對于通過第一遍歷抓取的每一個當前頁面,獲得其第一權威度。若第一權威度大于第一閾值,則保留該當前頁面,并基于該當前頁面繼續遍歷;否則舍棄該當前頁面,并從第二訓練頁面集合中選取與該當前頁面相似的頁面,以其所包含的鏈接所指向的鏈接頁面中第二權威度最大的頁面作為當前頁面繼續遍歷;其中,所述第二權威度是對第二訓練頁面的權威度加以調整后的值。
技術領域
本申請涉及信息處理領域,具體地涉及互聯網領域,更具體地涉及一種超文本抓取方法、超文本抓取裝置以及程序。
背景技術
網絡爬蟲是一種自動獲取網頁內容或稱超文本的程序。傳統爬蟲從一個或若干初始網頁或稱種子頁面的URL開始,獲得初始網頁上的鏈接(URL),在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。另外一些不常使用的名字還有螞蟻、自動索引或者蠕蟲。
傳統的網絡爬蟲使用遍歷算法,并在遍歷獲取的頁面中選擇主題相關度高的鏈接進行繼續抓取,對于主題不相關的頁面則直接丟棄,直到滿足一定的條件結束。
發明內容
在下文中給出了關于本發明的簡要概述,以便提供關于本發明的某些方面的基本理解。應當理解,這個概述并不是關于本發明的窮舉性概述。它并不是意圖確定本發明的關鍵或重要部分,也不是意圖限定本發明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
根據本發明的一個方面,提供了一種超文本抓取方法,包括:基于第一種子頁面,對鏈接頁面進行第一遍歷,以抓取超文本頁面;其中,對于通過第一遍歷抓取的每一個當前頁面,獲得其第一權威度;若第一權威度大于第一閾值,則保留該當前頁面,并基于該當前頁面繼續遍歷;否則舍棄該當前頁面,并從第二訓練頁面集合中選取與該當前頁面相似的頁面,以其所包含的鏈接所指向的鏈接頁面中第二權威度最大的頁面作為當前頁面繼續遍歷;其中,所述第二權威度是對第二訓練頁面的權威度加以調整后的值。
根據本發明的另一個方面,提供了一種超文本抓取裝置,包括:遍歷單元,用于基于第一種子頁面,對鏈接頁面進行第一遍歷以抓取超文本頁面;權威度評估單元,用于對于通過第一遍歷抓取的每一個當前頁面,獲得其第一權威度;以及訓練頁面庫,所述訓練頁面庫中的頁面的權威度已經基于其包含的鏈接所指向的頁面的權威度進行了調整,成為第二權威度;其中,所述遍歷單元被配置為:若第一權威度大于第一閾值,則保留該當前頁面,并基于該當前頁面繼續遍歷;否則舍棄該當前頁面,并從訓練頁面庫中選取與該當前頁面相似的頁面,以其所包含的鏈接所指向的鏈接頁面中第二權威度最大的頁面作為當前頁面繼續遍歷。
依據本發明的其它方面,還提供了相應的計算機程序代碼、計算機可讀存儲介質和計算機程序產品。
根據本申請的超文本抓取方法、裝置和程序,當抓取到主題不是很相關的頁面時,網絡爬蟲的遍歷不一定在該頁面停止,而是要考察與該頁面相關聯的頁面中主題相關度較高的鏈接繼續遍歷,從而避免遺漏某些頁面。
通過以下結合附圖對本發明的優選實施例的詳細說明,本發明的這些以及其他優點將更加明顯。
附圖說明
為了進一步闡述本申請的以上和其它優點和特征,下面結合附圖對本申請的具體實施方式作進一步詳細的說明。所述附圖連同下面的詳細說明一起包含在本說明書中并且形成本說明書的一部分。具有相同的功能和結構的元件用相同的參考標號表示。應當理解,這些附圖僅描述本申請的典型示例,而不應看作是對本申請的范圍的限定。在附圖中:
圖1A是本申請的超文本抓取方法的一種實施方式的示意流程圖;
圖1B是本申請的超文本抓取方法的另一種實施方式的示意流程圖;
圖2是本申請的一種實施方式中與當前頁面相關聯的鏈接頁面的示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710228779.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種WEB網絡的知識管理系統
- 下一篇:信息收集設備和信息收集方法





