[發明專利]超文本抓取方法和裝置在審
| 申請號: | 201710228779.6 | 申請日: | 2017-04-10 |
| 公開(公告)號: | CN108694197A | 公開(公告)日: | 2018-10-23 |
| 發明(設計)人: | 張波;孟遙;孫俊 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李春暉;李德山 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 頁面 權威度 抓取 遍歷 方法和裝置 鏈接頁面 超文本頁面 頁面集合 鏈接 舍棄 指向 保留 申請 | ||
1.一種超文本抓取方法,包括:
基于第一種子頁面,對鏈接頁面進行第一遍歷,以抓取超文本頁面;其中,
對于通過第一遍歷抓取的每一個當前頁面,獲得其第一權威度;
若第一權威度大于第一閾值,則保留該當前頁面,并基于該當前頁面繼續遍歷;否則:
舍棄該當前頁面,并從第二訓練頁面集合中選取與該當前頁面相似的頁面,以其所包含的鏈接所指向的鏈接頁面中第二權威度最大的頁面作為當前頁面繼續遍歷;
其中,所述第二權威度是對第二訓練頁面的權威度加以調整后的值。
2.如權利要求1所述的超文本抓取方法,其中,
若作為當前頁面的所述鏈接頁面中第二權威度最大的頁面的第二權威度大于第二閾值,則保留該當前頁面,并基于該當前頁面繼續遍歷;否則舍棄該當前頁面。
3.如權利要求1或2所述的超文本抓取方法,其中,從所述第二訓練集合中選取的與該當前頁面相似的頁面包括與該當前頁面相同的頁面。
4.如權利要求1或2所述的超文本抓取方法,其中,所述調整包括:使用第二訓練頁面所包含的鏈接所指向頁面的權威度調整該第二訓練頁面的權威度。
5.如權利要求4所述的超文本抓取方法,其中,使用第二訓練頁面所包含的鏈接所指向頁面的最大權威度調整該第二訓練頁面的權威度。
6.如權利要求5所述的超文本抓取方法,其中,使用迭代算法進行所述調整。
7.如權利要求6所述的超文本抓取方法,所述調整使用以下計算公式:Q(A,B)=Reward(B)+γMax(Q(B,x))其中,Q(A,B)為A頁面中的鏈接指向的B頁面的調整后的權威度,Reward(B)為B頁面的未經調整的權威度,Q(B,x)為B頁面中的鏈接指向的x頁面的調整后的權威度,其中x為B頁面中的所有鏈接,γ為最大遠程回報,其取值范圍為0-1。
8.如權利要求7所述的超文本抓取方法,其中γ為0.8。
9.一種超文本抓取裝置,包括:
遍歷單元,用于基于第一種子頁面,對鏈接頁面進行第一遍歷以抓取超文本頁面;
權威度評估單元,用于對于通過第一遍歷抓取的每一個當前頁面,獲得其第一權威度;以及
訓練頁面庫,所述訓練頁面庫中的頁面的權威度已經基于其包含的鏈接所指向的頁面的權威度進行了調整,成為第二權威度;
其中,所述遍歷單元被配置為:若第一權威度大于第一閾值,則保留該當前頁面,并基于該當前頁面繼續遍歷;否則舍棄該當前頁面,并從訓練頁面庫中選取與該當前頁面相似的頁面,以其所包含的鏈接所指向的鏈接頁面中第二權威度最大的頁面作為當前頁面繼續遍歷。
10.如權利要求9所述的超文本抓取裝置,其中,所述遍歷單元被進一步配置為:若作為當前頁面的所述鏈接頁面中第二權威度最大的頁面的第二權威度大于第二閾值,則保留該當前頁面,并基于該當前頁面繼續遍歷;否則舍棄該當前頁面。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710228779.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種WEB網絡的知識管理系統
- 下一篇:信息收集設備和信息收集方法





