[發明專利]網頁中關鍵圖片的抓取方法和裝置有效
| 申請號: | 201110443869.X | 申請日: | 2011-12-27 |
| 公開(公告)號: | CN103186532B | 公開(公告)日: | 2019-05-10 |
| 發明(設計)人: | 李曉明;劉臻;蔣有星 | 申請(專利權)人: | 騰訊科技(北京)有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/9535 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 張曉峰;宋志強 |
| 地址: | 100080 北京市海淀區海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 關鍵 圖片 抓取 方法 裝置 | ||
1.一種網頁中關鍵圖片的抓取方法,其特征在于,包括:
A、分享網頁時,分享接口獲取該網頁的網頁地址,根據網頁地址獲取網頁的文檔對象模型DOM結構;
B、根據網頁的DOM結構定位網頁的中心節點,其中包括:根據H標簽依照權重由高到低的順序定位一個以上的中心節點,對于同一權重等級的H標簽的多個節點,依據網頁結構順序對所述多個節點進行排序以定位所述中心節點;先針對權重最高的中心節點執行步驟C和D;
C、正則匹配所述中心節點及其兄弟節點處的圖片,按照預設的過濾條件對正則匹配出的圖片進行過濾,輸出符合過濾條件的圖片;所述中心節點的兄弟節點為:該中心節點的父節點的遍歷子節點;
D、將步驟C輸出的圖片作為抓取到的所述網頁的關鍵圖片,向所述分享接口返回所述關鍵圖片,其中,所述關鍵圖片指描述或補充所述網頁的主題內容的圖片;
如果所述權重最高的中心節點進行步驟C和D沒有抓取到所述網頁的關鍵圖片,則根據權重順序選擇下一個中心節點,針對該中心節點執行所述步驟C和D。
2.根據權利要求1所述的方法,其特征在于,所述步驟C中,如果沒有正則匹配出所述中心節點及其兄弟節點處的圖片、或者如果經過所述過濾處理后過濾掉了所有圖片,則進一步包括:根據所述網頁的DOM結構確定所述中心節點的父節點,正則匹配該父節點及其兄弟節點處的圖片,按照預設的過濾條件對正則匹配出的所述父節點及其兄弟節點處的圖片進行過濾,輸出符合過濾條件的圖片。
3.根據權利要求2所述的方法,其特征在于,所述步驟C中,如果沒有正則匹配出所述父節點及其兄弟節點處的圖片、或者如果對正則匹配出的所述父節點及其兄弟節點的圖片進行過濾處理后過濾掉了所有的圖片,則進一步包括:根據所述網頁的DOM結構確定下一中心節點,重新執行本步驟C。
4.根據權利要求3所述的方法,其特征在于,步驟C中,在正則匹配過所有的中心節點后、或者正則匹配過的中心節點數達到預設的閾值后,如果沒有匹配出圖片、或者經過所述過濾處理后過濾掉了所有的圖片,則進一步包括:
正則匹配所述網頁的全局DOM結構的圖片,根據預設的過濾條件對所述正則匹配出的圖片進行過濾,輸出符合過濾條件的圖片。
5.根據權利要求2至4任一項所述的方法,其特征在于,所述對圖片進行過濾的方法具體為:
進行格式過濾,選出符合指定格式的圖片;
進行屬性過濾,選出符合指定高度和寬度的圖片。
6.根據權利要求5所述的方法,其特征在于,所述對圖片進行過濾的方法中進一步包括:
根據alt屬性和title屬性對所述經過格式過濾和屬性過濾選出的圖片進行加權,選出權重最高的圖片;
根據所述網頁的DOM結構,確定與所述權重最高的圖片連續的若干圖片,對所述若干圖片重新進行所述格式過濾和屬性過濾,輸出通過過濾的圖片和所述權重最高的圖片。
7.根據權利要求5所述的方法,其特征在于,所述對圖片進行過濾的方法中進一步包括:
從所述經過格式過濾和屬性過濾選出的圖片中選擇面積最大的圖片;
根據所述網頁的DOM結構,確定與所述面積最大的圖片連續的若干圖片,對所述若干圖片重新進行所述格式過濾和屬性過濾,輸出通過過濾的圖片和所述面積最大的圖片。
8.根據權利要求5所述的方法,其特征在于,所述格式過濾中所述的指定格式的圖片為JPG圖片和PNG圖片。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(北京)有限公司,未經騰訊科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110443869.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種飼用合生元的制備方法
- 下一篇:分體式燈具提手裝置及燈具





