[發明專利]從網頁中提取圖片的方法、裝置及客戶端設備有效
| 申請號: | 201310294425.3 | 申請日: | 2013-07-12 |
| 公開(公告)號: | CN104281629B | 公開(公告)日: | 2018-12-21 |
| 發明(設計)人: | 張凱宏;徐鳴 | 申請(專利權)人: | 珠海豹好玩科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 許靜;黃燦 |
| 地址: | 519000 廣東省珠海市橫琴新*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 提取 圖片 方法 裝置 客戶端 設備 | ||
本發明提供一種從網頁中提取圖片的方法、裝置及客戶端設備,屬于互聯網應用技術領域。其中,從網頁中提取圖片的方法,包括:步驟a:獲取所述網頁的源代碼,根據所述源代碼獲取所述網頁的實質內容;步驟c:確定所述實質內容中的段落的重要程度,確定包含有圖片的所述段落中重要程度最高的段落,并將所述重要程度最高的段落中的圖片確定為待提取的目標圖片;步驟d:獲取所述目標圖片,以將所述目標圖片展示給用戶,使得所述用戶能夠在未打開所述網頁時通過查看所述目標圖片了解所述網頁的內容。本發明的技術方案可以從網頁中提取與網頁內容具有較高相關度的圖片。
技術領域
本發明涉及互聯網應用技術領域,特別是指一種從網頁中提取圖片的方法、裝置及客戶端設備。
背景技術
一般情況下,網頁頁面中除了有文字信息之外,還放置有一些圖片,以更加形象直觀地體現網頁內容。在很多情況下,用戶瀏覽網頁時并不會瀏覽網頁頁面的全部內容,而只關注網頁頁面中的圖片信息,從圖片信息中大致了解網頁的內容。這樣為了方便用戶,可以在用戶沒有打開網頁時,從用戶將要打開的網頁中提取代表網頁內容的某張圖片展示給用戶,以提供預覽欄、在預覽欄中展示圖片的形式,使用戶通過提取的圖片提前了解網頁的內容。
但是,如果只是簡單地從一個網頁中隨機提取一張圖片展示給用戶,并不能保證提取的圖片與網頁內容具有很高的相關度,也就不能保證用戶從提取的圖片中較為準確的了解網頁的大致內容。
發明內容
本發明要解決的技術問題是提供一種從網頁中提取圖片的方法、裝置及客戶端設備,可以從網頁中提取與網頁內容具有較高相關度的圖片。
為解決上述技術問題,本發明的實施例提供技術方案如下:
一方面,提供一種從網頁中提取圖片的方法,包括:
步驟a:獲取所述網頁的源代碼,根據所述源代碼獲取所述網頁的實質內容;
步驟c:確定所述實質內容中的段落的重要程度,確定包含有圖片的所述段落中重要程度最高的段落,并將所述重要程度最高的段落中的圖片確定為待提取的目標圖片;
步驟d:獲取所述目標圖片,以將所述目標圖片展示給用戶,使得所述用戶能夠在未打開所述網頁時通過查看所述目標圖片了解所述網頁的內容。
進一步地,上述方案中,所述步驟a之后,所述步驟c之前,所述方法還包括:
步驟b:根據所述獲取的所述網頁的實質內容,確定所述實質內容中的段落中相鄰段落的相關度,根據所述確定的相鄰段落的相關度對所述網頁的實質內容中的段落進行合并處理,所述合并處理后,所述網頁的實質內容中的段落包括合并段落和未合并段落;
所述步驟c中確定所述實質內容中的段落的重要程度包括:
確定所述合并段落和未合并段落的重要程度;或者
確定所述合并段落和未合并段落中包含有圖片的段落的重要程度。
進一步地,上述方案中,所述步驟b中根據所述獲取的所述網頁的實質內容,確定所述實質內容中的段落中相鄰段落的相關度包括:
根據所述獲取的所述網頁的實質內容,將所述網頁的實質內容中每個段落的文字拆分為多個詞語,并對拆分后的詞語進行過濾,去除其中的干擾詞,并統計剩余的非干擾詞的詞頻,所述詞頻為所述非干擾詞在所述段落中出現的次數;
根據每個所述段落中的非干擾詞及非干擾詞的詞頻,確定所述實質內容中的段落中相鄰段落的相關度。
進一步地,上述方案中,所述根據每個段落中的非干擾詞及非干擾詞的詞頻,確定所述實質內容中的段落中相鄰段落的相關度包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于珠海豹好玩科技有限公司,未經珠海豹好玩科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310294425.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種導管夾
- 下一篇:一種新型婦產科消毒刷





