[發明專利]一種網頁內容的提取方法、裝置和設備無效
| 申請號: | 201210497275.1 | 申請日: | 2012-11-28 |
| 公開(公告)號: | CN103020179A | 公開(公告)日: | 2013-04-03 |
| 發明(設計)人: | 左景龍;徐國市;張少偉 | 申請(專利權)人: | 北京小米科技有限責任公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 100102 北京市朝陽區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 網頁 內容 提取 方法 裝置 設備 | ||
技術領域
本發明實施例涉及網頁技術領域,特別是涉及一種網頁內容的提取方法,一種網頁內容的提取裝置,以及一種設備。
背景技術
網站除了向用戶提供新聞、圖片等網頁內容時,出于盈利、推廣等目的,也經常會在網頁上布置一些廣告、推薦信息等與網頁正文內容無關的信息。
現今,網頁上層出不窮的廣告給用戶的瀏覽網頁帶來了很大的干擾,尤其是用戶在移動終端上瀏覽網頁時,由于移動終端的屏幕較小,而廣告還需要占用一部分位置。為了避免這種情況,部分瀏覽器會提供給用戶閱讀模式的功能,也即,當用戶瀏覽一個網頁時,選擇閱讀模式后,瀏覽器會自動提取網頁預設內容,例如包括網頁的題目,正文內容等,只將網頁預設內容展示給用戶,而不顯示廣告等內容。
目前,在識別網頁預設內容時,通常是采用分析整個網頁文檔(例如HTML文檔)方法來提取。具體而言,首先根據將網頁文檔劃分為多個文本塊,然后依據各個文本塊所包含的文字內容判斷是否可以作為網頁預設內容,然后將網頁預設內容提取出來重新排版顯示給用戶。
以上背景技術中存在的問題是:
1、在提取網頁預設內容的過程中,需要遍歷整個網頁文檔的全部內容,針對各個文本塊進行判斷時,需要進行大量的計算,提取效率比較低;
2、在移動終端的硬件配置不高的情況下,大量的計算操作會產生對移動終端的性能影響。
發明內容
本發明實施例提供了一種網頁內容的提取方法,以提高網頁預設內容的提取效率。
本發明實施例還提供了一種網頁內容的提取裝置,以及,一種設備,用以保證上述方法在實際中的應用及實現。
為了解決上述問題,本發明實施例公開了一種網頁內容的提取方法,包括:
提取第一網頁的第一預設內容,并記錄所述第一網頁的第一屬性信息和所述第一預設內容對應的第一特征信息;
在訪問第二網頁時,確定所述第二網頁的第二屬性信息與所述第一屬性信息一致,
按照所述第一特征信息提取所述第二網頁的第二預設內容。
較佳的,所述第一屬性信息和第二屬性信息為網頁所對應的全部網頁文檔或預設部分網頁文檔的模板信息。
較佳的,所述模板信息包括網頁文檔中所包含的依次排列的各個節點標識。
較佳的,所述確定所述第二網頁的第二屬性信息與所述第一屬性信息一致的步驟,采用如下方式:
依次對比所述第二網頁與所述第一網頁的全部或預設部分網頁文檔中的各個節點標識;
確定各個節點標識的名稱均相同,并且節點標識的個數也相同,則所述第二屬性信息與第一屬性信息一致。
較佳的,所述第一特征信息為所述第一預設內容中所對應的依次排列的節點標識,所述按照第一特征信息提取第二網頁的第二預設內容的步驟,采用如下方式:
在第二網頁對應的網頁文檔中,查找與所述第一特征信息具備相同節點標識的節點;
提取所述節點中的節點內容作為第二網頁的第二預設內容。
較佳的,所述提取第一網頁的第一預設內容的步驟,采用如下方式:
提取第一網頁的網頁文檔中各個節點的節點標識;
確定所述節點標識為預設標識,將所述節點標識對應的節點內容提取出來作為第一預設內容。
較佳的,所述預設部分網頁文檔為預設節點之后的網頁文檔。
本發明實施例還提供了一種網頁內容的提取裝置,包括:
信息記錄模塊,用于提取第一網頁的第一預設內容,并記錄所述第一網頁的第一屬性信息和所述第一預設內容對應的第一特征信息;
確定模塊,用于在訪問第二網頁時,確定所述第二網頁的第二屬性信息與所述第一屬性信息一致;
預設內容提取模塊,用于按照所述第一特征信息提取所述第二網頁的第二預設內容。
較佳的,所述第一屬性信息和第二屬性信息為網頁所對應的全部網頁文檔或部分網頁文檔的模板信息。
較佳的,所述模板信息包括網頁文檔中所包含的依次排列的各個節點標識。
較佳的,所述確定模塊包括:
節點標識對比子模塊,用于依次對比所述第二網頁與所述第一網頁的全部或預設部分網頁文檔中的各個節點標識;
節點標識確定子模塊,用于確定各個節點標識的名稱均相同,并且節點標識的個數也相同,則所述第二屬性信息與第一屬性信息一致。
較佳的,所述第一特征信息為所述第一預設內容中所對應的依次排列的節點標識,所述預設內容提取模塊包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米科技有限責任公司,未經北京小米科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210497275.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:棗仁甘草茶
- 下一篇:一組金櫻子斂氣固脫片
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





