[發明專利]網頁收藏方法和裝置有效
| 申請號: | 201310603048.7 | 申請日: | 2012-03-31 |
| 公開(公告)號: | CN103617223B | 公開(公告)日: | 2018-03-20 |
| 發明(設計)人: | 曾強;張平;魏欽剛 | 申請(專利權)人: | 北京奇虎科技有限公司;奇智軟件(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京華沛德權律師事務所11302 | 代理人: | 劉杰 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 收藏 方法 裝置 | ||
本發明專利申請是申請日為2012年3月31日、申請號為201210092944.7、名稱為“一種網頁收藏方法、裝置及系統”的中國發明專利申請的分案申請。
技術領域
本發明涉及網絡數據處理領域,特別是涉及一種網頁收藏方法、裝置及系統。
背景技術
收藏網頁,是指互聯網用戶將感興趣的網頁進行保存,以便于隨時能夠重新閱讀相關信息。
現有技術中一種網頁收藏方法是:將用戶瀏覽過的網頁內容以快照的形式保存起來。具體的,該方法實現的過程中,根據用戶所提供的待收藏網頁的超鏈接,定位網頁并對網頁進行快照,將快照保存為網頁收藏信息,用戶還可以進一步對所收藏的網頁標題、簡介和標簽等信息進行編輯。網頁收藏成功后,用戶可以隨時進行查看。
但是,現有技術中的網頁收藏方法,在快照的形式顯示網頁收藏內容時,也丟失大量的網頁原始信息,很容易導致所述顯示的收藏網頁內容失去原有的排版格式,頁面雜亂無章,可讀性差。
發明內容
本發明的目的是提供一種網頁收藏方法、裝置及系統,能夠較為完整的保存網頁收藏頁面內容。
為實現上述目的,本發明提供了如下方案:
一種網頁收藏方法,包括:
接收到用戶對所瀏覽的網頁執行的收藏操作指令后,利用寫入所述網頁的用于抓取網頁內容的腳本代碼,抓取所述網頁的內容描述信息;
對所述內容描述信息進行解析,根據解析結果抓取所述網頁的內容;
對所抓取的網頁內容進行保存。
其中,還包括:
當檢測到所述用戶所瀏覽的網頁加載完成時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼;
或者,
當接收到用戶對所瀏覽的網頁執行的收藏操作指令時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼。
其中,所述向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼,包括:
在用戶所瀏覽的網頁中添加內嵌框架;
在所述內嵌框架中寫入所述腳本代碼。
其中,所述抓取所述網頁的內容描述信息,包括:
抓取所述網頁的文檔對象模型信息。
其中,所述對所抓取的網頁內容進行保存,包括:
根據所述網頁的文檔對象模型信息,將所抓取的網頁內容以結構化樣式進行保存。
其中,所述根據解析結果抓取所述網頁的內容包括:
根據預設的規則對網頁內容中包含的不具有收藏意義的內容進行過濾,根據過濾結果抓取所述網頁的內容。
其中,所述根據解析結果抓取所述網頁的內容包括:
在網頁內容包括圖片的情況下,判斷網頁中的圖片數量是否大于預設的閾值,如果是,則采用異步方式下載所述網頁的圖片內容。
其中,
在抓取網頁的內容描述信息之后,還包括:將所述內容描述信息發送至服務器端設備;
所述服務器端設備對所述內容描述信息進行解析,根據解析結果抓取所述網頁的內容,并對所抓取的網頁內容進行保存。
一種網頁收藏裝置,包括:
描述信息抓取單元,用于接收到用戶對所瀏覽的網頁執行的收藏操作指令后,利用寫入所述網頁的用于抓取網頁內容的腳本代碼,抓取所述網頁的內容描述信息;
網頁內容抓取單元,用于對所述內容描述信息進行解析,根據解析結果抓取所述網頁的內容;
網頁內容保存單元,用于對所抓取的網頁內容進行保存。
其中,還包括:
代碼注入單元,用于當檢測到所述用戶所瀏覽的網頁加載完成時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼;或者,當接收到用戶對所瀏覽的網頁執行的收藏操作指令時,向用戶所瀏覽的網頁中寫入用于抓取網頁內容的腳本代碼。
其中,所述代碼注入單元,包括:
框架添加子單元,用于在用戶所瀏覽的網頁中添加內嵌框架;
代碼寫入子單元,用于在所述內嵌框架中寫入所述腳本代碼。
其中,所述描述信息抓取單元,具體用于:
在接收到用戶的收藏操作指令后,利用預先寫入的腳本代碼,抓取所述網頁的文檔對象模型信息。
其中,所述網頁內容保存單元,具體用于:
根據所述網頁的文檔對象模型信息,將所抓取的網頁內容以結構化樣式進行保存。
其中,所述網頁內容抓取單元,具體用于:
根據預設的規則對網頁內容中包含的不具有收藏意義的內容進行過濾,根據過濾結果抓取所述網頁的內容。
其中,所述網頁內容抓取單元,具體用于:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司;奇智軟件(北京)有限公司,未經北京奇虎科技有限公司;奇智軟件(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310603048.7/2.html,轉載請聲明來源鉆瓜專利網。





