[發明專利]一種獲取網絡數據的方法在審

申請號：	201811274605.4	申請日：	2018-10-30
公開（公告）號：	CN109299423A	公開（公告）日：	2019-02-01
發明（設計）人：	程國艮;郝雁華	申請（專利權）人：	中譯語通科技股份有限公司
主分類號：	G06F16/958	分類號：	G06F16/958
代理公司：	北京中譽威圣知識產權代理有限公司 11279	代理人：	蔣常雪
地址：	100040 北京市石***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	網絡數據資源文件網頁服務器響應保存處理過濾特性技術分析內容保存內容展示脫機文件完整存儲網頁保存網頁內容透明的瀏覽器離線服務器存儲攔截保存服務
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開一種獲取網絡數據的方法。所述方法在瀏覽器器和服務器之間，設置http代理服務，通過http代理服務的過濾特性，攔截當前網頁中所有url請求，并將與各url請求對應的服務器響應內容保存為脫機文件，從而實現對所有url請求內容的有序存儲，達到完整保存網頁及其所包含的所有資源文件的功能。本發明所述方法將網頁保存問題下降到在http協議層處理，對所有的url無差別對待，均進行保存處理，能夠以對用戶透明的方式實現對網頁內容及其所包含的所有資源文件的完整存儲，以方便在本地以離線方式進行技術分析和內容展示。

技術領域

本發明屬于計算機應用技術領域，具體涉及一種獲取網絡數據的方法。

背景技術

隨著網絡應用的普及，B/S架構的應用系統越來越多，用戶已經習慣通過網頁瀏覽器獲取信息了。在實踐中，用戶經常需要保存一些網頁的內容。目前用戶都是通過瀏覽器提供的“另存為”功能來保存正在瀏覽的網頁內容。但是，現有的瀏覽器“另存為”操作，不能完整保存網頁內容，當js或css中包含url時，很難抓取到對應的文件；即使使用爬蟲工具爬取頁面，也會有部分文件不能被正確保存。

現有的網頁保存方案，一般都是在內容層面處理，太過復雜的內容處理起來難度太高，而且很容易遺漏資源文件，影響前端頁面展示。

本發明是在瀏覽器和服務器之間，通過http代理的過濾特性，攔截當前網頁中所有url請求，并保存為脫機文件，從而達到完整網頁另存的功能。

發明內容

為了解決現有的瀏覽器不能完整地保存網頁的問題，本發明提供一種獲取網絡數據的方法，所述方法將網頁保存問題下降到在http協議層處理，對所有的url無差別對待，均進行保存處理，對資源文件內容和地址不做修改，保證了脫機離線頁面的完整性。

為實現上述目標，本發明采用以下技術方案：

一種獲取網絡數據的方法，所述方法在瀏覽器器和服務器之間，設置http代理服務，通過http代理服務的過濾特性，攔截當前網頁中所有url請求，并將與各url請求對應的服務器響應內容保存為脫機文件，從而實現對所有url請求內容的有序存儲，達到完整保存網頁及其所包含的所有資源文件的功能。

一種獲取網絡數據的方法，所述方法包括以下步驟：

1）編寫http代理服務程序，所述服務程序對http協議進行代理，讀取request地址，依據該地址建立磁盤目錄和文件，讀取與request地址相對應的response內容存入相關聯的磁盤目錄和文件；

2）啟動所編寫的http代理服務程序；

3）設置瀏覽器的代理服務為所述步驟2）啟動的http代理服務；

4）訪問頁面，http代理服務程序自動保存網頁及其包含的所有資源文件；

5）在磁盤目錄下可以查看所有保存的資源文件；