[發明專利]一種獲取網絡數據的方法在審
| 申請號: | 201811274605.4 | 申請日: | 2018-10-30 |
| 公開(公告)號: | CN109299423A | 公開(公告)日: | 2019-02-01 |
| 發明(設計)人: | 程國艮;郝雁華 | 申請(專利權)人: | 中譯語通科技股份有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958 |
| 代理公司: | 北京中譽威圣知識產權代理有限公司 11279 | 代理人: | 蔣常雪 |
| 地址: | 100040 北京市石*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡數據 資源文件 網頁 服務器響應 保存處理 過濾特性 技術分析 內容保存 內容展示 脫機文件 完整存儲 網頁保存 網頁內容 透明的 瀏覽器 離線 服務器 存儲 攔截 保存 服務 | ||
本發明公開一種獲取網絡數據的方法。所述方法在瀏覽器器和服務器之間,設置http代理服務,通過http代理服務的過濾特性,攔截當前網頁中所有url請求,并將與各url請求對應的服務器響應內容保存為脫機文件,從而實現對所有url請求內容的有序存儲,達到完整保存網頁及其所包含的所有資源文件的功能。本發明所述方法將網頁保存問題下降到在http協議層處理,對所有的url無差別對待,均進行保存處理,能夠以對用戶透明的方式實現對網頁內容及其所包含的所有資源文件的完整存儲,以方便在本地以離線方式進行技術分析和內容展示。
技術領域
本發明屬于計算機應用技術領域,具體涉及一種獲取網絡數據的方法。
背景技術
隨著網絡應用的普及,B/S架構的應用系統越來越多,用戶已經習慣通過網頁瀏覽器獲取信息了。在實踐中,用戶經常需要保存一些網頁的內容。目前用戶都是通過瀏覽器提供的“另存為”功能來保存正在瀏覽的網頁內容。但是,現有的瀏覽器“另存為”操作,不能完整保存網頁內容,當js或css中包含url時,很難抓取到對應的文件;即使使用爬蟲工具爬取頁面,也會有部分文件不能被正確保存。
現有的網頁保存方案,一般都是在內容層面處理,太過復雜的內容處理起來難度太高,而且很容易遺漏資源文件,影響前端頁面展示。
本發明是在瀏覽器和服務器之間,通過http代理的過濾特性,攔截當前網頁中所有url請求,并保存為脫機文件,從而達到完整網頁另存的功能。
發明內容
為了解決現有的瀏覽器不能完整地保存網頁的問題,本發明提供一種獲取網絡數據的方法,所述方法將網頁保存問題下降到在http協議層處理,對所有的url無差別對待,均進行保存處理,對資源文件內容和地址不做修改,保證了脫機離線頁面的完整性。
為實現上述目標,本發明采用以下技術方案:
一種獲取網絡數據的方法,所述方法在瀏覽器器和服務器之間,設置http代理服務,通過http代理服務的過濾特性,攔截當前網頁中所有url請求,并將與各url請求對應的服務器響應內容保存為脫機文件,從而實現對所有url請求內容的有序存儲,達到完整保存網頁及其所包含的所有資源文件的功能。
一種獲取網絡數據的方法,所述方法包括以下步驟:
1)編寫http代理服務程序,所述服務程序對http協議進行代理,讀取request地址,依據該地址建立磁盤目錄和文件,讀取與request地址相對應的response內容存入相關聯的磁盤目錄和文件;
2)啟動所編寫的http代理服務程序;
3)設置瀏覽器的代理服務為所述步驟2)啟動的http代理服務;
4)訪問頁面,http代理服務程序自動保存網頁及其包含的所有資源文件;
5)在磁盤目錄下可以查看所有保存的資源文件;
6)通過本地http服務可查看完整的離線網頁。
所述步驟3)設置瀏覽器的代理服務器的方式包括自動設置或手動設置;
所述步驟4)包括以下執行過程:
(1)http代理服務程序攔截訪問請求,分析請求內容,提取出其中包含的所有url;
(2)http代理服務程序為每個url創建一個對應的目錄和文件名;
(3)http代理服務程序為每個url向服務器請求響應;
(4)http代理服務程序攔截服務器針對每個url的響應內容;
(5)http代理服務程序將響應內容存入與其對應的目錄和文件中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技股份有限公司,未經中譯語通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811274605.4/2.html,轉載請聲明來源鉆瓜專利網。





