[發明專利]基于Electron的文檔離線系統及方法在審

申請號：	201910495872.2	申請日：	2019-06-05
公開（公告）號：	CN110309474A	公開（公告）日：	2019-10-08
發明（設計）人：	周晶;吳峰;郭偉	申請（專利權）人：	上海易點時空網絡有限公司
主分類號：	G06F16/958	分類號：	G06F16/958;G06F16/957
代理公司：	北京卓唐知識產權代理有限公司 11541	代理人：	唐海力;李志剛
地址：	200125 上海市浦東***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文檔離線云端服務器離線系統緩存開發效率入口地址網絡攔截訪問上傳云端剔除頁面攔截保存分類申請
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.基于Electron的文檔離線系統，其特征在于，包括Electron、離線模塊以及云端服務器；

所述Electron通過其網絡攔截功能對待離線文檔的入口地址進行攔并訪問；所述離線模塊對所述Electron攔截并訪問的文檔進行提取，對與文檔無關的頁面和資源進行剔除，同時對屬于文檔的資源進行本地化緩存，并保存至所述云端服務器中。

2.根據權利要求1所述的文檔離線系統，其特征在于，所述離線模塊通過Dom樹或網頁分割尋找正文塊的算法進行文檔提取。

3.根據權利要求2所述的文檔離線系統，其特征在于，所述Dom樹算法包括如下步驟：

1)利用開源包HTML Tidy處理HTML，更正其中錯誤或不規范的地方；

2)根據規范的HTML建立Dom樹，然后遞歸遍歷Dom樹，比較并識別各種非文檔的頁面和資源，包括廣告和非重要節點信息；并將其剔除；在本發明中，剔除廣告信息需要建立經常更新的廣告服務器列表；

3)剔除非文檔的頁面和資源后，將Dom樹中剩余的內容作為文檔內容從余下的樹節點中提取緩存。

4.根據權利要求2所述的文檔離線系統，其特征在于，所述網頁分割尋找正文塊算法具體為：首先利用HTML標簽中的分隔線以及視覺信息對網頁進行分割，在分割之后的各個塊中尋找到正文塊并進行緩存。

5.根據權利要求1所述的文檔離線系統，其特征在于，還包括二次編輯模塊；開發人員將離線后的文檔導入所述二次編輯模塊中，對所述離線后的文檔進行二次編輯，并將二次編輯后的文檔保存至所述云端服務器中。

6.根據權利要求5所述的文檔離線系統，其特征在于，所述二次編輯模塊采用ChromeDevTools Protocl。

7.一種應用權利要求1至6中任一項所述的文檔離線系統的文檔離線方法，其特征在于，包括步驟：

步驟1、通過Electron的網絡攔截功能對待離線文檔的入口地址進行攔并訪問；

步驟2、通過離線模塊對所述Electron攔截并訪問的文檔進行提取，對與文檔無關的頁面和資源進行剔除，同時對屬于文檔的資源進行本地化緩存，并保存至所述云端服務器中。

8.根據權利要求7所述的文檔離線方法，其特征在于，還包括對所述離線文檔的二次編輯步驟，具體為：通過所述二次編輯模塊對所述離線后的文檔進行二次編輯，并保存至所述云端服務器中。

9.根據權利要求7所述的文檔離線方法，其特征在于，所述步驟2中，離線模塊對所述Electron攔截并訪問的文檔進行提取離線采用的是Dom樹或網頁分割尋找正文塊的算法。

10.根據權利要求9所述的文檔離線方法，其特征在于，所述Dom樹算法包括如下步驟：1)利用開源包HTML Tidy處理HTML，更正其中錯誤或不規范的地方；2)根據規范的HTML建立Dom樹，然后遞歸遍歷Dom樹，比較并識別各種非文檔的頁面和資源，包括廣告和非重要節點信息；并將其剔除；在本發明中，剔除廣告信息需要建立經常更新的廣告服務器列表；3)剔除非文檔的頁面和資源后，將Dom樹中剩余的內容作為文檔內容從余下的樹節點中提取緩存；

所述網頁分割尋找正文塊算法具體為：首先利用HTML標簽中的分隔線以及視覺信息對網頁進行分割，在分割之后的各個塊中尋找到正文塊并進行緩存。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于上海易點時空網絡有限公司，未經上海易點時空網絡有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910495872.2/1.html，轉載請聲明來源鉆瓜專利網。