[發明專利]基于Electron的文檔離線系統及方法在審
| 申請號: | 201910495872.2 | 申請日: | 2019-06-05 |
| 公開(公告)號: | CN110309474A | 公開(公告)日: | 2019-10-08 |
| 發明(設計)人: | 周晶;吳峰;郭偉 | 申請(專利權)人: | 上海易點時空網絡有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/957 |
| 代理公司: | 北京卓唐知識產權代理有限公司 11541 | 代理人: | 唐海力;李志剛 |
| 地址: | 200125 上海市浦東*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 離線 云端服務器 離線系統 緩存 開發效率 入口地址 網絡攔截 訪問 上傳 云端 剔除 頁面 攔截 保存 分類 申請 | ||
1.基于Electron的文檔離線系統,其特征在于,包括Electron、離線模塊以及云端服務器;
所述Electron通過其網絡攔截功能對待離線文檔的入口地址進行攔并訪問;所述離線模塊對所述Electron攔截并訪問的文檔進行提取,對與文檔無關的頁面和資源進行剔除,同時對屬于文檔的資源進行本地化緩存,并保存至所述云端服務器中。
2.根據權利要求1所述的文檔離線系統,其特征在于,所述離線模塊通過Dom樹或網頁分割尋找正文塊的算法進行文檔提取。
3.根據權利要求2所述的文檔離線系統,其特征在于,所述Dom樹算法包括如下步驟:
1)利用開源包HTML Tidy處理HTML,更正其中錯誤或不規范的地方;
2)根據規范的HTML建立Dom樹,然后遞歸遍歷Dom樹,比較并識別各種非文檔的頁面和資源,包括廣告和非重要節點信息;并將其剔除;在本發明中,剔除廣告信息需要建立經常更新的廣告服務器列表;
3)剔除非文檔的頁面和資源后,將Dom樹中剩余的內容作為文檔內容從余下的樹節點中提取緩存。
4.根據權利要求2所述的文檔離線系統,其特征在于,所述網頁分割尋找正文塊算法具體為:首先利用HTML標簽中的分隔線以及視覺信息對網頁進行分割,在分割之后的各個塊中尋找到正文塊并進行緩存。
5.根據權利要求1所述的文檔離線系統,其特征在于,還包括二次編輯模塊;開發人員將離線后的文檔導入所述二次編輯模塊中,對所述離線后的文檔進行二次編輯,并將二次編輯后的文檔保存至所述云端服務器中。
6.根據權利要求5所述的文檔離線系統,其特征在于,所述二次編輯模塊采用ChromeDevTools Protocl。
7.一種應用權利要求1至6中任一項所述的文檔離線系統的文檔離線方法,其特征在于,包括步驟:
步驟1、通過Electron的網絡攔截功能對待離線文檔的入口地址進行攔并訪問;
步驟2、通過離線模塊對所述Electron攔截并訪問的文檔進行提取,對與文檔無關的頁面和資源進行剔除,同時對屬于文檔的資源進行本地化緩存,并保存至所述云端服務器中。
8.根據權利要求7所述的文檔離線方法,其特征在于,還包括對所述離線文檔的二次編輯步驟,具體為:通過所述二次編輯模塊對所述離線后的文檔進行二次編輯,并保存至所述云端服務器中。
9.根據權利要求7所述的文檔離線方法,其特征在于,所述步驟2中,離線模塊對所述Electron攔截并訪問的文檔進行提取離線采用的是Dom樹或網頁分割尋找正文塊的算法。
10.根據權利要求9所述的文檔離線方法,其特征在于,所述Dom樹算法包括如下步驟:1)利用開源包HTML Tidy處理HTML,更正其中錯誤或不規范的地方;2)根據規范的HTML建立Dom樹,然后遞歸遍歷Dom樹,比較并識別各種非文檔的頁面和資源,包括廣告和非重要節點信息;并將其剔除;在本發明中,剔除廣告信息需要建立經常更新的廣告服務器列表;3)剔除非文檔的頁面和資源后,將Dom樹中剩余的內容作為文檔內容從余下的樹節點中提取緩存;
所述網頁分割尋找正文塊算法具體為:首先利用HTML標簽中的分隔線以及視覺信息對網頁進行分割,在分割之后的各個塊中尋找到正文塊并進行緩存。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海易點時空網絡有限公司,未經上海易點時空網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910495872.2/1.html,轉載請聲明來源鉆瓜專利網。





