[發明專利]一種電子文檔結構化方法在審
| 申請號: | 202011578098.0 | 申請日: | 2020-12-28 |
| 公開(公告)號: | CN112800719A | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 孟鑫 | 申請(專利權)人: | 北京思題科技有限公司 |
| 主分類號: | G06F40/111 | 分類號: | G06F40/111;G06F40/114;G06F40/117;G06F40/151 |
| 代理公司: | 北京世譽鑫誠專利代理有限公司 11368 | 代理人: | 孫國棟 |
| 地址: | 100089 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電子 文檔 結構 方法 | ||
1.一種電子文檔結構化方法,其特征在于,包括:
識別電子文檔的類型,其中,所述類型包括word類型、pdf類型、txt類型、jpg類型、png類型、bmp類型、zip類型;
根據所述類型,對所述電子文檔的內容進行標注。
2.根據權利要求1所述的電子文檔結構化方法,其特征在于,根據所述類型,對所述電子文檔的內容進行標注包括:
對Word、txt類型的電子文檔,解析所述電子文檔并提取所述電子文檔中的文本;
對特殊類型的電子文檔,采用html標記的方式進行標識,生成所述電子文檔的識別結果;
對于pdf類型的電子文檔,生成相應的png圖片,根據png圖片的處理方式處理所述電子文檔;
對于僅包含圖片的zip類型的電子文檔,將所述電子文檔解壓后,按照圖片的方式處理所述電子文檔;
對于jpg、png、bmp類型的電子文檔,按照圖片的方式處理所述電子文檔。
3.根據權利要求2所述的電子文檔結構化方法,其特征在于,按照圖片的方式處理所述電子文檔包括:
將所述電子文檔作為一頁呈現在web界面上并對所述電子文檔的結構進行標注,其中,標注的內容包括獨立圖片、行內圖片、公式、清除塊、頁面拆分。
4.根據權利要求3所述的電子文檔結構化方法,其特征在于,在對所述電子文檔的結構進行標注之后,所述方法還包括:
根據標注的內容,對圖片進行加工,包括:
將獨立圖片和行內圖片中的內容轉換為單張圖片;
采用公式識別技術識別公式并將所述公式轉換為成Latex語言描述的公式;
將獨立圖片、行內圖片、公式、清除塊從原始圖片中清除;
根據頁面拆分標注,將經過清除操作的原始圖片一分為二,得到多張圖片。
5.根據權利要求4所述的電子文檔結構化方法,其特征在于,在得到多張圖片之后,所述方法還包括:
分別對所述多張圖片進行文本識別,將得到的識別結果標注的內容重新拼接成完整的電子文檔識別結果。
6.根據權利要求5所述的電子文檔結構化方法,其特征在于,在將得到的識別結果標注的內容重新拼接成完整的電子文檔識別結果之后,所述方法還包括:
實時對比所述電子文檔識別結果與原始電子文檔的內容,如有錯誤,則對所述電子文檔識別結果進行編輯。
7.根據權利要求3所述的電子文檔結構化方法,其特征在于,對所述電子文檔的結構進行標注包括:
選擇一個結構化字段;
在所述電子文檔識別結果中拉選內容;
將拉選的內容呈現為已結構化標注的標記并建立拉選的內容已與所述結構化字段之間的關聯關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京思題科技有限公司,未經北京思題科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011578098.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種校直液壓機
- 下一篇:一種3D圖案防滲漏高透氣膜制備工藝





