[發明專利]一種保留原生內容的OCR雙層文件生成方法在審
| 申請號: | 202210109987.5 | 申請日: | 2022-01-28 |
| 公開(公告)號: | CN114463758A | 公開(公告)日: | 2022-05-10 |
| 發明(設計)人: | 瞿歡;陳欣;姬輝;何鵬飛 | 申請(專利權)人: | 南京云檔信息科技有限公司 |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148;G06N3/04 |
| 代理公司: | 南京中盟科創知識產權代理事務所(特殊普通合伙) 32279 | 代理人: | 孫麗君 |
| 地址: | 210000 江蘇省南京市棲霞區*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 保留 原生 內容 ocr 雙層 文件 生成 方法 | ||
本發明公開了一種保留原生內容的OCR雙層文件生成方法,該方法包括以下步驟:對原生文件進行計算、光學字符識別及存儲;獲取待使用文件,記錄文件id;根據所述文件id與頁碼,讀取對應的光學字符識別結果;根據用戶需求,返回不同類型結果。通過單獨存儲版式文件格式信息和OCR結果信息,在不改變原始數據內容的前提下提供“雙層”版式文件的使用,并且能靈活控制輸出“雙層”版式文件、“單文字層”版式文件和原生文件,從而不改變原始數據內容,原生文件原有的電子簽名以及區塊鏈信息等都不會改變,保證了數據的安全性和可靠性。
技術領域
本發明涉及文件處理技術領域,具體來說,涉及一種保留原生內容的OCR雙層文件生成方法。
背景技術
近年來,數字經濟快速發展成為中國經濟發展的新動能,越來越多的數據通過網絡交換并保存。版式文檔是網絡時代的“數字紙張”,指區別于流式文檔,在跨平臺、多系統下維持固定模式的辦公文檔,如pdf,ofd等。隨著數字經濟的成熟化發展,企業對數據信息安全的重視程度不斷上升。對版式文件進行電子簽名,區塊鏈等安全相關技術飛速發展。
已存在的電子數據(文件)中,有很大一部分是圖片形式,而對數據進行進一步處理,分析,應用的計算機程序(如搜索引擎,數據分析,OA系統等等)大部分主要使用的是文本信息,OCR技術應運而生。OCR,光學字符識別(Optical Character Recognition,OCR)是指對文本資料的圖像文件進行分析識別處理,獲取文字及版面信息的過程。亦即將圖像中的文字進行識別,并以文本的形式返回。
傳統技術下OCR流程為,掃描版式文件內容,生成文本信息,然后在原版式文件基礎上,加一層透明文字層,將文本信息結果按照識別的符號位置對原圖像層進行遮罩。這樣就形成”雙層“文件,底層是原數據層(圖像),上層是透明文字層,人或程序使用時,主要通過文字層直接抽取相關文本信息使用。這種方式很好的解決了圖像文件的后續程序難以分析的問題,但同時也引入了一個致命的安全問題:這種做法從數據層面改變了原生文件數據,數據合法性無法得到保障,如果原文件有電子簽名或使用區塊鏈記錄,均會導致文件驗證不通過,原生文件的合法性完全喪失。
針對相關技術中的問題,目前尚未提出有效的解決方案。
發明內容
針對相關技術中的問題,本發明提出一種保留原生內容的OCR雙層文件生成方法,以克服現有相關技術所存在的上述技術問題。
為此,本發明采用的具體技術方案如下:
一種保留原生內容的OCR雙層文件生成方法,該方法包括以下步驟:
對原生文件進行計算、光學字符識別(OCR)及存儲;
獲取待使用文件,記錄文件id(fileId);
根據所述文件的id與頁碼,讀取對應的OCR結果;
根據用戶需求,返回不同類型結果。
進一步的,所述對原生文件進行計算、OCR及存儲包括以下步驟:
從數據庫種讀取文件id;
按順序抽取原生文件中的每一個頁面;
識別并記錄當前頁面內容的版式,保存入庫;
對當前頁面內容進行OCR,保存入庫;
合并識別結果與OCR結果;
若原生文件存在下一頁,則繼續進行頁面識別與OCR。
進一步的,所述當前頁面的版式包括當前頁面的頁碼、寬及高。
進一步的,所述對當前頁面內容進行OCR包括以下步驟:
利用場景文字識別(EAST)算法對當前頁面內容進行文字檢測;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京云檔信息科技有限公司,未經南京云檔信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210109987.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:發動機文丘里管
- 下一篇:應用于量子密鑰分發片上系統的相位調制單元
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





