[發明專利]一種實現電子材料數字化流程自動化的方法在審
| 申請號: | 202110294010.0 | 申請日: | 2021-03-19 |
| 公開(公告)號: | CN113157642A | 公開(公告)日: | 2021-07-23 |
| 發明(設計)人: | 石園;王家樂;張曉明 | 申請(專利權)人: | 浪潮云信息技術股份公司 |
| 主分類號: | G06F16/11 | 分類號: | G06F16/11;G06F16/13;G06F16/16;G06F16/178;G06F16/182 |
| 代理公司: | 濟南信達專利事務所有限公司 37100 | 代理人: | 姜明 |
| 地址: | 250100 山東省濟南市高*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實現 電子 材料 數字化 流程 自動化 方法 | ||
1.一種實現電子材料數字化流程自動化的方法,其特征在于:包括以下步驟:
S1、獲取電子文件;
S2、判斷電子文件類型;
S3、電子文件預處理;
S4、生成可搜索PDF文件;
S5、提取結構化目錄數據;
S6、結構化目錄數據入庫;
S7、電子文件特定規則重新命名;
S8、電子文件上傳;
S9、電子文件與結構化目錄數據自動連接;
S10、通過腳本編程將上述各步驟組織成工作流,自動化管理數據流在在上述各步驟間流轉。
2.根據權利要求1所述的實現電子材料數字化流程自動化的方法,其特征在于:步驟S2中,判斷電子文件類型是否為PDF類型,若為非PDF類型則使用PDF生成組件轉化為PDF格式文件。
3.根據權利要求2所述的實現電子材料數字化流程自動化的方法,其特征在于:PDF生成組件基于腳本實現office格式文件轉換成PDF文件。
4.根據權利要求3所述的實現電子材料數字化流程自動化的方法,其特征在于:步驟S3中,基于itextpdf類庫通過腳本實現橫向排版的頁面自動糾偏、空白頁自動去除的預處理。
5.根據權利要求4所述的實現電子材料數字化流程自動化的方法,其特征在于:步驟S4中,可搜索PDF生成組件檢查PDF文件的文本圖層,若存在文本圖層,使用現有的文本圖層,否則使用OCR創建新的文本圖層。
6.根據權利要求5所述的實現電子材料數字化流程自動化的方法,其特征在于:步驟S5中,結構化目錄數據提取組件間生成的可搜索的PDF文件作為輸入,讀取電子文件第一頁的文本內容,采用關鍵字正則表達式匹配的方式讀取當前電子文件的文件業務類別、業務唯一標識碼的信息項,形成當前電子文件的結構化形式的目錄項信息。
7.根據權利要求6所述的實現電子材料數字化流程自動化的方法,其特征在于:步驟S6中,將解析出的結構化目錄數據導入關系數據庫,以業務唯一標識碼作為數據庫表主鍵。
8.根據權利要求7所述的實現電子材料數字化流程自動化的方法,其特征在于:步驟S7中,將解析出的結構化目錄數據,以業務唯一標識碼-文件業務類別的命名規則,重新命名當前電子文件。
9.根據權利要求8所述的實現電子材料數字化流程自動化的方法,其特征在于:步驟S8中,電子文件上傳組件調用云對象存儲HTTP接口,上傳當前電子文件的同時,傳遞基于當前電子文件固定的命名規則解析出的業務唯一標識碼和文件業務類別兩個參數。
10.根據權利要求9所述的實現電子材料數字化流程自動化的方法,其特征在于:步驟S9中,結構化目錄數據的關系數據庫表以業務唯一標識碼作為主鍵,云對象存儲中的文件元數據包含業務唯一標識碼信息,基于業務唯一標識碼自動實現電子文件和結構化目錄數據間的掛接。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮云信息技術股份公司,未經浪潮云信息技術股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110294010.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種滑模臺車及其施工方法
- 下一篇:一種風電場的年發電量預測方法和系統





