[發明專利]一種歷史文獻數字化方法、系統、裝置及存儲介質在審
| 申請號: | 202110140387.0 | 申請日: | 2021-02-02 |
| 公開(公告)號: | CN112836073A | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 劉越暢 | 申請(專利權)人: | 嘉應學院 |
| 主分類號: | G06F16/51 | 分類號: | G06F16/51;G06F16/58;G06F16/583;G06K9/00;G06K9/34 |
| 代理公司: | 深圳市創富知識產權代理有限公司 44367 | 代理人: | 葉燦才 |
| 地址: | 514015 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 歷史文獻 數字化 方法 系統 裝置 存儲 介質 | ||
1.一種歷史文獻數字化方法,其特征在于,包括以下步驟:
獲取平臺文獻資料,得到打包壓縮文件;
對打包壓縮文件進行解壓和格式轉換,得到預處理后圖像;
對預處理后圖像進行OCR識別和文字整合,得到整合后數據;
創建數據庫并將整合后數據存入數據庫。
2.根據權利要求1所述一種歷史文獻數字化方法,其特征在于,還包括:
對整合后數據進行識別校正。
3.根據權利要求2所述一種歷史文獻數字化方法,其特征在于,所述獲取平臺文獻資料,得到打包壓縮文件這一步驟,其具體包括:
基于平臺獲取文獻資料的文件包;
對文件包進行分析,構建得到文件樹結構圖;
對文件包和文件樹結構圖進行壓縮,得到打包壓縮文件。
4.根據權利要求3所述一種歷史文獻數字化方法,其特征在于,所述對打包壓縮文件進行解壓和格式轉換,得到預處理后圖像這一步驟,其具體包括:
對打包壓縮文件解壓到對應的文件目錄下,得到全部PDF文件;
將PDF文件轉換為base64格式,得到base64格式的圖像。
5.根據權利要求4所述一種歷史文獻數字化方法,其特征在于,所述對預處理后圖像進行OCR識別和文字整合,得到整合后數據這一步驟,其具體包括:
基于OCR識別算法對base64格式的圖像進行識別,得到文字數據;
根據文字數據取得書名、作者信息、出版時間、目錄和正文內容;
按預設規則對文字數據整合,得到整合后數據。
6.根據權利要求5所述一種歷史文獻數字化方法,其特征在于,所述按預設規則對文字數據整合,得到整合后數據這一步驟,其具體包括:
選擇一圖一頁規則,以一張圖片作為一頁對數據進行整合處理,將圖片計數,得到整合后數據;
選擇一圖兩頁規則,將一張圖片分割為兩頁對數據進行分頁處理,得到整合后數據。
7.一種歷史文獻數字化系統,其特征在于,包括:
數據獲取模塊,用于獲取平臺文獻資料,得到打包壓縮文件;
圖像預處理模塊,用于對打包壓縮文件進行解壓和格式轉換,得到預處理后圖像;
內容識別模塊,用于對預處理后圖像進行OCR識別和文字整合,得到整合后數據;
存入數據庫模塊,用于創建數據庫并將整合后數據存入數據庫。
8.一種歷史文獻數字化裝置,其特征在于,包括:
至少一個處理器;
至少一個存儲器,用于存儲至少一個程序;
當所述至少一個程序被所述至少一個處理器執行,使得所述至少一個處理器實現如權利要求1-7任一項所述一種歷史文獻數字化方法。
9.一種存儲介質,其中存儲有處理器可執行的指令,其特征在于:所述處理器可執行的指令在由處理器執行時用于實現如權利要求1-7任一項所述一種歷史文獻數字化方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于嘉應學院,未經嘉應學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110140387.0/1.html,轉載請聲明來源鉆瓜專利網。





