[發明專利]一種歷史文獻數字化方法、系統、裝置及存儲介質在審
| 申請號: | 202110140387.0 | 申請日: | 2021-02-02 |
| 公開(公告)號: | CN112836073A | 公開(公告)日: | 2021-05-25 |
| 發明(設計)人: | 劉越暢 | 申請(專利權)人: | 嘉應學院 |
| 主分類號: | G06F16/51 | 分類號: | G06F16/51;G06F16/58;G06F16/583;G06K9/00;G06K9/34 |
| 代理公司: | 深圳市創富知識產權代理有限公司 44367 | 代理人: | 葉燦才 |
| 地址: | 514015 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 歷史文獻 數字化 方法 系統 裝置 存儲 介質 | ||
本發明公開了一種歷史文獻數字化方法、系統、裝置及存儲介質,該方法包括:獲取平臺文獻資料,得到打包壓縮文件;對打包壓縮文件進行解壓和格式轉換,得到預處理后圖像;對預處理后圖像進行OCR識別和文字整合,得到整合后數據;創建數據庫并將整合后數據存入數據庫。該系統包括:數據獲取模塊,圖像預處理模塊、內容識別模塊、存入數據庫模塊和校正模塊。該裝置包括存儲器以及用于執行上述歷史文獻數字化方法的處理器。通過使用本發明,能夠將歷史文獻進行長久保存并且易于管理和查閱。本發明作為一種歷史文獻數字化方法、系統、裝置及存儲介質,可廣泛應用于數據數字化領域。
技術領域
本發明涉及數據數字化領域,尤其涉及一種歷史文獻數字化方法、系統、裝置及存儲介質。
背景技術
目前,已經有大量的歷史文獻進行了數字化存儲,能夠長久保存,先將歷史文獻掃描成電子圖像,然后由錄入人員依照電子圖像內容進行文字錄入,最后對照原圖進行排版,整理生成數字化文獻,比如PDF文件,XML文件等。傳統的圖像數字化,存在一些弊端,駐廠人員進行文字錄入,成本過高,對照原圖手工排版,效率低下,而且沒有一種能夠根據平臺的文件數據識別得到文字,不利于管理人員進行書籍整理或人員查閱。
發明內容
為了解決上述技術問題,本發明的目的是提供一種歷史文獻數字化方法方法、系統、裝置及存儲介質,能夠快速精準地識別出歷史文獻信息中的書名、作者、出版時間、目錄以及正文內容,并把它們分類放入到數據庫中。
本發明所采用的第一技術方案是:一種歷史文獻數字化方法方法,包括以下步驟:
獲取平臺文獻資料,得到打包壓縮文件;
對打包壓縮文件進行解壓和格式轉換,得到預處理后圖像;
對預處理后圖像進行OCR識別和文字整合,得到整合后數據;
創建數據庫并將整合后數據存入數據庫。
進一步,還包括:
對整合后數據進行識別校正。
進一步,所述獲取平臺文獻資料,得到打包壓縮文件這一步驟,其具體包括:
基于平臺獲取文獻資料的文件包;
對文件包進行分析,構建得到文件樹結構圖;
對文件包和文件樹結構圖進行壓縮,得到打包壓縮文件。
進一步,所述對打包壓縮文件進行解壓和格式轉換,得到預處理后圖像這一步驟,其具體包括:
對打包壓縮文件解壓到對應的文件目錄下,得到全部PDF文件;
將PDF文件轉換為base64格式,得到base64格式的圖像。
進一步,所述對預處理后圖像進行OCR識別和文字整合,得到整合后數據這一步驟,其具體包括:
基于OCR識別算法對base64格式的圖像進行識別,得到文字數據;
根據文字數據取得書名、作者信息、出版時間、目錄和正文內容;
按預設規則對文字數據整合,得到整合后數據。
進一步,所述按預設規則對文字數據整合,得到整合后數據這一步驟,其具體包括:
選擇一圖一頁規則,以一張圖片作為一頁對數據進行整合處理,將圖片計數,得到整合后數據;
選擇一圖兩頁規則,將一張圖片分割為兩頁對數據進行分頁處理,得到整合后數據。
進一步,所述完成隨機森林模型的構建采用五折交叉驗證法。
本發明所采用的第二技術方案是:一種歷史文獻數字化系統,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于嘉應學院,未經嘉應學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110140387.0/2.html,轉載請聲明來源鉆瓜專利網。





