[發明專利]一種歷史文獻數字化方法、系統、裝置及存儲介質在審

申請號：	202110140387.0	申請日：	2021-02-02
公開（公告）號：	CN112836073A	公開（公告）日：	2021-05-25
發明（設計）人：	劉越暢	申請（專利權）人：	嘉應學院
主分類號：	G06F16/51	分類號：	G06F16/51;G06F16/58;G06F16/583;G06K9/00;G06K9/34
代理公司：	深圳市創富知識產權代理有限公司 44367	代理人：	葉燦才
地址：	514015 廣***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種歷史文獻數字化方法系統裝置存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種歷史文獻數字化方法、系統、裝置及存儲介質，該方法包括：獲取平臺文獻資料，得到打包壓縮文件；對打包壓縮文件進行解壓和格式轉換，得到預處理后圖像；對預處理后圖像進行OCR識別和文字整合，得到整合后數據；創建數據庫并將整合后數據存入數據庫。該系統包括：數據獲取模塊，圖像預處理模塊、內容識別模塊、存入數據庫模塊和校正模塊。該裝置包括存儲器以及用于執行上述歷史文獻數字化方法的處理器。通過使用本發明，能夠將歷史文獻進行長久保存并且易于管理和查閱。本發明作為一種歷史文獻數字化方法、系統、裝置及存儲介質，可廣泛應用于數據數字化領域。

技術領域

本發明涉及數據數字化領域，尤其涉及一種歷史文獻數字化方法、系統、裝置及存儲介質。

背景技術

目前，已經有大量的歷史文獻進行了數字化存儲，能夠長久保存，先將歷史文獻掃描成電子圖像，然后由錄入人員依照電子圖像內容進行文字錄入，最后對照原圖進行排版，整理生成數字化文獻，比如PDF文件，XML文件等。傳統的圖像數字化，存在一些弊端，駐廠人員進行文字錄入，成本過高，對照原圖手工排版，效率低下，而且沒有一種能夠根據平臺的文件數據識別得到文字，不利于管理人員進行書籍整理或人員查閱。

發明內容

為了解決上述技術問題，本發明的目的是提供一種歷史文獻數字化方法方法、系統、裝置及存儲介質，能夠快速精準地識別出歷史文獻信息中的書名、作者、出版時間、目錄以及正文內容，并把它們分類放入到數據庫中。

本發明所采用的第一技術方案是：一種歷史文獻數字化方法方法，包括以下步驟：

獲取平臺文獻資料，得到打包壓縮文件；

對打包壓縮文件進行解壓和格式轉換，得到預處理后圖像；

對預處理后圖像進行OCR識別和文字整合，得到整合后數據；

創建數據庫并將整合后數據存入數據庫。

進一步，還包括：

對整合后數據進行識別校正。

進一步，所述獲取平臺文獻資料，得到打包壓縮文件這一步驟，其具體包括：

基于平臺獲取文獻資料的文件包；

對文件包進行分析，構建得到文件樹結構圖；

對文件包和文件樹結構圖進行壓縮，得到打包壓縮文件。

進一步，所述對打包壓縮文件進行解壓和格式轉換，得到預處理后圖像這一步驟，其具體包括：

對打包壓縮文件解壓到對應的文件目錄下，得到全部PDF文件；

將PDF文件轉換為base64格式，得到base64格式的圖像。

進一步，所述對預處理后圖像進行OCR識別和文字整合，得到整合后數據這一步驟，其具體包括：

基于OCR識別算法對base64格式的圖像進行識別，得到文字數據；

根據文字數據取得書名、作者信息、出版時間、目錄和正文內容；

按預設規則對文字數據整合，得到整合后數據。

進一步，所述按預設規則對文字數據整合，得到整合后數據這一步驟，其具體包括：

選擇一圖一頁規則，以一張圖片作為一頁對數據進行整合處理，將圖片計數，得到整合后數據；

選擇一圖兩頁規則，將一張圖片分割為兩頁對數據進行分頁處理，得到整合后數據。

進一步，所述完成隨機森林模型的構建采用五折交叉驗證法。

本發明所采用的第二技術方案是：一種歷史文獻數字化系統，包括：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于嘉應學院，未經嘉應學院許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110140387.0/2.html，轉載請聲明來源鉆瓜專利網。

上一篇：α-螺旋構象穩定的促凋亡雙環多肽及制備方法與應用
下一篇：一種物聯網Paas平臺系統

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】

[發明專利]一種歷史文獻數字化方法、系統、裝置及存儲介質在審

專利文獻下載

[發明專利]一種歷史文獻數字化方法、系統、裝置及存儲介質在審