[發明專利]基于知識圖譜的紙質檔案數字化方法在審
| 申請號: | 201810111488.3 | 申請日: | 2018-02-05 |
| 公開(公告)號: | CN108197119A | 公開(公告)日: | 2018-06-22 |
| 發明(設計)人: | 李進榮;孫懿鑫;張步明 | 申請(專利權)人: | 成都卓觀信息技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 成都虹盛匯泉專利代理有限公司 51268 | 代理人: | 王偉 |
| 地址: | 610041 四川省成都市中國(四川)*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 紙質檔案 圖譜 結構化數據 實體信息 數字化 構建 標準字典 電子文件 工作效率 內容數據 數據融合 圖片信息 文本數據 知識條目 抽取 標準化 分析 | ||
本發明公開了一種基于知識圖譜的紙質檔案數字化方法。其包括獲取紙質檔案圖片信息,分析得到標準化文本數據,抽取關鍵實體的實體信息,構建標準字典表將實體信息進行數據融合,形成結構化數據,將結構化數據作為知識條目構建知識圖譜,根據知識圖譜獲取紙質檔案內容數據并生成電子文件。本發明提高了紙質檔案數字化的工作效率,同時降低了誤操率。
技術領域
本發明屬于電子信息技術領域,尤其涉及一種基于知識圖譜的紙質檔案數字化方法。
背景技術
紙質檔案數字化作業是檔案大數據庫建設最基礎的工作,其操作流程包括檔案的分類整理、圖像掃描、文字錄入以及整理入庫等步驟。目前紙質檔案數字化的表象,是將實物紙質檔案,變成電子文檔(JPG、PDF或TFF等格式)的檔案進行存儲,其目的是為信息化服務,因此必須能被相關軟件系統讀取和使用。
為此在建立電子檔案數據庫時,針對每一張紙質檔案,必須生成二個電子文檔:一個是該紙質檔案的圖片,另二個是與該圖片一一對應的信息。目前的解決方法是制作成電子圖片加EXCEL條目。如1張實物紙質檔案,經掃描后,生成圖片名為031-053-01-019-01.jpg的電子圖片,但僅僅從031-053-01-019-01.TIF基本不能全面了解其所有內容信息,因此,需要將這張紙質檔案上涵蓋的信息(如檔案號、類號、年份、檔案類別、頁名、填制單位、部門、屬于哪一類、有幾頁等內容)輸入到EXCEL文件的對應條目中。由此可見,為完成一張紙質檔案的數字化需要做二件事:一是掃描紙質檔案,二是輸入檔案內容到EXCEL文件的對應條日廳中,其工作量是非常龐大的。
雖然目前市面上普通的掃描儀(高拍儀)能對掃描的圖片做一些處理,但普遍缺少對內容信息的抓取并生成到EXCEL文件的對應條日廳中。當然隨著技術進步,也出現了帶有光學字符識別(Optical Character Recognition,簡稱OCR)的高檔掃描儀,但是至今的誤操率不能滿足國家檔案數字化規定的低于0.5%的要求:即使采用進口的高檔掃描儀,雖然誤操率可以降低幾個數量級,但還是不能滿足要求,而且此類進口的高檔掃描儀價格昂貴,動輒幾十萬甚至上百萬一臺,其成本過于高昂。所以至今社會上一般公司檔案數字化工作程序,都是要么同一人二次作業,要么流水線二人前后作業,其工作程序復雜,導致效率低下,且人員成本過高。
發明內容
本發明的發明目的是:為了解決現有技術中紙質檔案數字化程序復雜、導致效率低下等問題,本發明提出了一種基于知識圖譜的紙質檔案數字化方法。
本發明的技術方案是:一種基于知識圖譜的紙質檔案數字化方法,包括
A、獲取需要進行數字化的紙質檔案圖片信息;
B、對步驟A中紙質檔案圖片信息進行詞法、語法和/或語義分析,得到標準化文本數據;
C、從步驟B的標準化文本數據中抽取關鍵實體的實體信息;
D、構建標準字典表,根據標準字典表將步驟C中實體信息進行數據融合,形成結構化數據;
E、根據步驟D中結構化數據作為知識條目,構建知識圖譜;
F、根據步驟E中知識圖譜獲取紙質檔案圖片信息中的內容數據并生成電子文件。
進一步地,所述步驟B對步驟A中紙質檔案圖片信息進行詞法、語法和/或語義分析,得到標準化文本數據具體為:
采用預先訓練的段落分類器模型對步驟A中紙質檔案圖片信息的段落進行文檔結構分類,根據分類結果對所述紙質檔案圖片信息進行段落結構劃分;
若所述紙質檔案圖片信息為中文資源時,對劃分出的各段落結構進行分詞、詞性標注以及短語識別,并去除段落結構中的標點符號;
若所述紙質檔案圖片信息為外語資源時,對劃分出的各段落結構進行詞干處理、詞形還原以及短語識別,并去除段落結構中的標點符號。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都卓觀信息技術有限公司,未經成都卓觀信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810111488.3/2.html,轉載請聲明來源鉆瓜專利網。





