[發明專利]文檔編號自動識別方法在審
| 申請號: | 201811282479.7 | 申請日: | 2018-10-31 |
| 公開(公告)號: | CN109446997A | 公開(公告)日: | 2019-03-08 |
| 發明(設計)人: | 段磊;梁衛國;劉濤;李偉鵬;張寧;夏紅燕;于萌;趙彥龍 | 申請(專利權)人: | 國網山東省電力公司淄博供電公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/34 |
| 代理公司: | 青島發思特專利商標代理有限公司 37212 | 代理人: | 耿霞;程強強 |
| 地址: | 255000 山東省淄博市*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自動識別 文檔 編號識別 手寫 自動編碼器 稀疏 大規模數據集 圖像采集裝置 自動識別算法 信息化建設 準確度 傳統模板 管理技術 模板匹配 匹配算法 掃描文檔 涉密文檔 涉密載體 特征匹配 網絡模型 字符識別 錯誤率 歐拉數 構建 書寫 融合 研究 | ||
本發明涉及涉密載體管理技術領域,具體涉及一種文檔編號自動識別方法,通過圖像采集裝置掃描文檔編號,并區分文檔編號書寫形式,分為采用基于特征匹配的機打編號識別方法和基于稀疏自動編碼器的手寫編號識別方法,本發明針對當前涉密文檔信息化建設中的文檔編號自動識別方法開展研究,通過提出融合歐拉數和模板匹配的機打編號自動識別算法,有效改善了傳統模板匹配算法在相似字符識別中錯誤率較高的不足,而且較大幅度的提升了自動識別的速率。另外,針對不同人手寫編號差距較大,難以采用傳統識別方法實現編號識別的困難,本發明構建了大規模數據集,訓練了深度稀疏自動編碼器網絡模型,實現了手寫編號的高準確度自動識別。
技術領域
本發明涉及涉密載體管理技術領域,具體涉及一種文檔編號自動識別方法。
背景技術
隨著信息技術和網絡技術的不斷發展,涉密文件檔案的信息化建設和智能化管理在檔案事業發展中扮演著越來越重要的角色。因涉密文檔材料的特殊性,在一定程度上影響了其數字化的進程,例如,目前實體涉密文件收發登記方式仍然需要通過人工錄入等手段,將相關信息在數據庫中進行歸集、匯總和索引,以便于信息的檢索和查詢。
在文檔資料管理過程中,通常需要為每一份文檔分配一組唯一的文檔編號,作為該文檔的識別碼,這不僅方便于文檔的分類存放,也便于文檔查詢。因此,在實體涉密文件的收發登記時,可以通過圖像采集的方式獲取文檔編號,然后基于文檔編號自動識別技術實現涉密文件的自動收發登記。因此,文檔編號的自動識別成為涉密文件收發信息準確登記的關鍵影響因素。按照書寫形式不同,文檔編號分為機打編號和手寫編號兩種,且文檔編號通常由英文字母、數字、連接線混合編寫組成。正是由于文檔編號書寫形式不同和復雜的組編方式,導致文檔編號識別的準確度與實際需求產生較大差距。
目前已有編號自動識別算法主要針對純數字序號或機打印書體編號,編號模式比較簡單,數據量較小。這些編號自動識別算法無法直接應用于文檔編號的自動識別中。
顯然,現有的涉密文檔收發文登記方式已不能夠滿足智能化管理的需要,因此急需通過一套先進的管理系統對各類收發文件進行歸類登記和匯總,在減少人員投入的同時,確保重要文件數量及傳閱路徑的全過程管控,利用信息化手段提高工作效率。
發明內容
為了解決上述技術問題中的不足,本發明的目的在于:提供一種文檔編號自動識別方法,較大幅度的提升了自動識別的速率和準確度。
本發明為解決其技術問題所采用的技術方案為:
所述文檔編號自動識別方法,通過圖像采集裝置掃描文檔編號,并區分文檔編號書寫形式,分為采用基于特征匹配的機打編號識別方法和基于稀疏自動編碼器的手寫編號識別方法,所述基于特征匹配的機打編號識別方法包括以下步驟:
(1)構建樣本標準模板庫,樣本標準模板庫中的標準樣本是經過二值化處理的數字模板,且模板大小相同;
(2)將采集的文檔編號標準化為與二值化處理的數字模板大小相同;
(3)通過計算文檔編號歐拉數進行前期粗分類,然后進行模板匹配識別;
(4)通過模板匹配相似度計算公式,進行模板匹配識別,從待識別文檔編號中提取若干特征量與已有數字模板相應的特征量逐個進行比較,計算它們之間規格化的相關量,其中相關量最大的一個就表示其間相似程度最高,可將文檔編號歸于該類;
(5)對于未正確識別的文檔編號,則采用人工更正方式保證錄入文檔收發系統的文檔編號正確;
所述基于稀疏自動編碼器的手寫編號識別方法包括以下步驟:
1)對手寫的文檔編號進行預處理,主要包括去噪增強預處理,字體校正處理,并進行文檔編號分割,將所有手寫文檔編號大小歸一化為同一像素,用做網絡輸入;
2)對深度稀疏自動編碼器設置初始網絡參數,對手寫的文檔編號進行識別;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網山東省電力公司淄博供電公司,未經國網山東省電力公司淄博供電公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811282479.7/2.html,轉載請聲明來源鉆瓜專利網。





