[發(fā)明專利]文檔編號自動識別方法在審
| 申請?zhí)枺?/td> | 201811282479.7 | 申請日: | 2018-10-31 |
| 公開(公告)號: | CN109446997A | 公開(公告)日: | 2019-03-08 |
| 發(fā)明(設(shè)計)人: | 段磊;梁衛(wèi)國;劉濤;李偉鵬;張寧;夏紅燕;于萌;趙彥龍 | 申請(專利權(quán))人: | 國網(wǎng)山東省電力公司淄博供電公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/34 |
| 代理公司: | 青島發(fā)思特專利商標代理有限公司 37212 | 代理人: | 耿霞;程強強 |
| 地址: | 255000 山東省淄博市*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 自動識別 文檔 編號識別 手寫 自動編碼器 稀疏 大規(guī)模數(shù)據(jù)集 圖像采集裝置 自動識別算法 信息化建設(shè) 準確度 傳統(tǒng)模板 管理技術(shù) 模板匹配 匹配算法 掃描文檔 涉密文檔 涉密載體 特征匹配 網(wǎng)絡(luò)模型 字符識別 錯誤率 歐拉數(shù) 構(gòu)建 書寫 融合 研究 | ||
1.一種文檔編號自動識別方法,其特征在于,通過圖像采集裝置掃描文檔編號,并區(qū)分文檔編號書寫形式,分為采用基于特征匹配的機打編號識別方法和基于稀疏自動編碼器的手寫編號識別方法,所述基于特征匹配的機打編號識別方法包括以下步驟:
(1)構(gòu)建樣本標準模板庫,樣本標準模板庫中的標準樣本是經(jīng)過二值化處理的數(shù)字模板,且模板大小相同;
(2)將采集的文檔編號標準化為與二值化處理的數(shù)字模板大小相同;
(3)通過計算文檔編號歐拉數(shù)進行前期粗分類,然后進行模板匹配識別;
(4)通過模板匹配相似度計算公式,進行模板匹配識別,從待識別文檔編號中提取若干特征量與已有數(shù)字模板相應(yīng)的特征量逐個進行比較,計算它們之間規(guī)格化的相關(guān)量,其中相關(guān)量最大的一個就表示其間相似程度最高,可將文檔編號歸于該類;
(5)對于未正確識別的文檔編號,則采用人工更正方式保證錄入文檔收發(fā)系統(tǒng)的文檔編號正確;
所述基于稀疏自動編碼器的手寫編號識別方法包括以下步驟:
1)對手寫的文檔編號進行預(yù)處理,主要包括去噪增強預(yù)處理,字體校正處理,并進行文檔編號分割,將所有手寫文檔編號大小歸一化為同一像素,用做網(wǎng)絡(luò)輸入;
2)對深度稀疏自動編碼器設(shè)置初始網(wǎng)絡(luò)參數(shù),對手寫的文檔編號進行識別;
3)不斷調(diào)整網(wǎng)絡(luò)參數(shù),通過貪婪訓(xùn)練方法逐層訓(xùn)練每一級稀疏自動編碼器,最終整完成個網(wǎng)絡(luò)的訓(xùn)練,不斷提高對手寫的文檔編號識別率,獲得豐富的手寫文檔編號特征,構(gòu)建魯棒性更強的分類模型。
2.根據(jù)權(quán)利要求1所述的文檔編號自動識別方法,其特征在于,模板匹配相似度計算公式如下:
其中,f表示二值模板圖像,g表示待識別的二值圖像,兩幅圖像的大小一致,均為M×N,Tf和Tg分別表示對應(yīng)于二值圖像中值為1的像素個數(shù),∧表示與運算。
3.根據(jù)權(quán)利要求1所述的文檔編號自動識別方法,其特征在于,深度稀疏自動編碼器由多層稀疏自動編碼器級聯(lián)而成,前一級稀疏自動編碼器的網(wǎng)絡(luò)隱層輸出作為后一級稀疏自動編碼器網(wǎng)絡(luò)輸入。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國網(wǎng)山東省電力公司淄博供電公司,未經(jīng)國網(wǎng)山東省電力公司淄博供電公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811282479.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





