[發明專利]基于深度學習技術的滿文文檔印章提取與去除方法有效
| 申請號: | 201811100870.0 | 申請日: | 2018-09-20 |
| 公開(公告)號: | CN109359550B | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 賀建軍;盧海濤;鄭蕊蕊;劉文鵬;周建云 | 申請(專利權)人: | 大連民族大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06T3/00;G06N3/04;G06N3/08 |
| 代理公司: | 大連智高專利事務所(特殊普通合伙) 21235 | 代理人: | 馬慶朝;張欽 |
| 地址: | 116600 遼寧省*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 深度 學習 技術 滿文 文檔 印章 提取 去除 方法 | ||
一種基于深度學習技術的滿文文檔印章提取與去除方法,屬于少數民族文檔圖像檢測識別領域。技術要點如下:對滿文文檔圖像進行預處理;訓練與保存提取印章的對抗生成網絡;訓練與保存去除印章的對抗生成網絡。有益效果是:本發明所述的基于深度學習技術的滿文文檔印章提取與去除方法可以最大限度地在滿文文檔上提取印章區域,從而去除印章下的字;也可以去除印章,從而最大限度地恢復印章下的滿文文字部分。
技術領域
本發明屬于少數民族文檔圖像檢測識別領域,尤其涉及一種基于深度學習技術的滿文文檔印章提取與去除方法。
背景技術
大部分滿文檔案都是單份、孤本或稀本,如果長時間、高頻率的使用必然會對檔案原件造成一定損害,為了使珍貴的滿文檔案能夠永久保存下去,對滿文古籍檔案的電子化是一種趨勢,即滿文檔案會以圖像的方式保存下來,因此對滿文檔案圖像的研究與利用迫在眉睫。在滿文研究過程中,因為懂滿文的人才匱乏,導致對滿文的研究多半停滯不前,因此利用計算機與深度學習相結合的方法繼續研究滿文文檔,有利于增強對滿文檔案的開發與利用。一方面滿文文檔中的印章可以反映文檔的作者或者歸屬等重要的信息,滿文古籍中的印章也是鑒定該檔案的價值以及分析研究滿文檔案中內容的重要依據。因此,從滿文文檔圖像中提取印章相關信息,對于滿文文檔的研究分析與利用很有必要性;另一方面印章存在附于滿文文字上的現象,阻礙識別整個文檔內容,且對文檔文本行分割、字符分割的研究領域等來說,印章是噪音,因此將滿文文檔中的印章去除且保留印章下的滿文字符非常有意義。
現有技術大多通過人工單張圖像處理,例如利用一些PS等軟件去除,不僅費時繁瑣,且效果不佳。
發明內容
為了解決上述現有技術中存在的問題,本發明提出一種基于深度學習技術的滿文文檔印章提取與去除方法,本方法可以最大限度地在滿文文檔上提取印章區域,從而去除印章下的字;也可以去除印章,從而最大限度地恢復印章下的滿文文字部分。
技術方案如下:
一種基于深度學習技術的滿文文檔印章提取與去除方法,步驟如下:
S1、對滿文文檔圖像進行預處理;
S2、訓練與保存提取印章的對抗生成網絡;
S3、訓練與保存去除印章的對抗生成網絡。
進一步的,步驟S1中預處理具體步驟如下:
S1.1、將圖像進行歸一化操作;
S1.2、準備為訓練提取印章的對抗生成網絡和去除印章的對抗生成網絡的數據。
進一步的,步驟S2和/或步驟S3中具體步驟如下:
S2.1、構建具有U-net結構的生成器G1;
S2.2、在生成器G1中,輸入圖像經過若干次卷積、leakyReLU操作、BN層操作得到若干個網絡層;
S2.3、步驟S2.2中最后一個網絡層經過上采樣UpSampling2D操作、卷積、Dropout層操作、BN層操作、連接倒數第二個網絡層后得到u1層;
S2.4、u1層經過若干次上采樣UpSampling2D操作、卷積、Dropout層操作、BN層操作、連接網絡層操作得到網絡輸出圖像;
S2.5、構建具有二分類的卷積神經網絡的判別器D1,將生成器G1生成的網絡輸出圖像與真實圖片一同送入判別器D1;
S2.6、定義目標損失函數:
其中:x為待處理的圖像矩陣,y為它的監督圖像矩陣,z為符合高斯分布的與x,y大小相同的隨機矩陣,z矩陣每一像素取值范圍是[0,255],D1為判斷器,G1為生成λ器,為可調超參數,取值范圍為[0,1]。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連民族大學,未經大連民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811100870.0/2.html,轉載請聲明來源鉆瓜專利網。





