[發明專利]用于字符識別的分類網絡的訓練裝置、字符識別裝置及方法有效
| 申請號: | 201680087710.X | 申請日: | 2016-08-31 |
| 公開(公告)號: | CN109478229B | 公開(公告)日: | 2021-08-10 |
| 發明(設計)人: | 范偉;孫俊 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 王鍇;陶海萍 |
| 地址: | 日本神奈*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 字符 識別 分類 網絡 訓練 裝置 方法 | ||
一種用于字符識別的分類網絡的訓練裝置、字符識別裝置及方法。該裝置及方法通過對未標記樣本構建樣本對來訓練對稱網絡,利用經過訓練的對稱網絡的參數對分類網絡進行初始化,并利用已標記樣本對經過初始化的分類網絡進行訓練,能夠提高分類網絡的識別準確率并有效節約標注成本。
技術領域
本發明涉及信息技術領域,尤其涉及一種用于字符識別的分類網絡的訓練裝置、字符識別裝置及方法。
背景技術
由于資料保存以及信息化發展的需要,對文檔資料進行電子化的需求日益增長。從而,文檔圖像中的字符識別日益重要。對于一些比較特殊的字符,比如古文獻漢字,對其進行識別對古典文獻數字化、古籍整理和文化保存都十分重要。然而,與現代漢字識別相比較,古文獻漢字識別是一個非常具有挑戰性的問題。首先,古文獻漢字數量比現代漢字大得多;其次,古文獻漢字的結構比現代簡化漢字復雜得多;第三,古文獻漢字是多態的,即一定數量的漢字在不同歷史時期有許多不同的寫法;第四,由于不同書寫工具(例如毛筆)或雕版印刷的使用,使得古文獻漢字有不同的風格;最后,拍攝或掃描的古籍圖像退化現象比現代漢字更為顯著。
近年來,在光學字符識別(Optical Character Recognition,OCR)領域的研究中,深度學習方法(例如卷積神經網絡)明顯優于傳統方法。目前占主導地位的以卷積神經網絡(Convolutional Neural Network,CNN)為基礎的監督學習方法,其通常需要數以百萬計的樣本的訓練數據。由于古文獻漢字識別存在缺乏足夠的已標記樣本,需要通過掃描或拍攝獲得大量的未標記樣本,然后使用自動字符分割方法進行分割,然后通過人力進行手動標記而獲得已標記樣本用于訓練卷積神經網絡。
應該注意,上面對技術背景的介紹只是為了方便對本發明的技術方案進行清楚、完整的說明,并方便本領域技術人員的理解而闡述的。不能僅僅因為這些方案在本發明的背景技術部分進行了闡述而認為上述技術方案為本領域技術人員所公知。
發明內容
當利用上述現有的方法訓練卷積神經網絡時,需要進行大量的手動標記,需要耗費較長的時間,并花費較多的人力和成本。
本發明實施例提供一種用于字符識別的分類網絡的訓練裝置、字符識別裝置及方法,通過對未標記樣本構建樣本對來訓練對稱網絡,利用經過訓練的對稱網絡的參數對分類網絡進行初始化,并利用已標記樣本對經過初始化的分類網絡進行訓練,能夠提高分類網絡的識別準確率并有效節約標注成本。
根據本發明實施例的第一方面,提供一種用于字符識別的分類網絡的訓練裝置,包括:提取單元,其用于提取包含字符的各個未標記樣本的特征;構建單元,其用于根據提取出的各個未標記樣本的特征,構建樣本對;第一訓練單元,其用于根據構建的所述樣本對,訓練對稱網絡;初始化單元,其用于利用經過訓練的對稱網絡的參數,對用于字符識別的分類網絡進行初始化;第二訓練單元,其用于利用包含字符的已標記樣本對經過初始化的所述分類網絡進行訓練。
根據本發明實施例的第二方面,提供一種字符識別裝置,包括:根據本發明實施例的第一方面所述的裝置訓練得到的用于字符識別的分類網絡。
根據本發明實施例的第三方面,提供一種用于字符識別的分類網絡的訓練方法,包括:提取包含字符的各個未標記樣本的特征;根據提取出的各個未標記樣本的特征,構建樣本對;根據構建的所述樣本對,訓練對稱網絡;利用經過訓練的對稱網絡的參數,對用于字符識別的分類網絡進行初始化;利用包含字符的已標記樣本對經過初始化的所述分類網絡進行訓練。
本發明的有益效果在于:通過對未標記樣本構建樣本對來訓練對稱網絡,利用經過訓練的對稱網絡的參數對分類網絡進行初始化,并利用已標記樣本對經過初始化的分類網絡進行訓練,能夠提高分類網絡的識別準確率并有效節約標注成本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201680087710.X/2.html,轉載請聲明來源鉆瓜專利網。





