[發明專利]一種自然場景票據圖像的提取與矯正方法在審
| 申請號: | 202111345104.2 | 申請日: | 2021-11-15 |
| 公開(公告)號: | CN116109814A | 公開(公告)日: | 2023-05-12 |
| 發明(設計)人: | 張健林;林津伊;林紅利 | 申請(專利權)人: | 湖南大學 |
| 主分類號: | G06V10/24 | 分類號: | G06V10/24;G06V30/40;G06T5/00;G06V10/22;G06V10/764;G06V10/80;G06V10/82;G06V10/46;G06V10/44;G06V20/62;G06N3/0464;G06N3/048;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 410082 湖南省*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自然 場景 票據 圖像 提取 矯正 方法 | ||
本發明涉及圖像分類與分割領域,尤其為一種自然場景票據圖像的提取與矯正方法,其具體步驟如下:對票據類型與文字方向進行手工標注,對標注好的數據進行圖像增強操作,構建多標簽分類網絡進行訓練,獲得訓練好的模型后對票據進行分類以及文字方向矯正;對自然場景票據圖像的主體區域進行標注,在標注數據上加入圖像增強操作后,生成訓練需要的掩膜標簽,使用顯著區域網絡Usupgt;2/supgt;?Net進行訓練,利用訓練好的模型提取自然場景票據圖像的主體區域,并使用后處理的方法對票據視角和文字角度進行二次矯正。本發明有效地消除了自然場景中背景的干擾,解決了不同票據類型視角變換、文字傾斜等問題,便于后續的場景文字識別和關鍵信息提取任務。
技術領域
本發明涉及圖像分類與分割領域,更具體地,涉及一種自然場景票據圖像的提取與矯正方法。
背景技術
各類票據在商業場景中無處不在,是交易、繳付租金以及報銷的主要憑證。票據信息化主要使用的是OCR和關鍵信息提取處理技術,先識別在自然場景中拍攝的票據內容再提取票據關鍵信息。隨著深度學習技術在計算機視覺與自然語言處理上的深入應用、?OCR與關鍵信息提取領域相關技術的不斷發展,學術界出現了很多新的科研成果,使得票據信息化的項目在工業界逐漸落地。
票據信息化主要關注的是場景文本識別和關鍵信息提取兩個領域的內容。相較于傳統的光學文字識別,場景文本識別面對的問題更加復雜。傳統的光學文字識別處理的大多是掃描、固定拍攝、統一規格的票據圖像,經過簡單的圖像處理,能達到較高的識別準確率。而場景文本識別的圖像會存在文本形狀和文本方向變化、背景文本的干擾以及人工拍攝時視角多變等問題,識別準確率受自然場景的干擾很大。關鍵信息提取則受限于OCR的準確率和票據的類型,當票據類型增加時,需要根據不同票據類型提取對應的關鍵信息。
現有的自然場景票據旋轉矯正方法,主要分為兩大類:1.使用正向的圖像旋轉多個角度,再使用圖像分類的方法訓練文字角度分類模型;2.采用神經網絡熱點圖提取關鍵點,再使用圖像學的方法統一矯正到同一個尺度上。第一類方法需要做大量的角度分類旋轉工作,沒有考慮圖像的視角和票據圖像本身的形變的影響;第二類方法中,基于票據關鍵點的回歸預測精度有待提高,其次將所有類型的票據統一到同一個尺度上的做法,使得后續圖像學方法無法適應有多種不同形狀票據的應用場景,泛化性不強。此外,這兩類方法都不能處理自然場景中背景干擾的問題,當自然背景中存在圖像文本時,文字檢測識別的精度會降低,同時多余的文字對后續關鍵信息的提取會有極大的干擾。因此,一個能處理自然背景干擾、視角和文字角度變化問題的方法對后續的OCR及關鍵信息提取任務有著一定的意義。
發明內容
為了解決現有技術存在的問題以及滿足關鍵信息提取的需求,本發明提供了一種自然場景票據的提取與矯正方法。目的在于通過兩個深度學習方法完成不同的任務:第一,在自然場景拍攝的票據圖像中提取票據的主體區域,并根據不同的票據類型使用不同的后處理方式,去除自然場景票據圖像中的背景區域;第二,對票據的視角和文字角度進行矯正。這兩個方法有效地解決了背景干擾的問題,基于顯著區域檢測的分割方法對像素進行分類的精度較高,能處理不同場景下的多種票據類型,通過后處理對拍攝視角的矯正能一定程度改善票據本身形變的情況。為實現上述任務,自然場景票據圖像的提取與矯正方法主要的步驟如下:
步驟S01,收集自然場景下拍攝的各類票據圖像,根據票據的類型和票據文字的方向進行人工分類,從而獲得每張票據圖像的類型標簽和方向標簽;
步驟S02,對票據圖像進行預處理,將票據圖像統一縮放成固定大小,并對票據圖像做隨機錯切、旋轉、裁剪等圖像增強操作,增加訓練的數據量、增強數據的魯棒性;
步驟S03,構建多標簽分類的深度神經網絡,對票據圖像進行類型和文字方向的分類,此神經網絡由一個骨干網絡DenseNet-169和兩個分支全連接層組成;DenseNet-169?負責從圖像中提取特征,每一個全連接層共享提取的特征信息,分別負責不同的分類任務;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學,未經湖南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111345104.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:報文轉發方法、電子設備及存儲介質
- 下一篇:食品瓶蓋沖切墊蓋機
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





