[發明專利]一種基于深度學習網絡的發票照片位置矯正方法有效
| 申請號: | 202010620221.4 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111784587B | 公開(公告)日: | 2023-08-01 |
| 發明(設計)人: | 劉澤豪;羅天任 | 申請(專利權)人: | 杭州師范大學 |
| 主分類號: | G06T3/60 | 分類號: | G06T3/60;G06T3/00;G06T7/194;G06T7/90;G06T7/64;G06N3/04;G06N3/08;G06F7/78 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
| 地址: | 311121 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 網絡 發票 照片 位置 矯正 方法 | ||
本發明提供一種基于深度學習網絡的發票照片位置矯正方法,首先訓練FCN網絡;然后將待矯正的發票輸入訓練好的FCN網絡中,分割出發票的主體部分、發票標題以及無關背景;將輸出灰度圖按照灰度值差異生成為兩張圖,一張包含發票的主體部分和背景,一張包含發票標題和背景;再計算發票主體部分的四個角點的像素值;之后確定發票的方向;最后通過透視變換矯正發票的方向。本發明方法解決了由于拍攝環境影響,發票照片呈現歪曲,傾斜等問題,可以更加有效的識別分割出發票的位置,方向。具有更高的算法魯棒性,大大加強了后續文字識別的準確性。
技術領域
本發明屬于圖像處理領域,具體涉及一種基于深度學習網絡的發票照片位置矯正方法。
背景技術
發票OCR(Optical?Character?Recognition,光學字符識別)?指的是,將發票照片中特定區域文字和數字用字符識別技術識別為計算機文字的過程。在處理發票OCR的過程中,由于拍攝者習慣,使用設備,拍攝環境,拍攝發票紙張等條件不統一,發票照片呈現歪曲,傾斜,模糊等問題。不利于后續文字識別和處理。并且由于情景多種多樣,傳統的非深度學習方法很難正確的識別。
發明內容
為了解決現有技術中存在的問題,本發明提出了一種基于深度學習網絡的發票照片位置矯正方法。
所述的方法分成三個階段:發票位置定位階段首先采用FCN深度學習網絡分割出發票主體的位置和標志物位置。目標尋找階段,通過直線檢測和顏色檢測的方式找到發票主體位置和發票方向。矯正階段,通過仿射變換將拍攝歪斜的發票矯正為正向。
本發明采用的技術方案主要包括以下步驟:
步驟一:訓練FCN網絡;
收集發票并進行標注,標注方式為分割標注,分別標注發票框內的主體部分和發票的標題部分。然后使用FCN網絡進行訓練,將原圖和對應的標注數據放到FCN網絡中訓練,使FCN網絡輸出主體部分,發票標題以及無關背景。FCN網絡輸出大小為448*448的灰度圖;輸出灰度圖之中,標題部分的灰度值為50,主體部分灰度值為100,背景部分灰度值為255。
步驟二:圖像分割;
將待矯正的發票輸入訓練好的FCN網絡中,分割出發票的主體部分、發票標題以及無關背景。將輸出灰度圖按照灰度值差異生成為兩張圖,一張包含發票的主體部分和背景,一張包含發票標題和背景。
步驟三:計算發票主體部分的四個角點的像素值;
步驟四:確定發票的方向;
遍歷包含標題的灰度圖,找到發票的標題位置,以發票區域中任意一個點x0作為標題的位置;
根據x0來標注步驟三獲得的四個角點。設標題x0所在的位置為發票正相位,以逆時針方向,標記發票的四個角點為別為?p1,p2,p3,p4。
步驟五:通過透視變換矯正發票的方向;
步驟三具體方法如下:
對包含主體部分的灰度圖進行處理:
3.1采用opencv中findContours進行輪廓檢測,找到圖像中可能包含發票主體的部分;
3.2采用opencv中convexHull進行凸包檢測;
3.3采用opencv中approxPolyDP找到凸包的頂點;
3.4篩選出有四個頂點的四邊形;
3.5計算四邊形的面積,其中面積大于閾值的為發票主體部分;
3.6篩選出的四個頂點為所求發票主體的四個角點。
進一步的,步驟三所述的閾值設置為60。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州師范大學,未經杭州師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010620221.4/2.html,轉載請聲明來源鉆瓜專利網。





