[發明專利]一種OCR系統中采用深度學習矯正發票圖片分割結果的方法有效
申請號: | 201910094002.4 | 申請日: | 2019-01-30 |
公開(公告)號: | CN109886257B | 公開(公告)日: | 2022-10-18 |
發明(設計)人: | 梁歡;肖欣庭;池明輝;趙冬 | 申請(專利權)人: | 四川長虹電器股份有限公司 |
主分類號: | G06V30/14 | 分類號: | G06V30/14;G06V30/148;G06V10/82 |
代理公司: | 四川省成都市天策商標專利事務所(有限合伙) 51213 | 代理人: | 郭會 |
地址: | 621000 四*** | 國省代碼: | 四川;51 |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 一種 ocr 系統 采用 深度 學習 矯正 發票 圖片 分割 結果 方法 | ||
本發明公開了一種OCR系統中采用深度學習矯正發票圖片分割結果的方法一種OCR系統中采用深度學習矯正發票圖片分割結果的方法包括1:獲取訓練圖片,并提取訓練生成矯正模型;步驟2:搜集票據圖片的第一屬性和第二屬性,然后再提取截取的非發票的圖片或被截取的殘缺的發票圖片標記為負樣本,不記錄其第二屬性信息;步驟3:構建矯正網絡對步驟1和2所得的圖片通過神經網絡進行處理,運用常用的人臉檢測常用數據集運用得出的模型進行遷移訓練;步驟4:對步驟3所得票據圖片進行初步切圖,并獲取的第三屬性和第四屬性結合票據圖片輸入步驟1所得的矯正模型得到修正后的第三屬性和第四屬性,即得到最終的票據圖片分割結果。
技術領域
本發明涉及液晶電視技術領域,具體的說,是一種OCR系統中采用深度學習矯正發票圖片分割結果的方法。
背景技術
在做發票核算、票面信息錄入等批量業務OCR時,往往都是一張發票粘貼在一張A4紙張上,而票面OCR僅僅關注票據的主體部分,非發票主體部分空白邊緣會對OCR處理時的計算資源造成浪費。所以就需要首先對A4紙進行分割。自動分割發票技術雖已應用,但由于發票圖片的一些特殊性,難以和背景底色準確區分,所以分割后仍需對分割后的結果進行坐標糾正,以滿足OCR處理需求。由于人工矯正很難統一標準,且批量矯正的工作量大,造成業務處理效率低下。
發明內容
本發明的目的在于提供一種OCR系統中采用深度學習矯正發票圖片分割結果的方法,用于解決現有技術中做發票核算、票面信息錄入等批量業務OCR時發票圖片難以和背景底色準確區分,而人工矯正很難統一標準,且批量矯正的工作量大,造成業務處理效率低下的問題。
本發明通過下述技術方案解決上述問題:
一種OCR系統中采用深度學習矯正發票圖片分割結果的方法,所述方法包括如下步驟:
步驟1:獲取訓練圖片,并提取其第一屬性和第二屬性進行訓練,根據第一屬性和第二屬性返回訓練圖片取得正負樣本標簽,聯合訓練圖片、第一屬性和第二屬性共同以生成矯正模型;
步驟2:搜集票據圖片的第一屬性和第二屬性,聯合掃描件發票圖片提取訓練的正樣本圖片,然后再提取截取的非發票的圖片或被截取的殘缺的發票圖片標記為負樣本,不記錄其第二屬性信息;
步驟3:構建矯正網絡對步驟1和2所得的圖片通過神經網絡進行處理,運用常用的人臉檢測常用數據集運用得出的模型進行遷移訓練;
步驟4:對步驟3所得票據圖片進行初步切圖,并獲取的第三屬性和第四屬性結合票據圖片輸入步驟1所得的矯正模型得到修正后的第三屬性和第四屬性,即得到最終的票據圖片分割結果。
通過本方法,通過訓練好的神經網絡進行分割并且通過神經網絡模型進行矯正,不用再人工進矯正或者審核,很好的解決了現有技術中做發票核算、票面信息錄入等批量業務OCR時發票圖片難以和背景底色準確區分,而人工矯正很難統一標準,且批量矯正的工作量大,造成業務處理效率低下的問題。
優選地,所述第一屬性包括切出主體的中心點在原圖中的坐標、切出主體的左上角點在原圖中的坐標和右下角點在原圖中的坐標;第二屬性包括票據圖片主體區域的寬度與高度;第三屬性包括初步切圖后的切出主體的中心點在原圖中的坐標、切出主體的左上角點在原圖中的坐標和右下角點在原圖中的坐標;第四屬性包括初步切圖后票據圖片主體區域的寬度與高度。
優選地,所述步驟2中正負樣本的比例為10:1。
優選地,所述步驟3中的遷移訓練包括如下步驟:
步驟3.1:使用已經標注好的人臉定位識別常用數據集WIDER FACE獲取正樣本數據,從人臉定位識別常用數據集Celeb A分別提取正樣本和負樣本數據,同時獲得圖片的第一屬性和第二屬性;
步驟3.2:將上述步驟2中準備好的數據,在已有的人臉定位矯正網絡模型權重的基礎上,進行遷移學習訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川長虹電器股份有限公司,未經四川長虹電器股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910094002.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:智能評測設備及系統
- 下一篇:提供多媒體信息的關聯信息的方法、裝置及電子設備