[發明專利]基于機器學習的移動端開戶資料銀行信息自動提取方法在審
| 申請號: | 202011253879.2 | 申請日: | 2020-11-11 |
| 公開(公告)號: | CN112464925A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 鄭翊;郭鵬;覃仕頂;張愛平;高盈 | 申請(專利權)人: | 湖北省楚建易網絡科技有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/32;G06K9/62;G06F40/289;G06N20/00;G06Q40/02 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 徐瑛 |
| 地址: | 430000 湖北省武漢市東湖新技術開發*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 移動 開戶 資料 銀行 信息 自動 提取 方法 | ||
1.基于機器學習的移動端開戶資料銀行信息自動提取方法,其特征在于,包括:
識別開戶資料圖片的類型;
識別開戶資料圖片的方向;
依據識別結果進行圖像操作,將非正向的開戶資料圖片旋轉正向處理;
識別開戶資料圖片中的文字區域;
對于類型為開戶許可證的開戶資料圖片,使用訓練的表格回歸器模型預測文字區域的位置信息;該表格回歸器模型是根據錨點文字區域與目標文字區域之間相對固定的位置關系,經訓練而建立的回歸模型;該表格回歸器模型以錨點文字區域位置信息的歸一化數據作為輸入,利用圖像中文字區域位置間的數據規律預測目標文字區域的位置信息,輸出目標文字區域位置信息的歸一化數據;
對預測的位置信息進行驗證,截取目標文字區域的圖片;
對截取的圖片進行OCR文字提取,獲得目標文字區域的文本信息。
2.根據權利要求1所述的基于機器學習的移動端開戶資料銀行信息自動提取方法,其特征在于,利用第一圖像分類器模型來區分輸入的開戶資料圖片的類型;利用第二圖像分類器模型來區分輸入的開戶資料圖片的方向。
3.根據權利要求2所述的基于機器學習的移動端開戶資料銀行信息自動提取方法,其特征在于,開戶資料圖片的類型包括:開戶許可證、銀行基本存款賬戶信息樣式和其他證明樣式。
4.根據權利要求1所述的基于機器學習的移動端開戶資料銀行信息自動提取方法,其特征在于,利用第三方文字區域識別模型來識別開戶資料圖片中的文字區域,得到描述文字區域的矩形位置數組。
5.根據權利要求4所述的基于機器學習的移動端開戶資料銀行信息自動提取方法,其特征在于,若開戶資料圖片的類型為銀行基本存款賬戶信息樣式,則對識別的文字區域信息進行基于位置關系的邏輯推理,得到目標文字區域信息,再對該目標文字區域進行范圍加強形成新的目標矩形,從原圖截取該目標矩形,對截取的目標矩形的圖片進行OCR文字識別提取,對提取文字進行基于語義的過濾,得到提取的銀行信息。
6.根據權利要求4所述的基于機器學習的移動端開戶資料銀行信息自動提取方法,其特征在于,若開戶資料圖片的類型為其他證明樣式,則轉發后臺進行人工識別。
7.根據權利要求4所述的基于機器學習的移動端開戶資料銀行信息自動提取方法,其特征在于,若開戶資料圖片的類型為開戶許可證,則根據開戶許可證樣式文字位置關系,選取已識別的文字區域中的三個文字區域為錨點位置,歸一處理為表格數據參數,輸入到訓練好的表格回歸器模型,經模型處理輸出預測目標文字區域的位置信息;進一步地,上述錨點位置包括位置最上的矩形,中線右側除第一個已選取矩形以外的最上和次上的矩形;進一步地,經模型處理輸出的目標文字區域的位置信息為歸一化數據,通過逆歸一化處理后得到目標文字區域的位置坐標信息。
8.根據權利要求7所述的基于機器學習的移動端開戶資料銀行信息自動提取方法,其特征在于,將預測的目標文字區域的位置信息與其他文字區域的位置信息進行對照,對預測位置進行驗證,驗證通過后,從原圖上截取目標文字區域的矩形圖片。
9.根據權利要求7所述的基于機器學習的移動端開戶資料銀行信息自動提取方法,其特征在于,在PC端設計和訓練圖像分類模型與表格回歸器模型,包括設計模型方案,收集與預處理訓練數據,優化訓練參數,選擇訓練算法。
10.基于機器學習的移動端開戶資料銀行信息自動提取系統,采用權利要求1至9中任一項所述的方法實現,其特征在于,所述系統包括:
輸入模塊,用于輸入開戶資料圖片;
第一圖像分類器模塊,與輸入模塊相連,用于接收輸入的開戶資料圖片并識別開戶資料圖片的類型;
第二圖像分類器模塊,與第一圖像分類器模塊相連,用于識別開戶資料圖片的方向并對將非正向的開戶資料圖片旋轉到正向;
第三方文字區域識別模塊,用于識別正向圖片中的文字區域;
表格回歸器模塊,用于以錨點文字區域位置信息的歸一化數據作為輸入,利用圖像中文字區域位置間的數據規律預測目標文字區域的位置信息,輸出目標文字區域位置信息的歸一化數據;
OCR文字提取模塊,用于提取目標文字區域的文本;
輸出模塊,用于輸出提取的文本信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北省楚建易網絡科技有限公司,未經湖北省楚建易網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011253879.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種除塵型防撞警示設備
- 下一篇:一種測量鉆井用導向管應變的裝置及方法





