[發(fā)明專利]基于機(jī)器學(xué)習(xí)的移動端開戶資料銀行信息自動提取方法在審
| 申請?zhí)枺?/td> | 202011253879.2 | 申請日: | 2020-11-11 |
| 公開(公告)號: | CN112464925A | 公開(公告)日: | 2021-03-09 |
| 發(fā)明(設(shè)計)人: | 鄭翊;郭鵬;覃仕頂;張愛平;高盈 | 申請(專利權(quán))人: | 湖北省楚建易網(wǎng)絡(luò)科技有限公司 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/32;G06K9/62;G06F40/289;G06N20/00;G06Q40/02 |
| 代理公司: | 南京縱橫知識產(chǎn)權(quán)代理有限公司 32224 | 代理人: | 徐瑛 |
| 地址: | 430000 湖北省武漢市東湖新技術(shù)開發(fā)*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 機(jī)器 學(xué)習(xí) 移動 開戶 資料 銀行 信息 自動 提取 方法 | ||
本發(fā)明公開一種基于機(jī)器學(xué)習(xí)的移動端開戶資料銀行信息自動提取方法,使用訓(xùn)練的圖像分類模型,識別開戶資料圖片的類型;識別開戶資料圖片的方向;依據(jù)識別結(jié)果進(jìn)行圖像操作,將非正向的開戶資料圖片旋轉(zhuǎn)正向處理;識別開戶資料圖片中的文字區(qū)域;對于類型為開戶許可證的開戶資料圖片,使用訓(xùn)練的表格回歸器模型預(yù)測文字區(qū)域的位置信息;對預(yù)測的位置信息進(jìn)行驗證,截取目標(biāo)文字區(qū)域的圖片;對截取的圖片進(jìn)行OCR文字提取,獲得目標(biāo)文字區(qū)域的文本信息。本發(fā)明在移動端實現(xiàn)開戶資料中銀行信息的自動識別并提取,能夠大大減少后端服務(wù)壓力,節(jié)約成本,并且大大減小模型體積,更適合于移動端應(yīng)用。
技術(shù)領(lǐng)域
本發(fā)明涉及利用機(jī)器學(xué)習(xí)的工具方法解決目標(biāo)圖像提取問題,尤其是對特定文字區(qū)域的提取,特別是基于有監(jiān)督類機(jī)器學(xué)習(xí)訓(xùn)練的圖像分類器模型與表格回歸器模型對開戶資料進(jìn)行分類識別、對其中開戶許可證類型的開戶行賬戶和開戶行名稱進(jìn)行自動識別的方法,具體為一種基于機(jī)器學(xué)習(xí)的移動端開戶資料銀行信息自動提取方法。
背景技術(shù)
在進(jìn)行在B2B平臺的注冊中(例如線上招投標(biāo)平臺),一般都需要注冊企業(yè)提供一些資質(zhì)信息,通常會要求提供開戶行信息。手機(jī)移動端注冊時,需要用戶拍照或從手機(jī)圖庫中選取包含企業(yè)開戶行名稱和開戶賬號的銀行開戶資料上傳。平臺不僅要把注冊企業(yè)的開戶資料圖片作為資料留存,還需把其中的銀行信息進(jìn)行提取,此時,平臺可能讓用戶手動輸入或讓平臺后臺工作人員錄入;或以開戶許可證為模板在后端進(jìn)行模板特征提取后再進(jìn)行OCR文字識別提取,例如,通過購買百度或阿里的服務(wù),買他們開戶許可證OCR的模板,把開戶資料的圖片通過API接口傳給他們,他們處理完再返回識別結(jié)果。
開戶資料2020年前基本即指開戶許可證,如圖1,后端直接對上傳資料使用模板提取沒有問題,但國家于2019年7月取消紙質(zhì)開戶許可證,現(xiàn)在的開戶資料不僅有開戶許可證,還包括有銀行提供的基本存款賬戶信息樣式,如圖2,以及少量其他銀行開具的證明文件樣式,如圖3。因此,現(xiàn)在要從開戶資料中自動化提取銀行信息,不能直接使用模板提取,而必須先對資料類型進(jìn)行分類。另外,從技術(shù)角度看,移動使用已成主流,如果識別提取功能能在用戶的移動端上完成,能大大減少后端服務(wù)壓力,節(jié)約成本。
傳統(tǒng)方法不適于直接在移動端實現(xiàn),傳統(tǒng)圖像學(xué)方法需要引入圖形庫(如openCV),有增大應(yīng)用體量和提高應(yīng)用耗電的問題,并且并非專為移動系統(tǒng)設(shè)計的圖形庫,在移動系統(tǒng)上運行由于運行效率問題,還會引起諸如耗電量增加,電池發(fā)熱等問題,進(jìn)一步降低了應(yīng)用體驗,所以傳統(tǒng)方法更適于后端實現(xiàn)。而利用神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)方法直接制作圖像目標(biāo)檢測模型,生模型成體積也不小(使用蘋果優(yōu)化過的預(yù)訓(xùn)練模型訓(xùn)練,量化優(yōu)化體積后,還是不下于16Mb)。這對于圖像識別部分不是主要功能的移動端應(yīng)用而言,也十分不友好。因此,需要提供一種方案,既能夠在移動端達(dá)成目標(biāo),又能夠滿足移動端對應(yīng)用體積的約束。
現(xiàn)在的iOS和Android系統(tǒng)都有對機(jī)器學(xué)習(xí)的支持(iOS中的Core ML,安卓中的Neural Networks API)。這允許開發(fā)者將他們已訓(xùn)練好的模型部署到移動設(shè)備上進(jìn)行應(yīng)用,而在設(shè)備上應(yīng)用有許多優(yōu)勢:
延遲時間:不需要通過網(wǎng)絡(luò)連接發(fā)送請求并等待響應(yīng)。
可用性:應(yīng)用甚至可以在沒有網(wǎng)絡(luò)覆蓋的條件下運行。
速度:與單純的通用CPU相比,特定于神經(jīng)網(wǎng)絡(luò)處理的新硬件可以提供顯著加快的計算速度。
隱私:數(shù)據(jù)不會離開設(shè)備。
費用:所有計算都在設(shè)備上執(zhí)行,不需要服務(wù)器支出。
應(yīng)用大小:只要考慮控制模型大小,不需要考慮其他依賴包,因為系統(tǒng)已經(jīng)支持。
綜上如果能利用機(jī)器學(xué)習(xí)方法訓(xùn)練模型在移動端實現(xiàn)圖像分類識別和信息提取,則可以解決在移動端完成對開戶資料圖片的銀行信息提取。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖北省楚建易網(wǎng)絡(luò)科技有限公司,未經(jīng)湖北省楚建易網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011253879.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)





