[發(fā)明專(zhuān)利]一種單據(jù)識(shí)別方法以及識(shí)別系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202110495092.5 | 申請(qǐng)日: | 2021-05-07 |
| 公開(kāi)(公告)號(hào): | CN113205049A | 公開(kāi)(公告)日: | 2021-08-03 |
| 發(fā)明(設(shè)計(jì))人: | 王普;黃明飛;梁維斌 | 申請(qǐng)(專(zhuān)利權(quán))人: | 開(kāi)放智能機(jī)器(上海)有限公司 |
| 主分類(lèi)號(hào): | G06K9/00 | 分類(lèi)號(hào): | G06K9/00;G06K9/34;G06N3/04;G06N3/08 |
| 代理公司: | 上海市匯業(yè)律師事務(wù)所 31325 | 代理人: | 王函 |
| 地址: | 200233 上海市徐匯區(qū)*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 單據(jù) 識(shí)別 方法 以及 系統(tǒng) | ||
1.一種單據(jù)識(shí)別方法,包括:
步驟一、對(duì)單據(jù)圖片進(jìn)行圖像增強(qiáng)處理;
步驟二、采用孿生神經(jīng)網(wǎng)絡(luò),對(duì)增強(qiáng)的單據(jù)圖片進(jìn)行質(zhì)量評(píng)分,并將質(zhì)量評(píng)分不低于預(yù)定閾值的單據(jù)圖片認(rèn)定為待識(shí)別單據(jù)圖片;
步驟三、使用第一卷積神經(jīng)網(wǎng)絡(luò)CNN定位所述待識(shí)別單據(jù)圖片的四個(gè)角點(diǎn),沿著四個(gè)角點(diǎn)摳取待識(shí)別區(qū)域;
步驟四、采用特征金字塔網(wǎng)絡(luò)FPN,對(duì)所述待識(shí)別區(qū)域進(jìn)行文本框檢測(cè)而獲得多個(gè)文本框;
步驟五、使用卷積遞歸神經(jīng)網(wǎng)絡(luò)CRNN以及時(shí)序分類(lèi)網(wǎng)絡(luò)CTC對(duì)檢測(cè)獲得的所述多個(gè)文本框進(jìn)行文本識(shí)別,得到每個(gè)文本框?qū)?yīng)的字符段;以及
步驟六、使用文本卷積神經(jīng)網(wǎng)絡(luò)TextCNN對(duì)識(shí)別得到的字符段進(jìn)行識(shí)別,得到各個(gè)字符段對(duì)應(yīng)的字符識(shí)別結(jié)果。
2.根據(jù)權(quán)利要求1所述的單據(jù)識(shí)別方法,其特征在于,所述步驟一中的所述圖像增強(qiáng)處理包括對(duì)待識(shí)別單據(jù)圖片進(jìn)行亮度調(diào)節(jié)、明暗度調(diào)節(jié)、飽和度調(diào)節(jié)、裁剪、拉伸、旋轉(zhuǎn)、仿射變換、透視變換中的至少一種處理。
3.根據(jù)權(quán)利要求1所述的單據(jù)識(shí)別方法,其特征在于,步驟二中對(duì)由于抖動(dòng)、機(jī)械運(yùn)行、光照因素造成所述質(zhì)量評(píng)分低于所述預(yù)定閾值的單據(jù)圖片停止識(shí)別;步驟二中的所述孿生神經(jīng)網(wǎng)絡(luò)包括主干網(wǎng)絡(luò)、以及與所述主干網(wǎng)絡(luò)串聯(lián)且相互并聯(lián)的第一卷積層及RELU層以及第二卷積層及RELU層,在訓(xùn)練時(shí)所述第一卷積層及RELU層以及第二卷積層及RELU層每次各被輸入第一圖片以及第二圖片,所述主干網(wǎng)絡(luò)輸出的維度為一的質(zhì)量得分,質(zhì)量得分與第一圖片以及第二圖片的熵函數(shù)之間的差值為最終的傳播損失,所述第一圖片的質(zhì)量分?jǐn)?shù)大于所述預(yù)定閾值,所述第二圖片的質(zhì)量分?jǐn)?shù)小于所述預(yù)定閾值;步驟二中將單據(jù)圖片與其質(zhì)量評(píng)分高于所述預(yù)定閾值的底庫(kù)圖片成對(duì)送入訓(xùn)練好的孿生神經(jīng)網(wǎng)絡(luò)中,所述孿生神經(jīng)網(wǎng)絡(luò)對(duì)應(yīng)輸出質(zhì)量得分,在質(zhì)量得分不低于所述預(yù)定閾值時(shí),所述單據(jù)圖片被認(rèn)定為待識(shí)別單據(jù)圖片。
4.根據(jù)權(quán)利要求1所述的單據(jù)識(shí)別方法,其特征在于,步驟四中使用漸進(jìn)式規(guī)模擴(kuò)展網(wǎng)絡(luò)PSEnet對(duì)所述待識(shí)別區(qū)域進(jìn)行文本框檢測(cè)獲得多個(gè)文本框,所述PSEnet通過(guò)Resnet50殘差網(wǎng)絡(luò)提取所述待識(shí)別區(qū)域的特征,并利用FPN融合深層及底層的特征,得到特征圖p2、p3、p4以及p5,再通過(guò)對(duì)應(yīng)函數(shù)得到最終預(yù)測(cè)的融合特征F;所述PSEnet基于分割的方式,生成不同核尺寸的分割實(shí)例S1、S2、…、Sn,對(duì)文本框不同核大小做預(yù)測(cè),采用漸進(jìn)式擴(kuò)展算法擴(kuò)展最小尺度核S1到最大尺度核Sn,從而獲得最終的檢測(cè)結(jié)果R。
5.根據(jù)權(quán)利要求1所述的單據(jù)識(shí)別方法,其特征在于,步驟五中所述CRNN包括卷積層、LSTM層以及轉(zhuǎn)錄層,所述卷積層自動(dòng)從所述多個(gè)文本框中提取圖像卷積特征,然后所述LSTM層進(jìn)一步提取圖像卷積特征中的序列特征,所述轉(zhuǎn)錄層進(jìn)行每幀預(yù)測(cè)并將得到的特征序列輸入到時(shí)序分類(lèi)網(wǎng)絡(luò)CTC由其對(duì)所述特征序列進(jìn)行預(yù)測(cè)而獲得對(duì)應(yīng)的字符段。
6.一種單據(jù)識(shí)別系統(tǒng),包括:
單據(jù)增強(qiáng)處理模塊,其用于對(duì)單據(jù)圖片進(jìn)行圖像增強(qiáng)處理;
單據(jù)質(zhì)量分析模塊,其采用孿生神經(jīng)網(wǎng)絡(luò),對(duì)增強(qiáng)的單據(jù)圖片進(jìn)行質(zhì)量評(píng)分,并將其質(zhì)量評(píng)分不低于預(yù)定閾值的單據(jù)圖片認(rèn)定為待識(shí)別單據(jù)圖片;
單據(jù)定位模塊,其使用第一卷積神經(jīng)網(wǎng)絡(luò)CNN定位待識(shí)別單據(jù)圖片的四個(gè)角點(diǎn),沿著四個(gè)角點(diǎn)摳取待識(shí)別區(qū)域;
文本檢測(cè)模塊,其采用特征金字塔網(wǎng)絡(luò)FPN,對(duì)所述待識(shí)別區(qū)域進(jìn)行文本框檢測(cè)而獲得多個(gè)文本框;
文本識(shí)別模塊,其使用卷積遞歸神經(jīng)網(wǎng)絡(luò)CRNN以及時(shí)序分類(lèi)網(wǎng)絡(luò)CTC對(duì)檢測(cè)獲得的所述多個(gè)文本框進(jìn)行文本識(shí)別,得到每個(gè)文本框?qū)?yīng)的字符段;以及
NLP語(yǔ)義分類(lèi)模塊,其使用文本卷積神經(jīng)網(wǎng)絡(luò)TextCNN對(duì)識(shí)別得到的字符段進(jìn)行識(shí)別,得到各個(gè)字符段對(duì)應(yīng)的字符段識(shí)別結(jié)果。
7.根據(jù)權(quán)利要求6所述的單據(jù)識(shí)別系統(tǒng),其特征在于,所述單據(jù)圖片處理模塊的所述圖像增強(qiáng)處理包括對(duì)待識(shí)別單據(jù)圖片進(jìn)行亮度調(diào)節(jié)、明暗度調(diào)節(jié)、飽和度調(diào)節(jié)、裁剪、拉伸、旋轉(zhuǎn)、仿射變換、透視變換中的至少一種處理。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于開(kāi)放智能機(jī)器(上海)有限公司,未經(jīng)開(kāi)放智能機(jī)器(上海)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110495092.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種業(yè)務(wù)單據(jù)的核銷(xiāo)方法及系統(tǒng)
- 應(yīng)收款發(fā)票核銷(xiāo)方法和裝置
- 單據(jù)編碼生成的方法和裝置
- 一種單據(jù)模板的管理方法、調(diào)用單據(jù)的方法及相關(guān)裝置
- 一種整合單據(jù)的方法及裝置
- 一種待簽單據(jù)的工作流定義、制作和審批方法
- 供需單據(jù)的調(diào)整方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 金融單據(jù)和業(yè)務(wù)單據(jù)的掛接方法及終端設(shè)備
- 一種單據(jù)生成方法、信息管理系統(tǒng)及存儲(chǔ)介質(zhì)
- 單據(jù)作業(yè)流程的管理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線(xiàn)程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 接收裝置以及接收方法、以及程序
- 凈水濾芯以及凈水裝置、以及洗漱臺(tái)
- 隱匿檢索系統(tǒng)以及公開(kāi)參數(shù)生成裝置以及加密裝置以及用戶(hù)秘密密鑰生成裝置以及查詢(xún)發(fā)布裝置以及檢索裝置以及計(jì)算機(jī)程序以及隱匿檢索方法以及公開(kāi)參數(shù)生成方法以及加密方法以及用戶(hù)秘密密鑰生成方法以及查詢(xún)發(fā)布方法以及檢索方法
- 編碼方法以及裝置、解碼方法以及裝置
- 編碼方法以及裝置、解碼方法以及裝置
- 圖片顯示方法以及裝置以及移動(dòng)終端
- ENB以及UEUL發(fā)送以及接收的方法
- X射線(xiàn)探測(cè)方法以及裝置以及系統(tǒng)
- 圖書(shū)信息錄入方法以及系統(tǒng)以及書(shū)架
- 護(hù)耳器以及口罩以及眼鏡





