[發(fā)明專利]文檔表格識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202110851182.3 | 申請(qǐng)日: | 2021-07-27 |
| 公開(kāi)(公告)號(hào): | CN113486848A | 公開(kāi)(公告)日: | 2021-10-08 |
| 發(fā)明(設(shè)計(jì))人: | 雷田子;黨升 | 申請(qǐng)(專利權(quán))人: | 平安國(guó)際智慧城市科技股份有限公司 |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06K9/62;G06T5/30;G06F40/18;G06F40/194;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市賽恩倍吉知識(shí)產(chǎn)權(quán)代理有限公司 44334 | 代理人: | 楊毅玲;劉麗華 |
| 地址: | 518000 廣東省深圳市前海深港合*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文檔 表格 識(shí)別 方法 裝置 設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種文檔表格識(shí)別方法,其特征在于,所述文檔表格識(shí)別方法包括:
當(dāng)接收到識(shí)別請(qǐng)求時(shí),根據(jù)所述識(shí)別請(qǐng)求獲取待處理信息,并識(shí)別所述待處理信息所屬的信息類型;
若所述信息類型為預(yù)設(shè)類型,從所述待處理信息中識(shí)別出初篩線段;
對(duì)所述初篩線段進(jìn)行校驗(yàn)過(guò)濾處理,得到表格線段;
根據(jù)所述表格線段定位所述待處理信息的傾斜角度;
根據(jù)所述傾斜角度分析所述表格線段,得到單元表格;
獲取預(yù)先訓(xùn)練好的文本識(shí)別模型,所述文本識(shí)別模型包括文本檢測(cè)網(wǎng)絡(luò)及文字識(shí)別網(wǎng)絡(luò);
基于所述文本檢測(cè)網(wǎng)絡(luò)處理所述單元表格,得到所述單元表格的二值近似圖;
基于所述文字識(shí)別網(wǎng)絡(luò)處理所述二值近似圖,得到所述待處理信息的識(shí)別結(jié)果。
2.如權(quán)利要求1所述的文檔表格識(shí)別方法,其特征在于,所述方法還包括:
若所述信息類型不為所述預(yù)設(shè)類型,獲取所述信息類型與所述預(yù)設(shè)類型的映射函數(shù);
切分所述待處理信息,得到多個(gè)切分信息;
基于所述映射函數(shù)對(duì)所述多個(gè)切分信息進(jìn)行并行轉(zhuǎn)換處理,得到目標(biāo)信息。
3.如權(quán)利要求1所述的文檔表格識(shí)別方法,其特征在于,所述從所述待處理信息中識(shí)別出初篩線段包括:
基于cv2.cvtColor()函數(shù)分析所述待處理信息,生成所述待處理信息的灰度圖;
基于threshold()函數(shù)對(duì)所述灰度圖進(jìn)行二值化處理,得到目標(biāo)圖像;
對(duì)所述目標(biāo)圖像執(zhí)行腐蝕膨脹處理,得到多個(gè)圖像線段;
根據(jù)每個(gè)圖像線段在所述待處理信息中的線段坐標(biāo)確定每?jī)蓚€(gè)圖像線段的線段間距;
將所述線段間距小于第一預(yù)設(shè)間距的兩個(gè)圖像線段進(jìn)行合并處理,得到所述初篩線段。
4.如權(quán)利要求3所述的文檔表格識(shí)別方法,其特征在于,所述對(duì)所述初篩線段進(jìn)行校驗(yàn)過(guò)濾處理,得到表格線段包括:
根據(jù)所述線段坐標(biāo)計(jì)算所述初篩線段的線段長(zhǎng)度;
對(duì)所述線段長(zhǎng)度進(jìn)行離散化處理,得到所述初篩線段的長(zhǎng)度離散結(jié)果;
計(jì)算每個(gè)所述長(zhǎng)度離散結(jié)果在所述線段長(zhǎng)度的數(shù)量概率;
從所述初篩線段中剔除所述數(shù)量概率小于預(yù)設(shè)概率值所對(duì)應(yīng)的初篩線段,得到特征線段;
根據(jù)所述線段坐標(biāo)計(jì)算每?jī)蓚€(gè)所述特征線段的特征間距;
剔除所述特征間距大于第二預(yù)設(shè)間距的特征線段,得到所述表格線段,所述第二預(yù)設(shè)間距大于所述第一預(yù)設(shè)間距。
5.如權(quán)利要求1所述的文檔表格識(shí)別方法,其特征在于,所述根據(jù)所述傾斜角度分析所述表格線段,得到單元表格包括:
基于所述傾斜角度對(duì)所述表格線段進(jìn)行旋轉(zhuǎn)處理,得到目標(biāo)線段;
根據(jù)所述目標(biāo)線段在所述待處理信息中的線段位置對(duì)所述目標(biāo)線段進(jìn)行交叉處理,得到目標(biāo)表格;
識(shí)別出所述目標(biāo)表格中的定位交點(diǎn);
根據(jù)所述定位交點(diǎn)從所述目標(biāo)表格中提取所述單元表格。
6.如權(quán)利要求1述的文檔表格識(shí)別方法,其特征在于,所述基于所述文本檢測(cè)網(wǎng)絡(luò)處理所述單元表格,得到所述單元表格的二值近似圖包括:
獲取所述文本檢測(cè)網(wǎng)絡(luò)的特征金字塔網(wǎng)絡(luò)、概率預(yù)測(cè)網(wǎng)絡(luò)及二值化網(wǎng)絡(luò),所述特征金字塔網(wǎng)絡(luò)包括多個(gè)不同尺寸的金字塔層,所述概率預(yù)測(cè)網(wǎng)絡(luò)包括卷積層、歸一化層、激活函數(shù)及反卷積層;
基于所述特征金字塔網(wǎng)絡(luò)對(duì)所述單元表格進(jìn)行處理,得到每個(gè)多個(gè)金字塔層所對(duì)應(yīng)的表格層圖;
根據(jù)預(yù)設(shè)尺寸需求對(duì)所述表格層圖進(jìn)行上采樣處理,得到多個(gè)采樣圖;
對(duì)所述多個(gè)采樣圖進(jìn)行融合處理,得到特征圖;
基于所述概率預(yù)測(cè)網(wǎng)絡(luò)處理所述特征圖,得到所述單元表格的概率圖;
基于所述二值化網(wǎng)絡(luò)處理所述特征圖,得到所述單元表格的閾值圖;
根據(jù)下列公式分析所述概率圖及所述閾值圖,得到所述二值近似圖:
其中,Bi,j是指所述二值近似圖中第i行,第j列的像素信息,k是指所述文本檢測(cè)網(wǎng)絡(luò)中的網(wǎng)絡(luò)配置值,Pi,j是指所述概率圖中第i行,第j列的像素信息,Ti,j是指所述閾值圖中第i行,第j列的像素信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安國(guó)際智慧城市科技股份有限公司,未經(jīng)平安國(guó)際智慧城市科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110851182.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫(huà)生成方法、裝置及設(shè)備
- 版式表格的結(jié)構(gòu)處理方法和系統(tǒng)
- 多欄多列表格的展示方法
- 一種在移動(dòng)端展示長(zhǎng)表格的交互方法及系統(tǒng)裝置
- 一種在移動(dòng)端縱向展示長(zhǎng)表格的交互方法及系統(tǒng)裝置
- 一種在移動(dòng)端橫向展示長(zhǎng)表格的交互方法及系統(tǒng)裝置
- 表格圖像解析方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種針對(duì)PDF文檔表格提取優(yōu)化方法及系統(tǒng)
- 一種自動(dòng)生成表格數(shù)據(jù)的方法及裝置
- 一種批量合并表格內(nèi)容的方法、系統(tǒng)、裝置和存儲(chǔ)介質(zhì)
- 表格渲染顯示方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





