[發(fā)明專利]基于比例計(jì)算還原表格圖片為可編輯的WORD文件表格的方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011530378.4 | 申請(qǐng)日: | 2020-12-22 |
| 公開(kāi)(公告)號(hào): | CN112632934B | 公開(kāi)(公告)日: | 2023-01-17 |
| 發(fā)明(設(shè)計(jì))人: | 馬超;孫凡;武博;張春魁;汪偉嵐 | 申請(qǐng)(專利權(quán))人: | 上海精密計(jì)量測(cè)試研究所 |
| 主分類號(hào): | G06F40/18 | 分類號(hào): | G06F40/18;G06V30/413 |
| 代理公司: | 上海航天局專利中心 31107 | 代理人: | 余岢 |
| 地址: | 201109 *** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 比例 計(jì)算 還原 表格 圖片 編輯 word 文件 方法 | ||
本發(fā)明提供了一種基于比例計(jì)算還原表格圖片為可編輯的WORD文件表格的方法,本發(fā)明根據(jù)表格圖片的長(zhǎng)寬像素與word文件的頁(yè)面版式按比例計(jì)算、匹配、還原的方式,將圖片中的內(nèi)容等比還原到Word文件的頁(yè)面版式中。主要包括頁(yè)面版式匹配、表格邊框大小匹配、表格頁(yè)面位置匹配與文字大小匹配。結(jié)果經(jīng)過(guò)計(jì)算的匹配結(jié)果作為參數(shù)通過(guò)java、C#等開(kāi)發(fā)語(yǔ)言利用Word二次開(kāi)發(fā)接口在Word對(duì)應(yīng)版式頁(yè)面中自動(dòng)繪制表格。并將OCR識(shí)別的結(jié)果,按匹配的文字格式放入指定表格單元格內(nèi)。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于比例計(jì)算還原表格圖片為可編輯的WORD文件表格的方法。
背景技術(shù)
在圖片處理領(lǐng)域,通過(guò)圖像識(shí)別技術(shù)對(duì)含有表格文檔信息的識(shí)別取得了較大的突破,通過(guò)對(duì)于圖片文檔的版面分析,提取出文檔中的表格信息,并對(duì)表格中的單元格進(jìn)行拆分單元格,最終提取出表格中的文字信息。但表格單元格的特征在這種轉(zhuǎn)換中丟失,表格特征無(wú)法在Word可編輯文檔中直接利用。用戶需要重新制作或修改繪制表格及單元格對(duì)應(yīng)的寬度高度等特征方能完美復(fù)現(xiàn)原始編輯表格。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于比例計(jì)算還原表格圖片為可編輯的WORD文件表格的方法。
為解決上述問(wèn)題,本發(fā)明提供一種基于比例計(jì)算還原表格圖片為可編輯的WORD文件表格的方法,包括:
步驟S1,獲取與待識(shí)別的表格圖片最接近的長(zhǎng)寬比頁(yè)面類型的實(shí)際紙張版式,作為頁(yè)面匹配數(shù)據(jù);
步驟S2,求出所述待識(shí)別的表格圖片中的表格的最大長(zhǎng)度與最大寬度,作為表格邊框匹配數(shù)據(jù);求出所述表格圖片中的表格的位置,作為表格位置匹配數(shù)據(jù);
步驟S3,獲取所待識(shí)別的述表格圖片的表格的單元格的文字的長(zhǎng)寬比,作為單元格文字大小匹配數(shù)據(jù);
步驟S4,根據(jù)所述頁(yè)面匹配數(shù)據(jù)、表格邊框匹配數(shù)據(jù)和表格位置匹配數(shù)據(jù),在WORD文件中自動(dòng)繪制表格,并根據(jù)單元格文字大小匹配數(shù)據(jù)自動(dòng)對(duì)應(yīng)的文字錄入自動(dòng)繪制表格內(nèi)。
進(jìn)一步的,在上述方法中,步驟S1,獲取與待識(shí)別的表格圖片最接近的長(zhǎng)寬比頁(yè)面類型的實(shí)際紙張版式,作為頁(yè)面匹配數(shù)據(jù)之前,還包括:
準(zhǔn)備表格圖片,通過(guò)圖像識(shí)別算法求出整張表格圖片的最大外切矩形,并對(duì)表格圖片的最大外切矩形進(jìn)行水平修正,對(duì)待表格圖片文件根據(jù)修正后的最大外切矩形進(jìn)行裁剪,僅保留最大外切矩形以內(nèi)的圖片作為待識(shí)別的表格圖片。
進(jìn)一步的,在上述方法中,步驟S1,獲取與待識(shí)別的表格圖片最接近的長(zhǎng)寬比頁(yè)面類型的實(shí)際紙張版式,作為頁(yè)面匹配數(shù)據(jù),包括:
步驟S11,根據(jù)圖片識(shí)別算法,獲取待識(shí)別的表格圖片的長(zhǎng)度像素點(diǎn)的數(shù)量與寬度像素點(diǎn)的數(shù)量,得到待識(shí)別的表格圖片的長(zhǎng)寬像素比,以作為頁(yè)面匹配數(shù)據(jù);
步驟S12,基于所述待識(shí)別的表格圖片的長(zhǎng)寬像素比,計(jì)算出Word文件中常用頁(yè)面類型的長(zhǎng)寬比,作為頁(yè)面字典。
進(jìn)一步的,在上述方法中,步驟S2,求出所述待識(shí)別的表格圖片中的表格的最大長(zhǎng)度與最大寬度,作為表格邊框匹配數(shù)據(jù),包括:
基于圖片識(shí)別算法,獲取待識(shí)別的表格圖片內(nèi)的表格的邊框的長(zhǎng)度像素點(diǎn)的數(shù)量與寬度像素點(diǎn)的數(shù)量;
基于表格的邊框的長(zhǎng)度像素點(diǎn)的數(shù)量與寬度像素點(diǎn)的數(shù)量與所述待識(shí)別的表格圖片的長(zhǎng)寬像素比,匹配計(jì)算獲得表格的邊框在整個(gè)表格圖片內(nèi)的長(zhǎng)度寬度占比及計(jì)算表格內(nèi)的單元格長(zhǎng)寬占比,以作為表格邊框匹配數(shù)據(jù)。
進(jìn)一步的,在上述方法中,步驟S2,求出所述表格圖片中的表格的位置,作為表格位置匹配數(shù)據(jù),包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海精密計(jì)量測(cè)試研究所,未經(jīng)上海精密計(jì)量測(cè)試研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011530378.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。





