[發明專利]基于比例計算還原表格圖片為可編輯的WORD文件表格的方法有效
| 申請號: | 202011530378.4 | 申請日: | 2020-12-22 |
| 公開(公告)號: | CN112632934B | 公開(公告)日: | 2023-01-17 |
| 發明(設計)人: | 馬超;孫凡;武博;張春魁;汪偉嵐 | 申請(專利權)人: | 上海精密計量測試研究所 |
| 主分類號: | G06F40/18 | 分類號: | G06F40/18;G06V30/413 |
| 代理公司: | 上海航天局專利中心 31107 | 代理人: | 余岢 |
| 地址: | 201109 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 比例 計算 還原 表格 圖片 編輯 word 文件 方法 | ||
1.一種基于比例計算還原表格圖片為可編輯的WORD文件表格的方法,其特征在于,包括:
步驟S1,獲取與待識別的表格圖片最接近的長寬比頁面類型的實際紙張版式,作為頁面匹配數據;
步驟S2,求出所述待識別的表格圖片中的表格的最大長度與最大寬度,作為表格邊框匹配數據;求出所述表格圖片中的表格的位置,作為表格位置匹配數據;
步驟S3,獲取所待識別的述表格圖片的表格的單元格的文字的長寬比,作為單元格文字大小匹配數據;
步驟S4,根據所述頁面匹配數據、表格邊框匹配數據和表格位置匹配數據,在WORD文件中自動繪制表格,并根據單元格文字大小匹配數據自動對應的文字錄入自動繪制表格內。
2.如權利要求1所述的基于比例計算還原表格圖片為可編輯的WORD文件表格的方法,其特征在于,步驟S1,獲取與待識別的表格圖片最接近的長寬比頁面類型的實際紙張版式,作為頁面匹配數據之前,還包括:
準備表格圖片,通過圖像識別算法求出整張表格圖片的最大外切矩形,并對表格圖片的最大外切矩形進行水平修正,對待表格圖片文件根據修正后的最大外切矩形進行裁剪,僅保留最大外切矩形以內的圖片作為待識別的表格圖片。
3.如權利要求1所述的基于比例計算還原表格圖片為可編輯的WORD文件表格的方法,其特征在于,步驟S1,獲取與待識別的表格圖片最接近的長寬比頁面類型的實際紙張版式,作為頁面匹配數據,包括:
步驟S11,根據圖片識別算法,獲取待識別的表格圖片的長度像素點的數量與寬度像素點的數量,得到待識別的表格圖片的長寬像素比,以作為頁面匹配數據;
步驟S12,基于所述待識別的表格圖片的長寬像素比,計算出WORD文件中常用頁面類型的長寬比,作為頁面字典。
4.如權利要求3所述的基于比例計算還原表格圖片為可編輯的WORD文件表格的方法,其特征在于,步驟S2,求出所述待識別的表格圖片中的表格的最大長度與最大寬度,作為表格邊框匹配數據,包括:
基于圖片識別算法,獲取待識別的表格圖片內的表格的邊框的長度像素點的數量與寬度像素點的數量;
基于表格的邊框的長度像素點的數量與寬度像素點的數量與所述待識別的表格圖片的長寬像素比,匹配計算獲得表格的邊框在整個表格圖片內的長度寬度占比及計算表格內的單元格長寬占比,以作為表格邊框匹配數據。
5.如權利要求4所述的基于比例計算還原表格圖片為可編輯的WORD文件表格的方法,其特征在于,步驟S2,求出所述表格圖片中的表格的位置,作為表格位置匹配數據,包括:
基于圖片識別算法,獲取待識別的表格圖片中的表格的最小外切矩形的左上角焦點的像素點,計算該像素點在整個待識別的表格圖片中的位置,將該位置作為表格長寬在WORD文件的頁面還原的起點位置,將所述起點位置作為表格位置匹配數據。
6.如權利要求5所述的基于比例計算還原表格圖片為可編輯的WORD文件表格的方法,其特征在于,步驟S3,獲取所待識別的述表格圖片的表格的單元格的文字的長寬比,作為單元格文字大小匹配數據,包括:
計算出WORD文件中常用頁面類型中常用的字體的長寬度在整個頁面中的長寬占比,并作為字體大小字典;
基于圖片識別算法,計算出所述待識別的表格圖片的的表格的單元格內的文字的最小外切矩形,根據單元格內文字的最小外切矩形長度像素點的數量和寬像素點的數量,求出該最小外切矩形的長度像素點在整個表格圖片的長度像素點中的第一占比,求出該最小外切矩形的寬度像素點在整個表格圖片的寬度像素點中的第二占比,將所述第一占比和第二占比作為單元格文字大小匹配數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海精密計量測試研究所,未經上海精密計量測試研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011530378.4/1.html,轉載請聲明來源鉆瓜專利網。





