[發明專利]一種基于深度學習框架的財務報表自動識別方法在審
| 申請號: | 202010571056.8 | 申請日: | 2020-06-22 |
| 公開(公告)號: | CN111814598A | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 楊玉東;張麗影;任昊;劉春影;楊茜 | 申請(專利權)人: | 吉林省通聯信用服務有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32 |
| 代理公司: | 長春眾邦菁華知識產權代理有限公司 22214 | 代理人: | 于曉慶 |
| 地址: | 130000 吉林省長春市*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 框架 財務報表 自動識別 方法 | ||
1.一種基于深度學習框架的財務報表自動識別方法,其特征在于,包括以下步驟:
S1、接收財務報表圖像;
S2、基于霍夫直線法對財務報表圖像進行圖像校正,調整表格至水平狀態;
S3、OCR文本自動識別:采用基于深度學習網絡的圖像識別模型依次識別財務報表圖像中的文本所在位置和具體內容,提取出整張表格的信息;
S4、基于圖像形態學檢測表格線,并提取單元格位置坐標;
S5、生成并輸出Excel文件。
2.根據權利要求1所述的一種基于深度學習框架的財務報表自動識別方法,其特征在于,步驟S1具體包括以下步驟:
S11、準備財務報表文件;
S12、使用Python工具中的OpenCV2算法庫接收財務報表圖像,并統一轉化為png格式文件。
3.根據權利要求2所述的一種基于深度學習框架的財務報表自動識別方法,其特征在于,步驟S2具體包括以下步驟:
S21、準備訓練集數據;
S22、基于霍夫直線法,使用Python工具中的OpenCV2算法庫獲取財務報表圖像中傾斜角度小于45度的直線;
S23、根據獲取的直線斜率,計算出平均斜率;
S24、根據平均斜率對財務報表圖像進行校正,調整表格至水平狀態;
S25、基于測試集數據檢驗有效校正率,有效校正率為99.6%。
4.根據權利要求3所述的一種基于深度學習框架的財務報表自動識別方法,其特征在于,步驟S3具體包括以下步驟:
S31、準備訓練集數據;
S32、獲取不同位置、不同噪聲下的單元格圖像;
S33、使用Python工具中的TensorFlow和Keras算法庫,基于CTPN深度學習網絡對文本所在區域進行定位,采用區域坐標的方式標記出單元格圖像文本的所在位置,坐標采用五級標識進行定位;
S34、使用Python工具中的TensorFlow和Keras算法庫,基于訓練集數據建立CRNN神經網絡模型,進行中英文及數字的識別,獲取相應坐標區域內的文本內容;
S35、基于測試集數據對上述CRNN神經網絡模型識別結果進行評估,識別準確率為99.5%。
5.根據權利要求4所述的一種基于深度學習框架的財務報表自動識別方法,其特征在于,步驟S33中,所述五級標識為角度、橫坐標、縱坐標、寬度和高度。
6.根據權利要求4所述的一種基于深度學習框架的財務報表自動識別方法,其特征在于,步驟S4具體包括以下步驟:
S41、準備訓練集數據;
S42、對財務報表圖像進行二值化處理,將財務報表圖像的灰度值根據閾值進行0,1處理;
S43、使用Python工具中的OpenCV2算法庫,構造橫、豎兩種腐蝕核,對二值圖像進行過濾,橫向腐蝕核處理得到表格的橫線,豎向腐蝕核處理得到表格的豎線,并以矩陣形式進行標記;
S44、對每個像素點所對應的矩陣[r,g,b]進行歸一化處理,并分別進行橫向矩陣投影處理和縱向矩陣投影處理;
S45、根據得到的行和列,定位財務報表圖像中每個單元格的位置,同時,根據生成的行和列與文字所對應的位置與大小進行匹配,若字的位置穿過了某條行,則去除該條行對應的表格線,將相鄰兩個橫向單元格合并為一個單元格;若字的位置穿過了某條列,則去除該條列對應的表格線,將相鄰兩個縱向單元格合并為一個單元格;
S46、基于測試集數據檢驗模型識別結果準確率,準確率為99.7%。
7.根據權利要求6所述的一種基于深度學習框架的財務報表自動識別方法,其特征在于,步驟S5具體包括以下步驟:
S51、根據得到的表格位置信息,使用Python工具的xlwt算法庫生成對應的空白Excel文件;
S52、根據已識別的文本位置、文本內容將對應坐標區域內的文本內容填入單元格,并輸出Excel文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林省通聯信用服務有限公司,未經吉林省通聯信用服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010571056.8/1.html,轉載請聲明來源鉆瓜專利網。





