[發明專利]一種基于人工智能的鋼材單據解析系統有效
| 申請號: | 202010711981.6 | 申請日: | 2020-07-22 |
| 公開(公告)號: | CN111783735B | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 鄒曉峰;朱彭生;鄭東源 | 申請(專利權)人: | 歐冶云商股份有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32;G06F9/54;G06F40/18;G06F16/27 |
| 代理公司: | 上??剖⒅R產權代理有限公司 31225 | 代理人: | 楊宏泰 |
| 地址: | 201999 上海市寶山區漠*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 人工智能 鋼材 單據 解析 系統 | ||
1.一種基于人工智能的鋼材單據解析系統,其特征在于,該系統包括:
MongoDB數據庫:用以存儲未解析的鋼材單據文檔以及解析后的解析結果;
Pdf客戶端:用以從MongoDB數據庫里掃描新寫入的未解析的鋼材單據文檔,并將其推送到消息隊列Rabbitmq中;
消息隊列Rabbitmq:用以生成多個待解析的文檔任務,實現文檔任務的分發;
Pdf-worker:接收消息隊列Rabbitmq的文檔任務,并根據待解析文檔的格式選擇對應的解析方式,并將解析結果輸出儲存到MongoDB數據庫中,所述的Pdf-worker在解析掃描件PDF或者圖片時,通過RPC接口調用掃描件解析服務scan-page-table對掃描件圖像進行預處理,所述的掃描件解析服務scan-page-table的預處理具體包括加載要識別的掃描件圖像以及對圖像進行旋轉校正,所述的Pdf-worker采用PDFBox實現文本、表格和圖表的PDF解析,并采用PDFBox輸出的底層的PDF的信息;
Pdf-worker采用PDFBox實現文本、表格和圖表的PDF解析具體包括以下步驟:
21)加載待解析的鋼材單據文檔獲取文檔總頁數信息;
22)依次對文檔每頁信息進行解析,并判斷文檔頁面是否為位圖掃描件文件,若不是位圖掃描件文件,則直接通過PDFBOX解析矢量PDF的文字表格信息,若是位圖掃描件文件,則進行步驟23);
23)生成該頁的縮略圖,并通過RPC接口調用掃描件解析服務對該頁掃描件內容進行圖像處理和文字檢測后返回最終解析結果,掃描件解析服務采用OpenCV作為底層圖像處理的庫,對掃描件圖像進行預處理,并且以TensorFlow作為深度學習框架進行文字檢測、文字識別和表格解析,掃描件解析服務具體處理流程為:
231)加載待識別的掃描件圖片;
232)對存在旋轉角度或畸變情況的圖像進行旋轉校正;
233)去除印章,用以去除印章對整個圖片的干擾;
234)表格檢測;
235)文字區域檢測;
236)文字識別;
237)表格解析,表格解析的位圖表格包括有線表格、無線表格和半無線表格三類,對于不同類型的表格,因其表格線的完整性不同,對應不同的解析方式,具體為:
有線表格的解析以表格線信息為主,通過霍夫變換或者LSD直線檢測算法,檢測出表格線,然后根據表格線構建出表格的行列結構信息,然后將文本塊按照位置信息填寫到對應的單元格內;
無線表格和半無線表格的解析以文本塊的對齊信息為主,通過虛擬劃線劃分表格行列結構,對每一條虛擬的行切分線和列切分線計算一個損失,過濾掉損失較大的不合理切分線,保留損失較小的切分線,基于此構建表格結構化信息,表格內檢測出的表格線用以輔助虛擬線損失計算以及局部單元格的拆分和合并;
238)將最終結果整合輸出;
24)對所有頁面解析結果進行合并輸出。
2.根據權利要求1所述的一種基于人工智能的鋼材單據解析系統,其特征在于,所述的步驟232)中,圖像畸變包括:
僅存在大角度旋轉、僅存在小角度旋轉、僅存在透視畸變、以及以上三種情況混合出現;
對于不同的圖像透視畸變情況采用對應的方法進行矯正畸變,具體為:
對于僅存在大角度旋轉的情況:采用基于深度學習的圖像分類模型來直接預測大角度類別,包括0度、90度、180度和270度;
對于僅存在小角度旋轉的情況:基于像素投影或霍夫變換實現;
對于的僅存在透視畸變的情況:基于LSD直線檢測,并在直線基礎上獲取泯滅點,最后通過泯滅點進行圖像變換;
對于三種情況混合出現的情況:根據不同場景組合以上三種情況,分別依次進行三種情況的矯正畸變。
3.根據權利要求1所述的一種基于人工智能的鋼材單據解析系統,其特征在于,所述的步驟233)中,實現去除印章具體為:
采用YOLO圖像檢測網絡檢測出印章的區域,然后移除掉印章區域內紅色的像素,完成去除印章。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于歐冶云商股份有限公司,未經歐冶云商股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010711981.6/1.html,轉載請聲明來源鉆瓜專利網。





