[發(fā)明專利]一種基于人工智能的鋼材單據(jù)解析系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202010711981.6 | 申請(qǐng)日: | 2020-07-22 |
| 公開(公告)號(hào): | CN111783735B | 公開(公告)日: | 2021-01-22 |
| 發(fā)明(設(shè)計(jì))人: | 鄒曉峰;朱彭生;鄭東源 | 申請(qǐng)(專利權(quán))人: | 歐冶云商股份有限公司 |
| 主分類號(hào): | G06K9/00 | 分類號(hào): | G06K9/00;G06K9/32;G06F9/54;G06F40/18;G06F16/27 |
| 代理公司: | 上海科盛知識(shí)產(chǎn)權(quán)代理有限公司 31225 | 代理人: | 楊宏泰 |
| 地址: | 201999 上海市寶山區(qū)漠*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 人工智能 鋼材 單據(jù) 解析 系統(tǒng) | ||
本發(fā)明涉及一種基于人工智能的鋼材單據(jù)解析系統(tǒng),該系統(tǒng)包括:MongoDB數(shù)據(jù)庫:用以存儲(chǔ)未解析的鋼材單據(jù)文檔以及解析后的解析結(jié)果;Pdf客戶端:用以從MongoDB數(shù)據(jù)庫里掃描新寫入的未解析的鋼材單據(jù)文檔,并將其推送到消息隊(duì)列Rabbitmq中;消息隊(duì)列Rabbitmq:用以生成多個(gè)待解析的文檔任務(wù),實(shí)現(xiàn)文檔任務(wù)的分發(fā);Pdf?worker:接收消息隊(duì)列Rabbitmq的文檔任務(wù),并根據(jù)待解析文檔的格式選擇對(duì)應(yīng)的解析方式,并將解析結(jié)果輸出儲(chǔ)存到MongoDB數(shù)據(jù)庫中。與現(xiàn)有技術(shù)相比,本發(fā)明具有效率高、解析準(zhǔn)確率高、數(shù)字化自動(dòng)化、適用于各類鋼材單據(jù)樣式復(fù)雜、不統(tǒng)一的情況等優(yōu)點(diǎn)。
技術(shù)領(lǐng)域
本發(fā)明涉及鋼材單據(jù)信息數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其是涉及一種基于人工智能的鋼材單據(jù)解析系統(tǒng)。
背景技術(shù)
目前在鋼鐵服務(wù)領(lǐng)域中,上下游合作方在交互過程中存在大量的鋼材單據(jù)信息流通,這些鋼材單據(jù)信息都是非結(jié)構(gòu)化的文檔,包括照片、紙質(zhì)、掃描件、截圖等等,但是現(xiàn)在這些非結(jié)構(gòu)化的文檔都需要進(jìn)行人工處理,采用人工處理的方式不但工作量大,而且存在人工處理效果不好、易出錯(cuò)、無法流程化、自動(dòng)化、智能化等問題。
當(dāng)前鋼材單據(jù)主要分為PDF文件和掃描件圖像2種,主要使用PDF解析引擎或者OCR文本識(shí)別技術(shù)來實(shí)現(xiàn),但是這些的技術(shù)往往存在以下缺陷:
1、存在并發(fā)度不高,橫向擴(kuò)展性不夠,不能同時(shí)滿足大批量單據(jù)的同時(shí)解析;
2、二者不能互相的兼容,往往只支持一種形式不能滿足實(shí)際的業(yè)務(wù)生產(chǎn)需要;
3、未對(duì)掃描件圖像進(jìn)行預(yù)處理,解析效果較差;
4、對(duì)表格解析支持較差且準(zhǔn)確性不夠;
5、對(duì)單據(jù)中存在印章的情況下會(huì)出現(xiàn)解析準(zhǔn)確率下降現(xiàn)象。
發(fā)明內(nèi)容
本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種基于人工智能的鋼材單據(jù)解析系統(tǒng)。
本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn):
一種基于人工智能的鋼材單據(jù)解析系統(tǒng),該系統(tǒng)包括:
MongoDB數(shù)據(jù)庫:用以存儲(chǔ)未解析的鋼材單據(jù)文檔以及解析后的解析結(jié)果;
Pdf客戶端:用以從MongoDB數(shù)據(jù)庫里掃描新寫入的未解析的鋼材單據(jù)文檔,并將其推送到消息隊(duì)列Rabbitmq中;
消息隊(duì)列Rabbitmq:用以生成多個(gè)待解析的文檔任務(wù),實(shí)現(xiàn)文檔任務(wù)的分發(fā);
Pdf-worker:接收消息隊(duì)列Rabbitmq的文檔任務(wù),并根據(jù)待解析文檔的格式選擇對(duì)應(yīng)的解析方式,并將解析結(jié)果輸出儲(chǔ)存到MongoDB數(shù)據(jù)庫中。
所述的Pdf-worker在解析掃描件PDF或者圖片時(shí),通過RPC接口調(diào)用掃描件解析服務(wù)scan-page-table對(duì)掃描件圖像進(jìn)行預(yù)處理。
所述的Pdf-worker采用PDFBox實(shí)現(xiàn)文本、表格和圖表的PDF解析,并采用PDFBox輸出的底層的PDF的信息。
Pdf-worker采用PDFBox實(shí)現(xiàn)文本、表格和圖表的PDF解析具體包括以下步驟:
21)加載待解析的鋼材單據(jù)文檔獲取文檔總頁數(shù)信息;
22)依次對(duì)文檔每頁信息進(jìn)行解析,并判斷文檔頁面是否為位圖掃描件文件,若不是位圖掃描件文件,則直接通過PDFBOX解析矢量PDF的文字表格信息,若是位圖掃描件文件,則進(jìn)行步驟23);
23)生成該頁的縮略圖,并通過RPC接口調(diào)用掃描件解析服務(wù)對(duì)該頁掃描件內(nèi)容進(jìn)行圖像處理和文字檢測(cè)后返回最終解析結(jié)果;
24)對(duì)所有頁面解析結(jié)果進(jìn)行合并輸出。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于歐冶云商股份有限公司,未經(jīng)歐冶云商股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010711981.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 使用基于云端的度量迭代訓(xùn)練人工智能的系統(tǒng)
- 一種人工智能轉(zhuǎn)人工智能再轉(zhuǎn)人工方案
- O-RAN系統(tǒng)中的人工智能模型處理方法和裝置
- 人工智能傷口評(píng)估方法及智能終端
- 人工智能倫理風(fēng)險(xiǎn)與防范虛擬仿真方法、系統(tǒng)和機(jī)器人
- 一種基于人工智能基礎(chǔ)資源與技術(shù)調(diào)控系統(tǒng)及方法
- 基于人工智能倫理備選規(guī)則的人工智能倫理風(fēng)險(xiǎn)防范方法
- 人工智能倫理風(fēng)險(xiǎn)辨識(shí)防范虛擬仿真實(shí)驗(yàn)方法和機(jī)器人
- 基于人工智能體決策的人工智能倫理風(fēng)險(xiǎn)辨識(shí)和防范方法
- 基于算法選擇的人工智能倫理風(fēng)險(xiǎn)辨識(shí)防范方法和機(jī)器人
- 一種業(yè)務(wù)單據(jù)的核銷方法及系統(tǒng)
- 應(yīng)收款發(fā)票核銷方法和裝置
- 單據(jù)編碼生成的方法和裝置
- 一種單據(jù)模板的管理方法、調(diào)用單據(jù)的方法及相關(guān)裝置
- 一種整合單據(jù)的方法及裝置
- 一種待簽單據(jù)的工作流定義、制作和審批方法
- 供需單據(jù)的調(diào)整方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 金融單據(jù)和業(yè)務(wù)單據(jù)的掛接方法及終端設(shè)備
- 一種單據(jù)生成方法、信息管理系統(tǒng)及存儲(chǔ)介質(zhì)
- 單據(jù)作業(yè)流程的管理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)





