[發明專利]基于RPA及AI的表格信息抽取方法、裝置、設備及介質在審
| 申請號: | 202011024745.3 | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112149399A | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 汪冠春;胡一川;褚瑞;李瑋;胡偉;張海雷;白龍飛 | 申請(專利權)人: | 北京來也網絡科技有限公司;北京奔影網絡科技有限公司 |
| 主分類號: | G06F40/186 | 分類號: | G06F40/186;G06F40/177;G06F40/151;G06F40/253;G06K9/34 |
| 代理公司: | 北京科領智誠知識產權代理事務所(普通合伙) 11782 | 代理人: | 陳士騫 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 rpa ai 表格 信息 抽取 方法 裝置 設備 介質 | ||
本發明公開一種基于RPA及AI的表格信息抽取方法、裝置、設備及介質,其中,該方法包括:S1、將包含有表格的文件轉化為圖片;S2、識別所述圖片中的表格,并根據識別結果生成與表格類型對應的信息抽取模板,所述信息抽取模板中包含有表格內各個鍵值對的鍵及其位置信息,以及待抽取的各個鍵值對的值的位置信息;S3、按照所述信息抽取模板,從所述識別結果中抽取表格內容。通過采用上述技術方案,降低了人力成本,并且提高了信息抽取模板的通用性,提升了表格內容抽取的準確度。
技術領域
本發明涉及表格處理技術領域,具體而言,涉及一種基于RPA及AI的表格信息抽取方法、裝置、設備及介質。
背景技術
RPA(Robotic Process Automation,機器人流程自動化),是通過特定的“機器人軟件”,模擬人在計算機上的操作,按規則自動執行流程任務。
AI(Artificial Intelligence,人工智能)是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。
RPA具有獨特的優勢:低代碼、非侵入。低代碼是說,RPA不需要很高的IT水平就能操作,不懂編程的業務人員也能開發流程;非侵入是說,RPA可以模擬人的操作,不用軟件系統開放接口。但是傳統的RPA具有一定的局限性:只能基于固定的規則,并且應用場景受限。隨著AI(Artificial Intelligence)技術的不斷發展,RPA與AI深度融合克服了傳統RPA的局限,RPA+AI=Hand work+Head work,正在極大的改變勞動力的價值。
RPA在處理任務的過程中,會遇到大量的表格數據。特別是對于企事業單位而言,每天都可能面臨海量的表格數據,要想從這些表格數據中正確提取有用的信息,并將其錄入到指定的系統中顯得尤為作用。目前,一般是通過如下兩種方式來完成:一是人工來去對表格中信息進行篩查從而選擇有用的信息,之后借助人工的方式將篩查得到信息錄入到系統中。二是人工干預總結各類表格的匹配規則,即通過按照表格的結構信息指定相應的規則模版,之后通過程序或者是算法的方式來去提取表格信息,之后按照需要填寫的系統結構,再按照程序或者是人工方式將抽取的信息錄入系統。
然而,對于上述第一種方式,當人工去篩查表格信息的時候,可能由于人思維的一些偏差或者是惰性導致在錄入信息的時候出現錯誤,并且人力成本較高。對于上述第二種方式,會存在如下缺陷:(1)表格結構不一致,需要人工總結不同的規則,通用性不足。(2)系統架構不一致,導致在設計程序或者是算法時對設計人員的編程能力有較高的要求,同時設計的程序通用性不足,比如說當系統架構發生變化時,對于設計人員來說程序的改動就比較大,費時費力,導致工作效率低下。
發明內容
本發明提供一種基于RPA及AI的表格信息抽取方法、裝置、設備及介質,用以克服現有技術中存在的至少一個技術問題。
本發明實施例的第一方面,提供了一種基于RPA及AI的表格信息抽取方法,該方法包括:
S1、將包含有表格的文件轉化為圖片;
S2、識別所述圖片中的表格,并根據識別結果生成與表格類型對應的信息抽取模板,所述信息抽取模板中包含有表格內各個鍵值對的鍵及其位置信息,以及待抽取的各個鍵值對的值的位置信息;
S3、按照所述信息抽取模板,從所述識別結果中抽取表格內容。
本發明實施例的第二方面,提供了一種基于RPA及AI的表格信息抽取裝置,該裝置包括:
圖片轉化模板,被配置為將包含有表格的文件轉化為圖片;
模板生成模塊,被配置為識別所述圖片中的表格,并根據識別結果生成與表格類型對應的信息抽取模板,所述信息抽取模板中包含有表格內各個鍵值對的鍵及其位置信息,以及待抽取的各個鍵值對的值的位置信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京來也網絡科技有限公司;北京奔影網絡科技有限公司,未經北京來也網絡科技有限公司;北京奔影網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011024745.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種大棚農業種植一體化設備
- 下一篇:半導體器件的封裝結構及其封裝方法





