[發(fā)明專利]基于RPA及AI的表格信息抽取方法、裝置、設(shè)備及介質(zhì)在審
| 申請?zhí)枺?/td> | 202011024745.3 | 申請日: | 2020-09-25 |
| 公開(公告)號: | CN112149399A | 公開(公告)日: | 2020-12-29 |
| 發(fā)明(設(shè)計(jì))人: | 汪冠春;胡一川;褚瑞;李瑋;胡偉;張海雷;白龍飛 | 申請(專利權(quán))人: | 北京來也網(wǎng)絡(luò)科技有限公司;北京奔影網(wǎng)絡(luò)科技有限公司 |
| 主分類號: | G06F40/186 | 分類號: | G06F40/186;G06F40/177;G06F40/151;G06F40/253;G06K9/34 |
| 代理公司: | 北京科領(lǐng)智誠知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11782 | 代理人: | 陳士騫 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 rpa ai 表格 信息 抽取 方法 裝置 設(shè)備 介質(zhì) | ||
1.一種基于RPA及AI的表格信息抽取方法,其特征在于,包括:
S1、將包含有表格的文件轉(zhuǎn)化為圖片;
S2、識別所述圖片中的表格,并根據(jù)識別結(jié)果生成與表格類型對應(yīng)的信息抽取模板,所述信息抽取模板中包含有表格內(nèi)各個(gè)鍵值對的鍵及其位置信息,以及待抽取的各個(gè)鍵值對的值的位置信息;
S3、按照所述信息抽取模板,從所述識別結(jié)果中抽取表格內(nèi)容。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟S2具體包括:
S21、對所述圖片進(jìn)行光學(xué)字符OCR識別,得到識別結(jié)果,該識別結(jié)果包括各表格中每個(gè)單元格的內(nèi)容,及各單元格在所述表格中的位置信息;
S22、對于任意一種類型的表格,根據(jù)表格中各單元格的內(nèi)容及各單元格在所述表格中的位置信息,生成與表格類型對應(yīng)的信息抽取模板。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,表格類型包括左右一對一格式,該左右一對一格式的表格中各個(gè)鍵值對的鍵與值是左右位置關(guān)系,且鍵與值是一對一的關(guān)系;
相應(yīng)的,步驟S22具體包括:
S221、將表格中各單元格的內(nèi)容按照在表格內(nèi)行和列的位置信息進(jìn)行拼接;
S222、對于表格中的每一行內(nèi)容,基于拼接后內(nèi)容,生成與表格類型對應(yīng)的第一信息抽取模板;
其中,第一信息抽取模板中包含有表格內(nèi)每一行各個(gè)鍵值對的鍵及其位置信息,以及待抽取的各個(gè)鍵值對的值的位置信息。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,表格類型包括上下一對多格式,該上下一對多格式的表格中各個(gè)鍵值對的鍵與值是上下位置關(guān)系,且鍵與值是一對多的關(guān)系;
相應(yīng)的,步驟S22具體包括:
S221、如果未檢測到預(yù)設(shè)詞表,則將表格中各單元格的內(nèi)容按照所在行的位置信息進(jìn)行拼接,并將拼接后內(nèi)容與預(yù)設(shè)標(biāo)準(zhǔn)模板的內(nèi)容進(jìn)行匹配,所述預(yù)設(shè)標(biāo)準(zhǔn)模板中包括預(yù)先設(shè)定抽取的鍵值對的鍵;
S222、如果匹配成功,則將相匹配的鍵所對應(yīng)的列的個(gè)數(shù)作為第一目標(biāo)個(gè)數(shù);
S223、對表格按行進(jìn)行遍歷,將表格中列的個(gè)數(shù)作為第一標(biāo)準(zhǔn)個(gè)數(shù);
S224、如果第一標(biāo)準(zhǔn)個(gè)數(shù)與第一目標(biāo)個(gè)數(shù)相匹配,則在表格中第一列單元格之前添加輔助變量,所述輔助變量用于在表格內(nèi)容提取時(shí)將表格中各行內(nèi)容進(jìn)行區(qū)分;
S225、基于所述輔助變量和所述相匹配的鍵及其位置信息,生成表格類型對應(yīng)的第二信息抽取模板;
其中,第二信息抽取模板中包含有所述輔助變量、所述相匹配的鍵及其位置信息,以及表格中待抽取的各個(gè)鍵值對的值的位置信息。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,表格類型包括上下一對多格式,該上下一對多格式的表格中各個(gè)鍵值對的鍵與值是上下位置關(guān)系,且鍵與值是一對多的關(guān)系;
相應(yīng)的,步驟S22具體包括:
S221、如果檢測到預(yù)設(shè)詞表,則將表格中各個(gè)鍵值對的值與所述預(yù)設(shè)詞表的內(nèi)容進(jìn)行匹配;
S222、如果匹配成功,則將表格中各單元格的內(nèi)容按照所在行的位置信息進(jìn)行拼接,并將拼接后內(nèi)容與預(yù)設(shè)標(biāo)準(zhǔn)模板的內(nèi)容進(jìn)行匹配,所述預(yù)設(shè)標(biāo)準(zhǔn)模板中包括預(yù)先設(shè)定抽取的鍵值對的鍵;
S223、如果匹配成功,則將相匹配的鍵所對應(yīng)的列的個(gè)數(shù)作為第二目標(biāo)個(gè)數(shù);
S224、對表格按行進(jìn)行遍歷,將表格中列的個(gè)數(shù)作為第二標(biāo)準(zhǔn)個(gè)數(shù);
S225、如果第二標(biāo)準(zhǔn)個(gè)數(shù)與第二目標(biāo)個(gè)數(shù)相匹配,則基于所述相匹配的鍵及其位置信息,生成表格類型對應(yīng)的第三信息抽取模板;
其中,第三信息抽取模板中包含有所述相匹配的鍵及其位置信息,以及所述表格中待抽取的各個(gè)鍵值對的值的位置信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京來也網(wǎng)絡(luò)科技有限公司;北京奔影網(wǎng)絡(luò)科技有限公司,未經(jīng)北京來也網(wǎng)絡(luò)科技有限公司;北京奔影網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011024745.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于RPA的大規(guī)模定制客戶需求獲取、查詢方法
- 流程機(jī)器人網(wǎng)絡(luò)集成服務(wù)方法、裝置及系統(tǒng)
- 一種機(jī)器人流程自動化多工具集成方法和系統(tǒng)
- 多設(shè)備間的數(shù)據(jù)交互方法及相關(guān)設(shè)備
- 結(jié)合RPA和AI的流程處理方法、裝置、設(shè)備及存儲介質(zhì)
- 跨軟件域RPA系統(tǒng)
- 自適應(yīng)的跨軟件域RPA系統(tǒng)
- 用于機(jī)器人流程自動化的機(jī)器人訪問控制和管理
- 基于AI的RPA任務(wù)調(diào)度方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種RPA集群機(jī)構(gòu)及基于RPA集群機(jī)構(gòu)的任務(wù)處理方法
- AI接口平臺及其應(yīng)用方法、AI應(yīng)用系統(tǒng)
- AI行為調(diào)用方法和裝置
- 人工智能平臺實(shí)現(xiàn)方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 人工智能的病種分析方法及裝置、存儲介質(zhì)、計(jì)算機(jī)設(shè)備
- 一種處理AI任務(wù)的方法及裝置
- 提供AI模型的方法、AI平臺、計(jì)算設(shè)備及存儲介質(zhì)
- 一種自適應(yīng)AI模型部署方法
- 分離AI中的公共知識與私有知識
- 應(yīng)用于城市大腦的AI算法和AI模型的調(diào)配系統(tǒng)及方法
- 云服務(wù)方法、裝置、設(shè)備及存儲介質(zhì)
- 版式表格的結(jié)構(gòu)處理方法和系統(tǒng)
- 多欄多列表格的展示方法
- 一種在移動端展示長表格的交互方法及系統(tǒng)裝置
- 一種在移動端縱向展示長表格的交互方法及系統(tǒng)裝置
- 一種在移動端橫向展示長表格的交互方法及系統(tǒng)裝置
- 表格圖像解析方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 一種針對PDF文檔表格提取優(yōu)化方法及系統(tǒng)
- 一種自動生成表格數(shù)據(jù)的方法及裝置
- 一種批量合并表格內(nèi)容的方法、系統(tǒng)、裝置和存儲介質(zhì)
- 表格渲染顯示方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)





