[發明專利]基于多模態下的智能表格抽取算法在審

申請號：	202110521586.6	申請日：	2021-05-13
公開（公告）號：	CN113111864A	公開（公告）日：	2021-07-13
發明（設計）人：	郭英男;文銀龍	申請（專利權）人：	上海巽聯信息科技有限公司
主分類號：	G06K9/00	分類號：	G06K9/00;G06F16/245;G06F16/28
代理公司：	北京華際知識產權代理有限公司 11676	代理人：	李廳
地址：	200241 上海市閔***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于多模態下智能表格抽取算法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了表格處理技術領域的基于多模態下的智能表格抽取算法,方法包括：導入文檔，開啟輔助軟件；定位文檔內表格位置；輸入并確定關鍵詞，對定位區域內關鍵詞進行捕捉，確定關鍵詞，確定關鍵詞后比對區域內所有文檔，進行關鍵詞比對；確定關鍵詞比對是否成功，比對成功將比對結果及記錄進行顯示和保存，非匹配文檔排除。本發明在進行文檔表格內抽取捕捉時排出表體和表頭，提高智能化和工作效率，同時減少人工作業工作量。

技術領域

本發明涉及表格處理技術領域，具體是基于多模態下的智能表格抽取算法。

背景技術

隨著信息時代進程的不斷提升，在辦公和生產生活中，電子信息存儲應用也越來越廣泛，而在電子信息存儲及應用過程中，表格作為一項重要的信息辦公方法，其應用范圍也不斷擴大，在表格應用過程中，為方便使用，常常需要對表格內的關鍵信息進行抽取。

現有OCR技術中表格的檢測和識別(尤其無框表格)不能理解表格的表頭和表體，需要人工設置，適用范圍有限，每類表格都需要人工配置，導致對表格內信息進行抽取時，整個進程較為浪費時間及人工成本，同時不符合信息技術智能、便捷和高效率的應用思想。因此，本領域技術人員提供了基于多模態下的智能表格抽取算法，以解決上述背景技術中提出的問題。

發明內容

本發明的目的在于提供基于多模態下的智能表格抽取算法，以解決上述背景技術中提出的問題。

為實現上述目的，本發明提供如下技術方案：

基于多模態下的智能表格抽取算法,包括：預備階段、定位階段、掃描分析階段和決斷階段，其中：

所述預備階段包括：導入文檔，開啟輔助軟件；

所述定位階段包括：定位文檔內表格位置；

所述分析階段包括：輸入并確定關鍵詞，對定位區域內關鍵詞進行捕捉，確定關鍵詞，確定關鍵詞后比對區域內所有文檔，進行關鍵詞比對；

所述決斷階段包括：確定關鍵詞比對是否成功，比對成功將比對結果及記錄進行顯示和保存，非匹配文檔排除；

其中，當進程處于區域定位時，若無法準確定位，則會重新啟動定位進程進行重新定位；當進程處于關鍵詞捕捉時，若無法準確捕捉到關鍵詞，進程將重新捕捉關鍵詞；在文檔進行比對進程時，若比對成功，則進入下一進程，若比對失敗，返回上一進程重新進行文檔比對。

進一步：所述導入文檔，開啟輔助軟件包括：

將含有檢索表格的文檔打開，開啟OCR和NLP軟件準備進行作業。

進一步：所述定位文檔內表格位置，確定表格內的文字區域，包括：