[發明專利]基于多模態下的智能表格抽取算法在審
| 申請號: | 202110521586.6 | 申請日: | 2021-05-13 |
| 公開(公告)號: | CN113111864A | 公開(公告)日: | 2021-07-13 |
| 發明(設計)人: | 郭英男;文銀龍 | 申請(專利權)人: | 上海巽聯信息科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06F16/245;G06F16/28 |
| 代理公司: | 北京華際知識產權代理有限公司 11676 | 代理人: | 李廳 |
| 地址: | 200241 上海市閔*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 多模態下 智能 表格 抽取 算法 | ||
本發明公開了表格處理技術領域的基于多模態下的智能表格抽取算法,方法包括:導入文檔,開啟輔助軟件;定位文檔內表格位置;輸入并確定關鍵詞,對定位區域內關鍵詞進行捕捉,確定關鍵詞,確定關鍵詞后比對區域內所有文檔,進行關鍵詞比對;確定關鍵詞比對是否成功,比對成功將比對結果及記錄進行顯示和保存,非匹配文檔排除。本發明在進行文檔表格內抽取捕捉時排出表體和表頭,提高智能化和工作效率,同時減少人工作業工作量。
技術領域
本發明涉及表格處理技術領域,具體是基于多模態下的智能表格抽取算法。
背景技術
隨著信息時代進程的不斷提升,在辦公和生產生活中,電子信息存儲應用也越來越廣泛,而在電子信息存儲及應用過程中,表格作為一項重要的信息辦公方法,其應用范圍也不斷擴大,在表格應用過程中,為方便使用,常常需要對表格內的關鍵信息進行抽取。
現有OCR技術中表格的檢測和識別(尤其無框表格)不能理解表格的表頭和表體,需要人工設置,適用范圍有限,每類表格都需要人工配置,導致對表格內信息進行抽取時,整個進程較為浪費時間及人工成本,同時不符合信息技術智能、便捷和高效率的應用思想。因此,本領域技術人員提供了基于多模態下的智能表格抽取算法,以解決上述背景技術中提出的問題。
發明內容
本發明的目的在于提供基于多模態下的智能表格抽取算法,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:
基于多模態下的智能表格抽取算法,包括:預備階段、定位階段、掃描分析階段和決斷階段,其中:
所述預備階段包括:導入文檔,開啟輔助軟件;
所述定位階段包括:定位文檔內表格位置;
所述分析階段包括:輸入并確定關鍵詞,對定位區域內關鍵詞進行捕捉,確定關鍵詞,確定關鍵詞后比對區域內所有文檔,進行關鍵詞比對;
所述決斷階段包括:確定關鍵詞比對是否成功,比對成功將比對結果及記錄進行顯示和保存,非匹配文檔排除;
其中,當進程處于區域定位時,若無法準確定位,則會重新啟動定位進程進行重新定位;當進程處于關鍵詞捕捉時,若無法準確捕捉到關鍵詞,進程將重新捕捉關鍵詞;在文檔進行比對進程時,若比對成功,則進入下一進程,若比對失敗,返回上一進程重新進行文檔比對。
進一步:所述導入文檔,開啟輔助軟件包括:
將含有檢索表格的文檔打開,開啟OCR和NLP軟件準備進行作業。
進一步:所述定位文檔內表格位置,確定表格內的文字區域,包括:
開啟文檔后,定位文檔內的表格區域,同時將表格的邊框及表頭排除,精準定位表格內的文字內容部分,確保后續進程的開啟。
進一步:所述輸入并確定關鍵詞,對定位區域內關鍵詞進行捕捉,確定關鍵詞,確定關鍵詞后比對區域內所有文檔,進行關鍵詞比對,包括:
通過OCR和NLP進行關鍵詞的輸入和輸入信息的處理,確定關鍵詞后,對定位區域內的文字進行掃描和捕捉,掃描捕捉到關鍵詞后,對表格內的其它文檔進行比對,并自動進行key映射。
進一步:所述確定關鍵詞比對是否成功,比對成功將比對結果及記錄進行顯示和保存,非匹配文檔排除,包括:
通過key映射全文,比對關鍵詞匹配度,若無高匹配度文檔,則判定比對失敗,將返回上一程序對文檔重新進行比對,比對成功后生成key結果并顯示,同時拋棄其它比對項目。
進一步:所述拋棄定位區域內非關鍵詞,鎖定關鍵詞并進行顯示,包括:
關鍵詞比對成功后將其進行顯示,同時生成抽取關鍵詞和比對文檔信息,存儲至歷史抽取記錄。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海巽聯信息科技有限公司,未經上海巽聯信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110521586.6/2.html,轉載請聲明來源鉆瓜專利網。





