[發明專利]一種文檔圖像中鍵值對信息的抽取方法、裝置及系統在審

申請號：	202111528389.3	申請日：	2021-12-14
公開（公告）號：	CN114419642A	公開（公告）日：	2022-04-29
發明（設計）人：	宋佳奇;王勇;朱軍民	申請（專利權）人：	北京易道博識科技有限公司
主分類號：	G06V30/413	分類號：	G06V30/413;G06V30/416;G06F40/253;G06F40/295;G06F40/30;G06N3/04;G06N3/08
代理公司：	北京金智普華知識產權代理有限公司 11401	代理人：	岳野
地址：	100083 北京市海淀區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種文檔圖像鍵值信息抽取方法裝置系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種文檔圖像中鍵值對信息的抽取方法、裝置及系統，涉及計算機視覺領域。該方法包括：針對輸入信息進行編碼，輸出圖像+內容+坐標拼接特征向量和最終實體類型名稱特征向量；以每個文字為節點，聚合相鄰節點的圖像+內容+坐標拼接特征向量，得到每個文字的文字特征向量；基于每個文字的文字特征向量，按照實體類型對各文本塊進行分類，基于最終實體類型名稱特征向量和每個文字的文字特征向量，通過問答系統輸出由所有實體類型和其所對應的文本塊構成的鍵值對。該方法把多個任務融合到一個模型中，使用transformer等神經網絡結構構建模型，做到端到端的訓練和預測，最終輸出文檔中所有鍵值對信息。

技術領域

本發明涉及計算機視覺領域，尤其是一種文檔圖像中鍵值對信息的抽取方法、裝置及系統。

背景技術

現實中通常會遇到很多文檔中存在鍵值對這種信息表現方式，比如圖1銀行支票中“出票日期(大寫)”和“貳零零柒年零叁月壹拾玖日”就是一個鍵值對，前者是關鍵字，后者是真值，關鍵字是對真值的說明，兩者一起構成一個有用的信息。一個文檔中可能存在多個類似的鍵值對信息結構，通常需要把對應的真值全部抽取出來。

傳統的方法是對每一種文檔版式生成一種模板，先在模板里存儲各個關鍵字的位置，找到關鍵字后在其后面或者下面的值就是相應的真值。這種方法對于固定模板可以很好的解決，準確率較高，但是版式稍有不同就會出錯。所以對于每一種版式都要維護一套模板，所需處理的版式較多時就會耗費大量的時間和精力來創建和維護大量的模板，且每有一種新版式都要再創建一套新模板，泛化能力很差。隨著深度學習的發展，一些以神經網絡為基礎的模型開始逐漸取代傳統的模板方法。此類方法不用為每一種版式人工創建模板，而是將大量具有不同版式的數據輸入模型，讓神經網絡自己學習隱藏在不同版式中的通用特征，從而大大提高了泛化能力。代表方法有將整張文本拼接成一個字符串送進模型，然后做NER將需要的實體抽取出來。但是此類方法只是利用了文檔中的文字信息，完全忽略了文檔的圖像信息和鍵值對之間特殊的對應關系，這些信息對于提升精度有很大的幫助。

為了更好地利用文檔的文本特征和圖像特征，以及包含在鍵值對中特殊的位置對應關系，本團隊創新性的提出了將文本、圖像以及位置特征結合在一起的多模態模型。模型中主要用到了圖像和文本的預訓練模型、圖神經網絡以及問答系統。下面分別介紹一下這幾個方面的背景。

進入大數據時代后，可以得到的數據成指數級增長，但這些數據絕大部分都是未標注的，而且和需要解決的具體任務可能關聯不大。那么如何從這些海量的數據中學習到有用的知識，從而應用到具體任務上呢？這就需要用到預訓練模型，預訓練模型的訓練通常都會設計一些無監督的訓練任務，旨在學習到數據中的通用信息，比如圖像的分類、語言中的語法和句法等知識。預訓練模型最初在計算機視覺領域的ImageNet上取得了突破性的進展。隨著BERT的出現及其展現出來的優秀性能，讓預訓練模型在NLP領域迅速發展，并且取得了很好的成績。得到預訓練模型后，可以通過改變其輸出層來應用到不同的下游任務上，比如問答系統、文本分類、目標檢測、命名體識別等等。對比從零訓練的模型，預訓練模型可以提供很好的預備知識，而且這些知識對于下游任務有極大的幫助，可以讓模型收斂的更快，精度更高。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京易道博識科技有限公司，未經北京易道博識科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202111528389.3/2.html，轉載請聲明來源鉆瓜專利網。