[發明專利]一種文檔圖像中鍵值對信息的抽取方法、裝置及系統在審
| 申請號: | 202111528389.3 | 申請日: | 2021-12-14 |
| 公開(公告)號: | CN114419642A | 公開(公告)日: | 2022-04-29 |
| 發明(設計)人: | 宋佳奇;王勇;朱軍民 | 申請(專利權)人: | 北京易道博識科技有限公司 |
| 主分類號: | G06V30/413 | 分類號: | G06V30/413;G06V30/416;G06F40/253;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 北京金智普華知識產權代理有限公司 11401 | 代理人: | 岳野 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 圖像 鍵值 信息 抽取 方法 裝置 系統 | ||
本發明公開了一種文檔圖像中鍵值對信息的抽取方法、裝置及系統,涉及計算機視覺領域。該方法包括:針對輸入信息進行編碼,輸出圖像+內容+坐標拼接特征向量和最終實體類型名稱特征向量;以每個文字為節點,聚合相鄰節點的圖像+內容+坐標拼接特征向量,得到每個文字的文字特征向量;基于每個文字的文字特征向量,按照實體類型對各文本塊進行分類,基于最終實體類型名稱特征向量和每個文字的文字特征向量,通過問答系統輸出由所有實體類型和其所對應的文本塊構成的鍵值對。該方法把多個任務融合到一個模型中,使用transformer等神經網絡結構構建模型,做到端到端的訓練和預測,最終輸出文檔中所有鍵值對信息。
技術領域
本發明涉及計算機視覺領域,尤其是一種文檔圖像中鍵值對信息的抽取方法、裝置及系統。
背景技術
現實中通常會遇到很多文檔中存在鍵值對這種信息表現方式,比如圖1銀行支票中“出票日期(大寫)”和“貳零零柒年零叁月壹拾玖日”就是一個鍵值對,前者是關鍵字,后者是真值,關鍵字是對真值的說明,兩者一起構成一個有用的信息。一個文檔中可能存在多個類似的鍵值對信息結構,通常需要把對應的真值全部抽取出來。
傳統的方法是對每一種文檔版式生成一種模板,先在模板里存儲各個關鍵字的位置,找到關鍵字后在其后面或者下面的值就是相應的真值。這種方法對于固定模板可以很好的解決,準確率較高,但是版式稍有不同就會出錯。所以對于每一種版式都要維護一套模板,所需處理的版式較多時就會耗費大量的時間和精力來創建和維護大量的模板,且每有一種新版式都要再創建一套新模板,泛化能力很差。隨著深度學習的發展,一些以神經網絡為基礎的模型開始逐漸取代傳統的模板方法。此類方法不用為每一種版式人工創建模板,而是將大量具有不同版式的數據輸入模型,讓神經網絡自己學習隱藏在不同版式中的通用特征,從而大大提高了泛化能力。代表方法有將整張文本拼接成一個字符串送進模型,然后做NER將需要的實體抽取出來。但是此類方法只是利用了文檔中的文字信息,完全忽略了文檔的圖像信息和鍵值對之間特殊的對應關系,這些信息對于提升精度有很大的幫助。
為了更好地利用文檔的文本特征和圖像特征,以及包含在鍵值對中特殊的位置對應關系,本團隊創新性的提出了將文本、圖像以及位置特征結合在一起的多模態模型。模型中主要用到了圖像和文本的預訓練模型、圖神經網絡以及問答系統。下面分別介紹一下這幾個方面的背景。
進入大數據時代后,可以得到的數據成指數級增長,但這些數據絕大部分都是未標注的,而且和需要解決的具體任務可能關聯不大。那么如何從這些海量的數據中學習到有用的知識,從而應用到具體任務上呢?這就需要用到預訓練模型,預訓練模型的訓練通常都會設計一些無監督的訓練任務,旨在學習到數據中的通用信息,比如圖像的分類、語言中的語法和句法等知識。預訓練模型最初在計算機視覺領域的ImageNet上取得了突破性的進展。隨著BERT的出現及其展現出來的優秀性能,讓預訓練模型在NLP領域迅速發展,并且取得了很好的成績。得到預訓練模型后,可以通過改變其輸出層來應用到不同的下游任務上,比如問答系統、文本分類、目標檢測、命名體識別等等。對比從零訓練的模型,預訓練模型可以提供很好的預備知識,而且這些知識對于下游任務有極大的幫助,可以讓模型收斂的更快,精度更高。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京易道博識科技有限公司,未經北京易道博識科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111528389.3/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





