[發明專利]基于聯合預訓練的合同文本圖像關鍵信息提取系統和方法在審
| 申請號: | 202011106010.5 | 申請日: | 2020-10-15 |
| 公開(公告)號: | CN112329767A | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 楊威 | 申請(專利權)人: | 方正株式(武漢)科技開發有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 武漢藍寶石專利代理事務所(特殊普通合伙) 42242 | 代理人: | 廉海濤 |
| 地址: | 430000 湖北省武漢市東湖新技術開*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 聯合 訓練 合同文本 圖像 關鍵 信息 提取 系統 方法 | ||
1.一種基于聯合預訓練的合同文本圖像關鍵信息提取系統,其特征在于,所述系統包括:預訓練模型和訓練模型;
所述預訓練模型通過輸入多個合同文本圖像進行預訓練任務訓練后得到,所述預訓練任務包括基于圖像位置的文本預測;
所述訓練模型通過輸入多個標注有提取信息的位置的合同文本圖像進行訓練任務訓練后得到,所述訓練任務包括利用所述預訓練模型進行信息提取;
將待檢測合同文本圖像的輸入訓練完成的所述訓練模型,得到所述訓練模型的預定義的提取信息的所在位置及文字。
2.根據權利要求1所述的系統,其特征在于,所述預訓練模型包括:圖像預處理模塊一、文本和圖像嵌入層、注意力層和損失函數層一;
所述圖像預處理模塊一通過OCR工具對輸入的合同文本圖像進行文字識別,并獲取每個文字的位置;
所述文本和圖像嵌入層根據每個文字的位置將其嵌入到文本和圖像嵌入向量;
所述注意力層包括多層,以所述文本和圖像嵌入層作為第一層的輸入,每層通過注意力機制運算后輸出到下一層;
所述損失函數層通過損失函數對所述預訓練模型的參數進行計算更新。
3.根據權利要求2所述的系統,其特征在于,所述訓練模型包括:圖像預處理模塊二、預訓練層和損失函數層二;
所述圖像預處理模塊二通過OCR工具對輸入的標注有提取信息的位置的合同文本圖像進行文字識別,并獲取每個文字的位置;
所述預訓練層包括訓練完成的所述預訓練模型中的文本和圖像嵌入層和注意力層,對所述標注有提取信息的位置的合同文本圖像進行預訓練;
所述損失函數層二的輸入為所述訓練模型進行信息提取的預測標簽和訓練集中的真實標簽,根據所述預測標簽和真實標簽的比較結果對所述訓練模型的參數進行更新。
4.根據權利要求3所述的系統,其特征在于,所述圖像預處理模塊一和圖像預處理模塊二獲取每個文字的位置的過程包括:
獲取每個文字最小圖像區塊左上角和右下角的水平坐標和垂直坐標,并根據所述水平坐標和垂直坐標的大小順序將各個文字排列成一行。
5.根據權利要求3所述的系統,其特征在于,所述文本和圖像嵌入向量包括文本嵌入層和2-D坐標嵌入層,所述2-D坐標嵌入層包括:文字最小圖像區塊左上角水平坐標嵌入層、文字最小圖像區塊左上角垂直坐標嵌入層、文字最小圖像區塊右下角水平坐標嵌入層和文字最小圖像區塊右下角垂直坐標嵌入層。
6.根據權利要求2所述的系統,其特征在于,所述注意力機制采用多頭自注意力機制或普通自注意力機制;
所述注意力機制采用普通自注意力機制時的計算形式為:
其中Q、K、V均為張量,dk表示張量K最后一個維度,T表示轉置運算。
7.根據權利要求2所述的系統,其特征在于,所述損失函數的計算方式為:給定所述文字最小圖像區塊的2-D坐標,基于BERT的MLM任務計算損失。
8.一種基于聯合預訓練的合同文本圖像關鍵信息提取方法,其特征在于,所述方法包括:
步驟1,定義預訓練模型及基于圖像位置的文本預測的預訓練任務,輸入多個合同文本圖像至所述預訓練模型,依據所述預訓練任務計算目標函數后更新所述預訓練模型的參數;
步驟2,定義訓練模型及利用所述預訓練模型進行信息提取的訓練任務,輸入多個標注有提取信息的位置的合同文本圖像至所述訓練模型,依據所述訓練任務計算目標函數后更新所述訓練模型的參數;
步驟3,將待檢測合同文本圖像的輸入訓練完成的所述訓練模型,得到所述訓練模型的預定義的提取信息的所在位置及文字。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于方正株式(武漢)科技開發有限公司,未經方正株式(武漢)科技開發有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011106010.5/1.html,轉載請聲明來源鉆瓜專利網。





