[發明專利]基于聯合預訓練的合同文本圖像關鍵信息提取系統和方法在審
| 申請號: | 202011106010.5 | 申請日: | 2020-10-15 |
| 公開(公告)號: | CN112329767A | 公開(公告)日: | 2021-02-05 |
| 發明(設計)人: | 楊威 | 申請(專利權)人: | 方正株式(武漢)科技開發有限公司 |
| 主分類號: | G06K9/32 | 分類號: | G06K9/32;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 武漢藍寶石專利代理事務所(特殊普通合伙) 42242 | 代理人: | 廉海濤 |
| 地址: | 430000 湖北省武漢市東湖新技術開*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 聯合 訓練 合同文本 圖像 關鍵 信息 提取 系統 方法 | ||
本發明涉及一種基于聯合預訓練的合同文本圖像關鍵信息提取系統和方法,該系統包括:預訓練模型,預訓練模型通過輸入多個合同文本圖像進行預訓練任務訓練后得到,預訓練任務包括基于圖像位置的文本預測;訓練模型,訓練模型通過輸入多個標注有提取信息的位置的合同文本圖像進行訓練任務訓練后得到,訓練任務包括利用預訓練模型進行信息提取;將待檢測合同文本圖像的輸入訓練完成的訓練模型,得到訓練模型的預定義的提取信息的所在位置及文字;新增的預訓練任務不僅融合了圖像特征,還融合了文字預測任務,這不僅使得模型學習到更多的先驗知識而且由于預訓練階段無需標注數據所以節省了大量的人力,且信息抽取的正確率更高。
技術領域
本發明涉及文本圖像信息抽取領域,尤其涉及一種基于聯合預訓練的合同文本圖像關鍵信息提取系統和方法。
背景技術
合同文本圖像的關鍵信息提取指的是,利用某些方法從合同掃描件或合同圖像中提取用戶感興趣的、需要提取的關鍵信息,比如合同簽約的“甲方”、“乙方”,合同的簽約時間,合同的契約金額等實體。
如今,仍有很多公司使用傳統的方法,通過人力從商業合同中一頁一頁的提取,逐個地查找合同中包含“甲方,乙方,契約時間,契約金額”等所有需要提取的實體,這種方法不僅消耗時間而且人工的成本也很大。
另一方面,也有很多公司嘗試使用自動化提取的方法從合同文本提取關鍵信息。
OCR即光學字符識別技術,目前被廣泛利用在手寫文字識別、基于銀行卡身份證等照片的關鍵信息識別以及合同文本圖像的文字識別等諸多領域。同時,隨著深度學習算法的快速發展,卷積神經網絡(CNN)、循環神經網絡(RNN)以及注意力機制(Attentionmechanism)被成功的運用到OCR諸多應用中。
比如公開號為CN110458162A的中國發明專利申請使用的是基于深度學習(卷積神經網絡)的端到端的自動化提取文字信息的一套方法,這種方法通過標注大量的訓練數據,直接基于深度學習算法訓練一個模型,完成后模型即可用于實際的識別工作中。
然而不管是基于CNN、Faster R-CNN、Mask R-CNN還是GCN的深度學習算法,這類方法在自動提取合同關鍵信息時有兩個明顯的缺陷:
1、他們需要人工標注大量的標簽訓練數據,也即需要對每份合同標注“甲方,乙方,契約時間,契約金額”等實體的確切位置,昂貴而且導致很長的項目周期。
2、模型花費大量時間學習合同文本的結構、布局、位置關系等信息,標注的數據沒有發揮出最大的監督學習作用,最后導致一個不太理想的識別效果。
發明內容
本發明針對現有技術中存在的技術問題,提供一種基于聯合預訓練的合同文本圖像關鍵信息提取系統和方法,解決現有技術中問題。
本發明解決上述技術問題的技術方案如下:一種基于聯合預訓練的合同文本圖像關鍵信息提取系統,包括:預訓練模型和訓練模型;
所述預訓練模型通過輸入多個合同文本圖像進行預訓練任務訓練后得到,所述預訓練任務包括基于圖像位置的文本預測;
所述訓練模型通過輸入多個標注有提取信息的位置的合同文本圖像進行訓練任務訓練后得到,所述訓練任務包括利用所述預訓練模型進行信息提取;
將待檢測合同文本圖像的輸入訓練完成的所述訓練模型,得到所述訓練模型的預定義的提取信息的所在位置及文字。
一種基于聯合預訓練的合同文本圖像關鍵信息提取方法,包括:
步驟1,定義預訓練模型及基于圖像位置的文本預測的預訓練任務,輸入多個合同文本圖像至所述預訓練模型,依據所述預訓練任務計算目標函數后更新所述預訓練模型的參數;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于方正株式(武漢)科技開發有限公司,未經方正株式(武漢)科技開發有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011106010.5/2.html,轉載請聲明來源鉆瓜專利網。





