[發明專利]一種日期提取方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202111049925.1 | 申請日: | 2021-09-08 |
| 公開(公告)號: | CN113762160A | 公開(公告)日: | 2021-12-07 |
| 發明(設計)人: | 程佳宇;陳永紅;張軍濤;王國鵬 | 申請(專利權)人: | 深圳前海環融聯易信息科技服務有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/20;G06F40/295 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 武志峰 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 日期 提取 方法 裝置 計算機 設備 存儲 介質 | ||
本發明公開了一種日期提取方法、裝置、計算機設備及存儲介質,該方法包括:獲取包含待提取日期的文件圖像,對所述文件圖像進行預處理;對文件圖像進行OCR識別,并結合待提取日期的關聯信息獲取包含待提取日期的目標文本段;利用NER技術對所述目標文本段進行標簽標注,并輸出得到日期文本段;通過分類模型對所述日期文本段進行分類預測,并基于分類預測結果對所述日期文本段進行修正及后處理;根據修正及后處理結果,獲取待提取日期的目標要素,并根據所述目標要素提取日期。本發明結合待提取提起的關聯信息對待提取日期所在文本段進行定位,并通過OCR識別和NER技術對文件圖像或者文本段進行識別標注,可以提高對于日期的提取精度和提取效率。
技術領域
本發明涉及計算機技術領域,特別涉及一種日期提取方法、裝置、計算機設備及存儲介質。
背景技術
在各類合同的審閱過程中,待人工處理的材料往往具有以下兩大鮮明的特點:(1)合同類型與覆蓋的要素因行業的不同而多變,包括但不限于房地產、醫療、制造業、采購等行業,這就提高了對人工審核相關材料的門檻,同時也加大了審核工作的難度;(2)近似要素過多,且包含手寫體類型、摻雜其他印章、水印等干擾信息,增加了要素精準提取的難度。關于合同中各種日期的提取方式,普通分為兩種類型:
第一種是基于業務邏輯梳理關鍵字或關鍵句的定位規則,然后結合正則等方式匹配符合要求的日期格式,作為最終的候選日期。同時對于多個候選日期,結合相關業務規則選擇最終的目標要素值。
第二種應用較為廣泛的是結合深度學習進行日期要素提取,即通過深度學習模型預測得到日期對應的目標值。
針對上文提到的第一種現有方法,其缺陷首先是雖然提取日期的精度能夠得到一定程度的保證,但是方法幾乎沒有魯棒性,即換一種合同樣式,或者換一種日期的上下文表述就不能做到提取效果達到預期。
針對上文提到的第二種現有方法,因合同中日期類的要素居多,如開工日期、竣工日期、簽約日期、有效期等,且有些日期類要素還頻繁出現多于一個的情況,這就導致模型很難去識別真正的目標要素,從而導致提取精度較差。
發明內容
本發明實施例提供了一種日期提取方法、裝置、計算機設備及存儲介質,旨在提高對于日期的提取精度和提取效率。
第一方面,本發明實施例提供了一種日期提取方法,包括:
獲取包含待提取日期的文件圖像,對所述文件圖像進行預處理;
對經過預處理的文件圖像進行OCR識別,并結合待提取日期的關聯信息獲取包含待提取日期的目標文本段;
利用NER技術對所述目標文本段進行標簽標注,并輸出得到日期文本段;
通過分類模型對所述日期文本段進行分類預測,并基于分類預測結果對所述日期文本段進行修正及后處理;
根據修正及后處理結果,獲取待提取日期的目標要素,并根據所述目標要素提取日期。
第二方面,本發明實施例提供了一種日期提取裝置,包括:
預處理單元,用于獲取包含待提取日期的文件圖像,對所述文件圖像進行預處理;
第一獲取單元,用于對經過預處理的文件圖像進行OCR識別,并結合待提取日期的關聯信息獲取包含待提取日期的目標文本段;
標簽標注單元,用于利用NER技術對所述目標文本段進行標簽標注,并輸出得到日期文本段;
后處理單元,用于通過分類模型對所述日期文本段進行分類預測,并基于分類預測結果對所述日期文本段進行修正及后處理;
日期提取單元,用于根據修正及后處理結果,獲取待提取日期的目標要素,并根據所述目標要素提取日期。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳前海環融聯易信息科技服務有限公司,未經深圳前海環融聯易信息科技服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111049925.1/2.html,轉載請聲明來源鉆瓜專利網。





