[發明專利]一種證明文件處理方法、裝置及設備在審
| 申請號: | 202011126293.X | 申請日: | 2020-10-20 |
| 公開(公告)號: | CN112199337A | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 余紅 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F16/14 | 分類號: | G06F16/14;G06F16/16;G06N20/00 |
| 代理公司: | 北京國昊天誠知識產權代理有限公司 11315 | 代理人: | 許振新 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 證明文件 處理 方法 裝置 設備 | ||
本說明書實施例提供一種證明文件處理方法、裝置及設備。方法包括:首先,識別證明文件中的文字及其文字坐標,并對同行內的文字進行關鍵文字和文字類型的標注,得到訓練文字樣本;然后,使用訓練文字樣本進行機器學習模型的訓練,并在證明文件處理場景中,由機器學習模型從證明文件中提取文件名。
技術領域
本文件涉及計算機技術領域,尤其涉及一種證明文件處理方法、裝置及設備。
背景技術
資質校驗是指對申請方從事某種工作或活動所具備的條件、資格、能力等進行校驗的工作。如,在商家申請小程序或者商家入駐零售平臺等場景中,平臺方一般會要求商家提供資質證明,由商家在系統中上傳資質證明相關的文件,通常商家會把文件掃描成圖片上傳。而為了校驗商家上傳證書的正確性,防止商家傳錯證書,例如在上傳營業執照的地方上傳了身份證,需要提取出上傳證件的名稱進行檢查。在另一場景中,為了驗證資質證明的有效性,例如資質證明是否在有效期內,需要對資質證明中的信息進行提取,在結構化提取信息中,也需要先知道是什么證照,再調用相應的解析結構化算法程序。
因此,需要提供一種可靠證明文件處理方案。
發明內容
本說明書實施例提供一種證明文件處理方法,用以提高證明文件的文件名的提取速度和精確度。
本說明書實施例還提供一種證明文件處理方法,包括:
對文字及文字坐標識別后的證明文件進行坐標分析,得到所述證明文件中屬于同一行的文字集;
對各行文字集進行關鍵文字標注和文字類型標注,得到所述各行文字集對應的文字樣本,所述關鍵文字標注用于表征文字集中是否包含指定關鍵文字,所述文字類型標注用于表征文字集中的文字的類型是否相同;
分別將所述各行文字集對應的文字樣本輸入至機器學習模型,得到所述各行文字集對應的文件名標簽,所述機器學習模型基于批量的證明文件對應的訓練文字樣本及訓練文字樣本對應的文件名標簽訓練得到,所述訓練文字樣本具有與所述文字樣本相同維度的特征;
基于所述各行文字集及對應的文件名標簽,確定所述證明文件的文件名。
本說明書實施例還提供一種證明文件處理裝置,包括:
分析模塊,對文字及文字坐標識別后的證明文件進行坐標分析,得到所述證明文件中屬于同一行的文字集;
標注模塊,對各行文字集進行關鍵文字標注和文字類型標注,得到所述各行文字集對應的文字樣本,所述關鍵文字標注用于表征文字集中是否包含指定關鍵文字,所述文字類型標注用于表征文字集中的文字的類型是否相同;
處理模塊,分別將所述各行文字集對應的文字樣本輸入至機器學習模型,得到所述各行文字集對應的文件名標簽,所述機器學習模型基于批量的證明文件對應的訓練文字樣本及訓練文字樣本對應的文件名稱標簽訓練得到,所述訓練文字樣本具有與所述文字樣本相同維度的特征;
確定模塊,基于所述各行文字集及對應的文件名標簽,確定所述證明文件的文件名。
本說明書實施例還提供一種電子設備,包括:
處理器;以及
被安排成存儲計算機可執行指令的存儲器,所述可執行指令在被執行時使所述處理器執行以下操作:
對文字及文字坐標識別后的證明文件進行坐標分析,得到所述證明文件中屬于同一行的文字集;
對各行文字集進行關鍵文字標注和文字類型標注,得到所述各行文字集對應的文字樣本,所述關鍵文字標注用于表征文字集中是否包含指定關鍵文字,所述文字類型標注用于表征文字集中的文字的類型是否相同;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011126293.X/2.html,轉載請聲明來源鉆瓜專利網。





