[發明專利]一種文檔比對方法及裝置在審
| 申請號: | 201910520715.2 | 申請日: | 2019-06-17 |
| 公開(公告)號: | CN110443269A | 公開(公告)日: | 2019-11-12 |
| 發明(設計)人: | 趙逸湘 | 申請(專利權)人: | 平安信托有限責任公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F17/22 |
| 代理公司: | 北京匯思誠業知識產權代理有限公司 11444 | 代理人: | 馮曉平 |
| 地址: | 518000 廣東省深圳市福田區福田街道益田路5033號平安金融中心27層(東北*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 比對 標準文本 比對圖 標準文檔 文本 文檔 矯正 人工智能技術 霍夫變換 用戶上傳 雙線性 預設 轉換 中文 | ||
本發明實施例提供了一種文檔比對方法及裝置,本發明涉及人工智能技術領域,方法包括:獲取待比對圖檔及標準文檔,其中,標準文檔為用戶上傳的正確文檔;通過預設的處理方法將標準文檔轉換為標準文本,標準文本中包括多個字符;通過霍夫變換方法找到待比對圖檔的傾斜角度,并基于傾斜角度采用雙線性插值對待比對圖檔進行旋轉矯正;識別旋轉矯正后的待比對圖檔,得到待比對文本,待比對文本包括多個字符;將標準文本中的字符與待比對文本中的字符進行比對,得到待比對文本與標準文本之間的差異字符。本發明實施例提供的技術方案能夠解決現有技術中文檔比對效率低的問題。
【技術領域】
本發明涉及人工智能技術領域,尤其涉及一種文檔比對方法及裝置。
【背景技術】
目前,企業中需要用到的文檔越來越多,一個文檔經過多次轉手后,可能會出現一些偏差,例如合同,合同審查人員人工審核的效率很低,并且合同的格式可能是打印稿、圖片、電子稿等,使得比對效率更低,因此,如何提高文檔的比對效率成為目前亟待解決的問題。
【發明內容】
有鑒于此,本發明實施例提供了一種文檔比對方法及裝置,用以解決現有技術中文檔比對效率低的問題。
為了實現上述目的,根據本發明的一個方面,提供了一種文檔比對方法,所述方法包括:
獲取待比對圖檔及標準文檔,其中,所述標準文檔為用戶上傳的正確文檔;通過預設的處理方法將所述標準文檔轉換為標準文本,所述標準文本中包括多個字符;通過霍夫變換方法找到所述待比對圖檔的傾斜角度,并基于所述傾斜角度采用雙線性插值對所述待比對圖檔進行旋轉矯正;識別所述旋轉矯正后的待比對圖檔,得到待比對文本,所述待比對文本包括多個字符;將所述標準文本中的字符與所述待比對文本中的字符進行比對,得到所述待比對文本與所述標準文本之間的差異字符。
進一步地,所述識別所述旋轉矯正后的待比對圖檔,得到待比對文本,所述待比對文本包括多個字符,包括:將所述待比對圖檔切分為多個子圖檔;其中,每個子圖檔通過預設標簽進行標識;將每個所述子圖檔依次輸入基于卷積神經網絡的字符識別模型中,獲取所述字符識別模型輸出的字符。
進一步地,所述將每個所述子圖檔依次輸入基于卷積神經網絡的字符識別模型中,獲取所述字符識別模型輸出的字符,包括:
將每個所述子圖檔依次輸入基于卷積神經網絡的所述字符識別模型中,其中,所述字符識別模型的卷積神經網絡提取每個所述子圖檔中的所述字符的詞向量、在所述字符前的預設數量個字符的第一特征向量及在所述字符后的所述預設數量個字符的第二特征向量;將所述詞向量、所述第一特征向量、所述第二特征向量拼接為一個特征向量;對拼接后得到的所述特征向量進行語義識別;獲取所述字符識別模型輸出的字符。
進一步地,所述將所述標準文本中的字符與所述待比對文本中的字符進行比對,得到所述待比對文本與所述標準文本之間的差異字符,包括:獲取所述用戶預設的比對區域及比對對象,其中,所述比對區域與所述子圖檔的預設標簽相對應,所述比對對象包括字符、空格、符號中的至少一種;獲取所述字符識別模型輸出的與所述預設標簽相關的字符;將所述預設標簽相關的字符與所述標準文本中的字符根據所述比對對象一一進行比對,得到差異字符。
進一步地,所述將所述標準文本中的字符與所述待比對文本中的字符進行比對,得到所述待比對文本與所述標準文本之間的差異字符之后,所述方法還包括:獲取所述用戶預設的標注顏色;根據所述標注顏色標注所述差異字符。
進一步地,在所述通過霍夫變換方法找到所述待比對圖檔的傾斜角度,并基于所述傾斜角度采用雙線性插值對所述待比對圖檔進行旋轉矯正之前,所述方法還包括:對所述待比對圖檔進行二值化處理,得到二值化圖檔;對所述二值化圖檔進行濾波處理,去除所述二值化圖檔中的背景噪聲;將濾波處理后的二值化圖檔確認為待比對圖檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安信托有限責任公司,未經平安信托有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910520715.2/2.html,轉載請聲明來源鉆瓜專利網。





