[發明專利]一種文檔比對方法及裝置在審
| 申請號: | 201910520715.2 | 申請日: | 2019-06-17 |
| 公開(公告)號: | CN110443269A | 公開(公告)日: | 2019-11-12 |
| 發明(設計)人: | 趙逸湘 | 申請(專利權)人: | 平安信托有限責任公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F17/22 |
| 代理公司: | 北京匯思誠業知識產權代理有限公司 11444 | 代理人: | 馮曉平 |
| 地址: | 518000 廣東省深圳市福田區福田街道益田路5033號平安金融中心27層(東北*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 比對 標準文本 比對圖 標準文檔 文本 文檔 矯正 人工智能技術 霍夫變換 用戶上傳 雙線性 預設 轉換 中文 | ||
1.一種文檔比對方法,其特征在于,所述方法包括:
獲取待比對圖檔及標準文檔,其中,所述標準文檔為用戶上傳的正確文檔;
通過預設的處理方法將所述標準文檔轉換為標準文本,所述標準文本中包括多個字符;
通過霍夫變換方法找到所述待比對圖檔的傾斜角度,并基于所述傾斜角度采用雙線性插值對所述待比對圖檔進行旋轉矯正;
識別所述旋轉矯正后的待比對圖檔,得到待比對文本,所述待比對文本包括多個字符;
將所述標準文本中的字符與所述待比對文本中的字符進行比對,得到所述待比對文本與所述標準文本之間的差異字符。
2.根據權利要求1所述的方法,其特征在于,所述識別所述旋轉矯正后的待比對圖檔,得到待比對文本,所述待比對文本包括多個字符,包括:
將所述待比對圖檔切分為多個子圖檔;其中,每個子圖檔通過預設標簽進行標識;
將每個所述子圖檔依次輸入基于卷積神經網絡的字符識別模型中,獲取所述字符識別模型輸出的字符。
3.根據權利要求2所述的方法,其特征在于,所述將每個所述子圖檔依次輸入基于卷積神經網絡的字符識別模型中,獲取所述字符識別模型輸出的字符,包括:
將每個所述子圖檔依次輸入基于卷積神經網絡的字符識別模型中,其中,所述字符識別模型的卷積神經網絡提取每個所述子圖檔中的所述字符的詞向量、在所述字符前的預設數量個字符的第一特征向量及在所述字符后的所述預設數量個字符的第二特征向量;
將所述詞向量、所述第一特征向量、所述第二特征向量拼接為一個特征向量;
對拼接后得到的所述特征向量進行語義識別;
獲取所述字符識別模型輸出的字符。
4.根據權利要求2所述的方法,其特征在于,所述將所述標準文本中的字符與所述待比對文本中的字符進行比對,得到所述待比對文本與所述標準文本之間的差異字符,包括:
獲取所述用戶預設的比對區域及比對對象,其中,所述比對區域與所述子圖檔的預設標簽相對應,所述比對對象包括字符、空格、符號中的至少一種;
獲取所述字符識別模型輸出的與所述預設標簽相關的字符;
將所述預設標簽相關的字符與所述標準文本中的字符根據所述比對對象一一進行比對,得到差異字符。
5.根據權利要求1~4中任意一項所述的方法,其特征在于,所述將所述標準文本中的字符與所述待比對文本中的字符進行比對,得到所述待比對文本與所述標準文本之間的差異字符之后,所述方法還包括:
獲取所述用戶預設的標注顏色;
根據所述標注顏色標注所述差異字符。
6.根據權利要求1所述的方法,其特征在于,在所述通過霍夫變換方法找到所述待比對圖檔的傾斜角度,并基于所述傾斜角度采用雙線性插值對所述待比對圖檔進行旋轉矯正之前,所述方法還包括:
對所述待比對圖檔進行二值化處理,得到二值化圖檔;
對所述二值化圖檔進行濾波處理,去除所述二值化圖檔中的背景噪聲;
將濾波處理后的二值化圖檔確認為待比對圖檔。
7.根據權利要求6所述的方法,其特征在于,所述通過霍夫變換方法找到所述待比對圖檔的傾斜角度,并基于所述傾斜角度采用雙線性插值對所述待比對圖檔進行旋轉矯正,包括:
通過霍夫變換方法提取所述待比對圖檔中的直線;
統計所述直線上的字符點,確定線段,其中,以橫坐標最小的字符點所在的坐標作為所述線段的起始坐標,以橫坐標最大的字符點所在的坐標作為所述線段的終止坐標;
判斷所述線段上相鄰兩個字符點之間的距離是否大于預設閾值;
當大于所述預設閾值時,將所述線段從所述相鄰兩個字符點處分割為兩條線段;
計算每條所述線段的傾斜角度,并將所述傾斜角度的平均值確認為所述待比對圖檔的傾斜角度;
基于確認的所述傾斜角度,采用雙線性插值對所述待比對圖檔進行旋轉矯正。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安信托有限責任公司,未經平安信托有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910520715.2/1.html,轉載請聲明來源鉆瓜專利網。





