[發明專利]文檔比對方法、裝置、電子設備及可讀存儲介質在審
| 申請號: | 202011477927.6 | 申請日: | 2020-12-15 |
| 公開(公告)號: | CN112580308A | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 彭藝宇;胡騰;路華;陳永鋒 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/166 | 分類號: | G06F40/166;G06F40/194;G06F9/451 |
| 代理公司: | 北京鴻德海業知識產權代理有限公司 11412 | 代理人: | 田宏賓 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 方法 裝置 電子設備 可讀 存儲 介質 | ||
1.一種文檔比對方法,包括:
根據待比對的兩個文檔中各文檔的文檔布局,對所述各文檔進行區域劃分處理,以獲得所述各文檔之間相互對應的至少兩組比對單元;其中,所述文檔布局包括布局標識、布局內容和布局位置中的至少一項;
對所述至少兩組比對單元中各組比對單元進行內容比對,以獲得所述各組比對單元的內容比對結果;
根據所述各組比對單元的內容比對結果,獲得所述兩個文檔的比對結果。
2.根據權利要求1所述的方法,其中,所述根據待比對的兩個文檔中各文檔的文檔布局,對所述各文檔進行區域劃分處理,以獲得所述各文檔之間相互對應的至少兩組比對單元之前,還包括:
確定所述待比對的兩個文檔中各文檔的文檔格式;
對文檔格式不為特定格式的文檔進行格式轉換處理,以獲得文檔格式為所述特定格式的文檔,作為待比對的文檔。
3.根據權利要求1所述的方法,其中,所述根據待比對的兩個文檔中各文檔的文檔布局,對所述各文檔進行區域劃分處理,以獲得所述各文檔之間相互對應的至少兩組比對單元,包括:
根據所述各文檔的文檔布局,對所述各文檔進行特征分析處理,以獲得所述各文檔的至少一個特征片段;
根據所述至少一個特征片段中各特征片段,進行文檔對齊處理;
根據所述文檔對齊處理的處理結果,獲得所述各文檔之間相互對應的至少兩組比對單元。
4.根據權利要求3所述的方法,其中,所述根據所述各文檔的文檔布局,對所述各文檔進行特征分析處理,以獲得所述各文檔的至少一個特征片段,包括:
根據所述各文檔的文檔布局,將所述各文檔劃分為至少一個內容片段;
對所述至少一個內容片段中各內容片段進行特征分析處理,以獲得所述各文檔的至少一個特征片段。
5.根據權利要求1所述的方法,其中,所述根據待比對的兩個文檔中各文檔的文檔布局,對所述各文檔進行區域劃分處理,以獲得所述各文檔之間相互對應的至少兩組比對單元,還包括:
利用預先訓練的光學字符識別OCR模型,對所述各文檔中的圖像進行字符識別處理,以獲得所述圖像中的圖像識別字符;其中,所述OCR模型為利用所述待比對的兩個文檔所屬應用場景的訓練文檔進行訓練得到。
6.根據權利要求1-5中任一項所述的方法,其中,所述根據所述各組比對單元的內容比對結果,獲得所述兩個文檔的比對結果,包括:
對所述各組比對單元的內容比對結果,進行修正處理;
根據所述修正處理之后的所述各組比對單元的內容比對結果,獲得所述兩個文檔的比對結果。
7.根據權利要求6所述的方法,其中,所述對所述各組比對單元的內容比對結果,進行修正處理,包括:
獲取內容比對結果為差異比對結果的各組比對單元的至少一個差異內容和所述至少一個差異內容中各差異內容所在位置;
根據所獲取的各組比對單元的所述各差異內容和該差異內容所在位置,確定所述各差異內容的差異類型;
若差異內容的差異類型為特定類型,忽略該差異內容所對應的差異比對結果。
8.根據權利要求6所述的方法,其中,所述對所述各組比對單元的內容比對結果,進行修正處理,包括:
獲取內容比對結果為差異比對結果的各組比對單元的至少一個差異內容;
若所獲取的各組比對單元的差異內容為指定字符數量的差異內容,且所述指定字符數量的差異內容為基于OCR模型所識別,利用圖像相似度模型,對所述指定字符數量的差異內容所屬圖像進行相似度識別處理,以確定所述指定字符數量的差異內容所屬圖像是否一致;
若所述指定字符數量的差異內容所屬圖像一致,忽略所述指定字符數量的差異內容所對應的差異比對結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011477927.6/1.html,轉載請聲明來源鉆瓜專利網。





