[發(fā)明專利]對齊文檔圖片的方法,裝置,存儲介質(zhì)和電子設備有效
| 申請?zhí)枺?/td> | 201811308614.0 | 申請日: | 2018-11-05 |
| 公開(公告)號: | CN109597913B | 公開(公告)日: | 2021-01-29 |
| 發(fā)明(設計)人: | 韓志剛;宋洋;于廣偉;姜楠 | 申請(專利權(quán))人: | 東軟集團股份有限公司 |
| 主分類號: | G06F16/583 | 分類號: | G06F16/583;G06F16/58;G06F40/166 |
| 代理公司: | 北京英創(chuàng)嘉友知識產(chǎn)權(quán)代理事務所(普通合伙) 11447 | 代理人: | 曾堯;魏嘉熹 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 對齊 文檔 圖片 方法 裝置 存儲 介質(zhì) 電子設備 | ||
1.一種對齊文檔圖片的方法,其特征在于,所述方法包括:
分別生成第一文檔和第二文檔中的圖片序列信息,其中,所述圖片序列信息中的每一符號對應一圖片,所述圖片序列信息中各個符號的先后排序關(guān)系與對應的圖片在文檔中先后排序關(guān)系一致;
通過對所述第一文檔和所述第二文檔中的圖片進行比較,確定所述第一文檔和所述第二文檔中的共通圖片對,所述共通圖片對是指所述第一文檔和所述第二文檔中相似度高于閾值的圖片對;
將所述第一文檔的圖片序列信息和所述第二文檔的圖片序列信息中,對應所述共通圖片對的符號對作為相同的符號,并根據(jù)最大公共子序列算法確定所述第一文檔的圖片序列信息和所述第二文檔的圖片序列信息中的最大公共子序列,其中,所述最大公共子序列是指所述第一文檔的圖片序列信息和所述第二文檔的圖片序列信息中具有相同符號序列的最長子序列;
將所述最大公共子序列中每一符號對應的圖片對在所述第一文檔和所述第二文檔中進行對齊。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分別生成第一文檔和第二文檔中的圖片序列信息,包括:
根據(jù)所述第一文檔中每一圖片在頁面中的坐標信息,以及圖片所在頁面的頁碼信息生成所述第一文檔的圖片序列信息;
根據(jù)所述第二文檔中每一圖片在頁面中的坐標信息,以及圖片所在頁面的頁碼信息生成所述第二文檔的圖片序列信息。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過對所述第一文檔和所述第二文檔中的圖片進行比較,確定所述第一文檔和所述第二文檔中的共通圖片對,包括:
將所述第一文檔中的每一圖片,依次與所述第二文檔中的所有圖片進行圖片比較,以確定所述第一文檔中每一圖片與所述第二文檔中所有圖片之間的相似度;
將相似度高于預設閾值的圖片對作為所述共通圖片對。
4.根據(jù)權(quán)利要求1至3中任一項所述的方法,其特征在于,所述將所述最大公共子序列中每一符號對應的圖片對在所述第一文檔和所述第二文檔中進行對齊,包括:
將所述最大公共子序列中每一符號對應的圖片對的索引信息進行關(guān)聯(lián)。
5.根據(jù)權(quán)利要求1至3中任一項所述的方法,其特征在于,所述方法還包括:
分別比較所述最大公共子序列與所述第一文檔的圖片序列化信息以及與所述第二文檔的圖片序列化信息的差異符號,以確定所述第二文檔相對所述第一文檔增加的圖片和刪除的圖片。
6.一種對齊文檔圖片的裝置,其特征在于,所述裝置包括:
生成模塊,用于分別生成第一文檔和第二文檔中的圖片序列信息,其中,所述圖片序列信息中的每一符號對應一圖片,所述圖片序列信息中各個符號的先后排序關(guān)系與對應的圖片在文檔中先后排序關(guān)系一致;
圖片比較模塊,用于通過對所述第一文檔和所述第二文檔中的圖片進行比較,確定所述第一文檔和所述第二文檔中的共通圖片對,所述共通圖片對是指所述第一文檔和所述第二文檔中相似度高于閾值的圖片對;
序列確定模塊,用于將所述第一文檔的圖片序列信息和所述第二文檔的圖片序列信息中,對應所述共通圖片對的符號對作為相同的符號,并根據(jù)最大公共子序列算法確定所述第一文檔的圖片序列信息和所述第二文檔的圖片序列信息中的最大公共子序列,其中,所述最大公共子序列是指所述第一文檔的圖片序列信息和所述第二文檔的圖片序列信息中具有相同符號序列的最長子序列;
對齊模塊,用于將所述最大公共子序列中每一符號對應的圖片對在所述第一文檔和所述第二文檔中進行對齊。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述生成模塊用于:
根據(jù)所述第一文檔中每一圖片在頁面中的坐標信息,以及圖片所在頁面的頁碼信息生成所述第一文檔的圖片序列信息;
根據(jù)所述第二文檔中每一圖片在頁面中的坐標信息,以及圖片所在頁面的頁碼信息生成所述第二文檔的圖片序列信息。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東軟集團股份有限公司,未經(jīng)東軟集團股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811308614.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





