[發明專利]PDF文件對比方法及系統在審
| 申請號: | 201310329900.6 | 申請日: | 2013-07-31 |
| 公開(公告)號: | CN103412905A | 公開(公告)日: | 2013-11-27 |
| 發明(設計)人: | 張樹坤;周劍 | 申請(專利權)人: | 廣聯達軟件股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/22 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩 |
| 地址: | 100193 北京市海淀區東北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | pdf 文件 對比 方法 系統 | ||
1.一種便攜文件格式PDF文件對比方法,其特征在于,包括:
110:提取第一PDF文件中的一個剩余段落作為目標段落;
120:判斷第二PDF文件中預定范圍內是否存在剩余段落,如果存在,在所述預定范圍內匹配得到所述目標段落的最相似段落,移除所述目標段落和所述最相似段落;否則,移除所述目標段落;
130:判斷所述目標段落所在的頁是否已轉換為計算機呈現載體,如果是,在所述目標段落所在的頁轉換的計算機呈現載體中標識所述目標段落和所述最相似段落相同的文字,否則,將所述目標段落所在的頁轉換為計算機呈現載體,在所述目標段落所在的頁轉換的計算機呈現載體中標識所述目標段落和所述最相似段落相同的文字;
140:判斷所述最相似段落所在的頁是否已轉換為計算機呈現載體,如果是,在所述最相似段落所在的頁轉換的計算機呈現載體中標識所述目標段落和所述最相似段落相同的文字,否則,將所述最相似段落所在的頁轉換為計算機呈現載體,在所述最相似段落所在的頁轉換的計算機呈現載體中標識所述目標段落和所述最相似段落相同的文字;
150:判斷所述第一PDF文件是否存在剩余段落,如果存在,執行所述步驟110;否則,輸出所述第一PDF文件和所述第二PDF文件對應的計算機呈現載體。
2.如權利要求1所述的方法,其特征在于,所述方法還包括:根據所述第一PDF文件對應的計算機呈現載體中被標識的相同文字的數量,輸出所述第一PDF文件和所述第二PDF文件的雷同程度值。
3.如權利要求2所述的方法,其特征在于,所述雷同程度值L的計算公式如下:
L=S/(A+B-S);
其中,S表示所述第一PDF文件對應的計算機呈現載體中被標識的相同文字的數量,A表示所述第一PDF文件的文字數量,B表示所述第二PDF文件的文字數量。
4.如權利要求1所述的方法,其特征在于,所述預定范圍為[Fmin,Fmax],并且Fmin和Fmax的計算公式如下:
Fmin=Pm-Y;
Fmax=Pm+Y;
其中,Fmin表示所述第二PDF文件中所述預定范圍對應的下限頁碼,Fmax表示所述第二PDF文件中所述預定范圍對應的上限頁碼,Pm表示所述第一PDF文件中所述目標段落所在頁的頁碼,Y為常值。
5.如權利要求4所述的方法,其特征在于,Y等于3或者5。
6.如權利要求1所述的方法,其特征在于,在所述預定范圍內匹配得到所述目標段落的最相似段落,具體包括:
將所述目標段落依次與所述預定范圍內的每個段落相匹配,得到所述預定范圍內的每個段落與所述目標段落相同文字的數量;
將所述預定范圍內與所述目標段落相同文字的數量最多的段落作為所述目標段落的最相似段落。
7.如權利要求1所述的方法,其特征在于,所述步驟150之前還包括:
判斷所述第一PDF文件中所述目標段落所在的目標頁中是否存在剩余段落,如果存在,執行所述步驟150,否則,輸出所述目標頁對應的計算機呈現載體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣聯達軟件股份有限公司,未經廣聯達軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310329900.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據庫系統的性能監控方法以及裝置
- 下一篇:一種歷史記錄清理方法及裝置





