[發(fā)明專利]一種用于復(fù)合文檔的同源判定、差異化顯示方法和系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011437703.2 | 申請日: | 2020-12-07 |
| 公開(公告)號: | CN112507660A | 公開(公告)日: | 2021-03-16 |
| 發(fā)明(設(shè)計)人: | 連慧奇;許全聰;吳少華;吳江煌;吳世雄;彭玄寧 | 申請(專利權(quán))人: | 廈門美亞億安信息科技有限公司 |
| 主分類號: | G06F40/106 | 分類號: | G06F40/106;G06F40/166;G06F40/194 |
| 代理公司: | 廈門福貝知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 35235 | 代理人: | 陳遠(yuǎn)洋 |
| 地址: | 361012 福建省廈門市集美區(qū)*** | 國省代碼: | 福建;35 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 復(fù)合 文檔 同源 判定 異化 顯示 方法 系統(tǒng) | ||
本發(fā)明給出了一種用于復(fù)合文檔的同源判定、差異化顯示方法和系統(tǒng),包括對復(fù)合文檔進(jìn)行預(yù)處理,分別提取復(fù)合文檔的內(nèi)嵌文件;搜索內(nèi)嵌文件中的版本跟蹤信息,提取并分別構(gòu)成復(fù)合文檔的版本跟蹤信息集合;響應(yīng)于任意兩個復(fù)合文檔的版本跟蹤信息集合存在交集,該任意兩個復(fù)合文檔同源。進(jìn)一步定義同源復(fù)合文檔的差異部分的顯示樣式;在需要顯示差異的復(fù)合文檔的版本跟蹤信息對應(yīng)的差異段落元素中插入顯示樣式,打開復(fù)合文檔顯示顯示樣式的差異部分。可快速判定不同的文件是否存在關(guān)聯(lián)關(guān)系,并對修改或新增的內(nèi)容進(jìn)行差異展示。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)技術(shù)應(yīng)用領(lǐng)域,尤其是一種用于復(fù)合文檔的同源判定、差異化顯示方法和系統(tǒng)。
背景技術(shù)
隨著辦公電子化的發(fā)展,復(fù)合文檔被廣泛的應(yīng)用于各種場景,如企業(yè)標(biāo)書、設(shè)計文檔、技術(shù)文檔等。同時復(fù)合文檔也存在可修改,容易被復(fù)制等問題,導(dǎo)致文檔被篡改或者偽造的情況普遍存在。例如企業(yè)招投標(biāo)圍標(biāo)中,常常涉及到需要鑒定不同供應(yīng)商提交的標(biāo)書文件是否由同一個單位或者個人進(jìn)行編制的情況,另外在一些知識產(chǎn)權(quán)侵犯或者商業(yè)秘密泄露案中,也常常會涉及到對文件同源的鑒定。文件同源判定即判斷文件是否來著同一個文件的副本,或者一個文件是由另一個文件修改而來的。
目前,市場上存在一系列工具和一些文本對比算法,比如Beyond Compare、Microsoft Office內(nèi)置文檔對比等工具,比如TF-IDF、BM25等文本相似對比算法,但都有如下問題:
1、現(xiàn)有的基于文件內(nèi)容的對比算法實現(xiàn)復(fù)雜;
2、采用文本相似性算法進(jìn)行對比,只能得到文檔的相似度,無法準(zhǔn)確的判斷是否是同源文件;
3、對于同源文檔的差異化顯示難以自定義化顯示效果。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中文件內(nèi)容的對比算法實現(xiàn)復(fù)雜、采用文本相似性算法進(jìn)行對比,只能得到文檔的相似度、無法準(zhǔn)確的判斷是否是同源文件、對于同源文檔的差異化顯示難以自定義化顯示效果的技術(shù)問題,本發(fā)明提出了一種用于復(fù)合文檔的同源判定、差異化顯示方法和系統(tǒng),用以解決上述技術(shù)問題。
根據(jù)本發(fā)明的一個方面,提出了一種用于復(fù)合文檔的同源判定方法,包括以下步驟:
S1:對復(fù)合文檔進(jìn)行預(yù)處理,分別提取復(fù)合文檔的內(nèi)嵌文件;
S2:搜索內(nèi)嵌文件中的版本跟蹤信息,提取并分別構(gòu)成復(fù)合文檔的版本跟蹤信息集合;以及
S3:響應(yīng)于任意兩個復(fù)合文檔的版本跟蹤信息集合存在交集,該任意兩個復(fù)合文檔同源。
在一些具體的實施例中,對復(fù)合文檔進(jìn)行預(yù)處理具體包括對復(fù)合文檔進(jìn)行解壓,提取document.xml文件。憑借document.xml文件可以提取復(fù)合文檔的各種標(biāo)識信息,作為同源判定的數(shù)據(jù)基礎(chǔ)。
在一些具體的實施例中,版本跟蹤信息包括document.xml文件中的rsid*值。利用rsid*值可以快速判斷兩復(fù)合文檔是否為同源文件。
根據(jù)本發(fā)明的第二方面,提出了一種用于復(fù)合文檔的差異化顯示方法,包括:
利用如上述的同源判定方法獲取同源復(fù)合文檔;
定義同源復(fù)合文檔的差異部分的顯示樣式;
在需要顯示差異的復(fù)合文檔的版本跟蹤信息對應(yīng)的差異段落元素中插入顯示樣式,打開復(fù)合文檔顯示顯示樣式的差異部分。利用上述方法可以將兩同源復(fù)合文檔的差異部分按自定義的顯示樣式表現(xiàn)出來。
在一些具體的實施例中,顯示樣式包括粗體、高亮黃色、紅色字體、斜體和下劃線中的一個或其組合。多種顯示樣式的選擇或者復(fù)合組合可以獲得多種不同的顯示效果。
在一些具體的實施例中,差異部分包括新增、修改和刪除的文檔數(shù)據(jù)。差異部分的多種情況可以滿足不同的顯示要求。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廈門美亞億安信息科技有限公司,未經(jīng)廈門美亞億安信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011437703.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





