[發明專利]一種基于文檔混合特征的文檔相似度判定方法和裝置有效

申請號：	201711041146.0	申請日：	2017-10-30
公開（公告）號：	CN107656909B	公開（公告）日：	2021-06-01
發明（設計）人：	魏效征;王志海;喻波;安鵬	申請（專利權）人：	北京明朝萬達科技股份有限公司
主分類號：	G06F40/194	分類號：	G06F40/194;G06F40/30
代理公司：	暫無信息	代理人：	暫無信息
地址：	100097 北京市海淀***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于文檔混合特征相似判定方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種基于文檔混合特征的文檔相似度判定方法和裝置，該方法包括以下步驟：對輸入的文件或者數據流進行正則表達式匹配；如果匹配失敗，則結束，如果匹配成功，對正則表達式匹配輸出的多個特征字符串進行特征再處理；分別對特征再處理的多個結果進行鏈表管理，形成多個特征鏈表；對多個特征鏈表進行鏈表遍歷和特征歸并處理；輸出相似度判定結果。通過本方案，大大提高結構化文檔中表格數據的識別能力，可以大幅度條excel表格類型的文檔相似度的判定能力，速度更快，容易理解，適合實際業務需要，為數據管控提供了堅實的技術能力。

技術領域

本發明涉及計算機搜索領域，具體涉及一種基于文檔混合特征的文檔相似度判定方法和裝置。

背景技術

文檔相似度判定廣泛應用于互聯搜索、輿情報告、企業分級分類等各種應用中。因此無論是結構化的表格類型的文檔，還是非結構型的字符類文檔，都有較多的文本相似識別的方法。

然而，含有表格的文檔是企業日常業務中常用的常用格式，往往會包含企業較多的業務信息或敏感數據。例如一份財務報告中，除去描述性文本，報告中的表格或許會包含更多的敏感信息，比如公司的各種財務指標等。這種含有較多表格的非結構化文檔，既不同于結構化文檔，也不同于非結構化文檔，而是一種混合型的文檔。因此在判斷該類型的文檔相似度時，常用于判斷非結構化文檔或者結構化文檔的方法都不能取得很好的效果。因此如何設計一種能很好判斷混合型文檔相似度的方法對于數據防泄漏工程而言非常必要。

現有技術包括的文檔相似度判定是文本信息處理領域的重要技術，比如：

文獻1，申請號：CN201210491145.7，發明名稱：一種文本相似度計算方法；

文獻2，申請號：CN201410491458.1，發明名稱：一種文本特征提取系統和方法。

上述現有技術存在以下缺點：

(1)沒有考慮非結構化文檔中結構化數據的影響。文檔中的數字，比如身份證號、銀行卡號、信用卡校驗碼、手機號碼等是非常重要的數字信息，尤其在進行防數據泄露的過程中，這些特征的重要性遠遠大于關鍵詞。

(2)沒有考慮文檔中的文檔屬性特征。文檔的頁眉，頁腳，作者，備注信息等屬性是判定文檔相似性的重要因素。

(3)沒有考慮關鍵字特征、正則特征和文檔屬性相間的文檔相似度關聯關系。

發明內容

為解決上述技術問題，本發明提供了一種基于文檔混合特征的文檔相似度判定方法，包括以下步驟：

1).對輸入的文件或者數據流進行正則表達式匹配；

2).如果匹配失敗，跳轉到步驟7)，如果匹配成功，得到多種特征，跳轉到步驟3)；

3).對每種特征的特征值進行鏈表管理，形成多個特征鏈表；