[發明專利]一種基于文檔混合特征的文檔相似度判定方法和裝置有效
| 申請號: | 201711041146.0 | 申請日: | 2017-10-30 |
| 公開(公告)號: | CN107656909B | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 魏效征;王志海;喻波;安鵬 | 申請(專利權)人: | 北京明朝萬達科技股份有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100097 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文檔 混合 特征 相似 判定 方法 裝置 | ||
本發明公開了一種基于文檔混合特征的文檔相似度判定方法和裝置,該方法包括以下步驟:對輸入的文件或者數據流進行正則表達式匹配;如果匹配失敗,則結束,如果匹配成功,對正則表達式匹配輸出的多個特征字符串進行特征再處理;分別對特征再處理的多個結果進行鏈表管理,形成多個特征鏈表;對多個特征鏈表進行鏈表遍歷和特征歸并處理;輸出相似度判定結果。通過本方案,大大提高結構化文檔中表格數據的識別能力,可以大幅度條excel表格類型的文檔相似度的判定能力,速度更快,容易理解,適合實際業務需要,為數據管控提供了堅實的技術能力。
技術領域
本發明涉及計算機搜索領域,具體涉及一種基于文檔混合特征的文檔相似度判定方法和裝置。
背景技術
文檔相似度判定廣泛應用于互聯搜索、輿情報告、企業分級分類等各種應用中。因此無論是結構化的表格類型的文檔,還是非結構型的字符類文檔,都有較多的文本相似識別的方法。
然而,含有表格的文檔是企業日常業務中常用的常用格式,往往會包含企業較多的業務信息或敏感數據。例如一份財務報告中,除去描述性文本,報告中的表格或許會包含更多的敏感信息,比如公司的各種財務指標等。這種含有較多表格的非結構化文檔,既不同于結構化文檔,也不同于非結構化文檔,而是一種混合型的文檔。因此在判斷該類型的文檔相似度時,常用于判斷非結構化文檔或者結構化文檔的方法都不能取得很好的效果。因此如何設計一種能很好判斷混合型文檔相似度的方法對于數據防泄漏工程而言非常必要。
現有技術包括的文檔相似度判定是文本信息處理領域的重要技術,比如:
文獻1,申請號:CN201210491145.7,發明名稱:一種文本相似度計算方法;
文獻2,申請號:CN201410491458.1,發明名稱:一種文本特征提取系統和方法。
上述現有技術存在以下缺點:
(1)沒有考慮非結構化文檔中結構化數據的影響。文檔中的數字,比如身份證號、銀行卡號、信用卡校驗碼、手機號碼等是非常重要的數字信息,尤其在進行防數據泄露的過程中,這些特征的重要性遠遠大于關鍵詞。
(2)沒有考慮文檔中的文檔屬性特征。文檔的頁眉,頁腳,作者,備注信息等屬性是判定文檔相似性的重要因素。
(3)沒有考慮關鍵字特征、正則特征和文檔屬性相間的文檔相似度關聯關系。
發明內容
為解決上述技術問題,本發明提供了一種基于文檔混合特征的文檔相似度判定方法,包括以下步驟:
1).對輸入的文件或者數據流進行正則表達式匹配;
2).如果匹配失敗,跳轉到步驟7),如果匹配成功,得到多種特征,跳轉到步驟3);
3).對每種特征的特征值進行鏈表管理,形成多個特征鏈表;
4).由所述多個特征鏈表中的特征值及其在鏈表中的位置構成多個特征序列;
5).計算序列之間的相似度;
6).輸出相似度判定結果;
7).結束。
根據本發明的實施例,優選的,步驟2)中如果匹配成功,需要對特征值進行再處理,去除偽特征值。
根據本發明的實施例,優選的,所述步驟5)中通過計算序列之間的K-D距離或者漢明距離判斷序列之間的相似度。
根據本發明的實施例,優選的,所述步驟6)在輸出相似度判定結果之前結合文檔屬性判斷序列之間的相似度。
根據本發明的實施例,優選的,所述步驟6)之后,還需要將判定結果輸入到深度學習或SVM模塊,獲取判定模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明朝萬達科技股份有限公司,未經北京明朝萬達科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711041146.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種微型壓力傳感器
- 下一篇:帶有報警功能的擠出機進料裝置





