[發明專利]一種基于文檔混合特征的文檔相似度判定方法和裝置有效
| 申請號: | 201711041146.0 | 申請日: | 2017-10-30 |
| 公開(公告)號: | CN107656909B | 公開(公告)日: | 2021-06-01 |
| 發明(設計)人: | 魏效征;王志海;喻波;安鵬 | 申請(專利權)人: | 北京明朝萬達科技股份有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100097 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文檔 混合 特征 相似 判定 方法 裝置 | ||
1.一種基于文檔混合特征的文檔相似度判定方法,包括以下步驟:
1).對輸入的文件或者數據流進行正則表達式匹配;
2).如果匹配失敗,跳轉到步驟7),如果匹配成功,得到多種特征,跳轉到步驟3);
3).對每種特征的特征值進行鏈表管理,形成多個特征鏈表;
4).由所述多個特征鏈表中的特征值及其在鏈表中的位置構成多個特征序列;
5).計算序列之間的相似度;
6).輸出相似度判定結果;
7).結束;
所述步驟6)在輸出相似度判定結果之前結合文檔屬性判斷序列之間的相似度;所述文檔屬性包括:文檔作者、標題、摘要、頁眉和頁腳;
所述步驟6)之后,還需要將判定結果輸入到深度學習或SVM模塊,獲取判定模型。
2.根據權利要求1所述的方法,步驟2)中如果匹配成功,需要對特征值進行再處理,去除偽特征值。
3.根據權利要求1所述的方法,所述步驟5)中通過計算序列之間的K-D距離或者漢明距離判斷序列之間的相似度。
4.一種基于文檔混合特征的文檔相似度判定裝置,包括:
正則表達式匹配模塊,對輸入的文件或者數據流進行正則表達式匹配,得到多種特征;
鏈表管理模塊,對每種特征的特征值進行鏈表管理,形成多個特征鏈表;
特征序列生成模塊,由所述多個特征鏈表中的特征值及其在鏈表中的位置構成多個特征序列;
相似度計算模塊,計算序列之間的相似度;
結果輸出模塊,輸出相似度判定結果;
結果輸出模塊在輸出相似度判定結果之前結合文檔屬性判斷序列之間的相似度;所述文檔屬性包括:文檔作者、標題、摘要、頁眉和頁腳;
還包括判定模型形成模塊,需要將判定結果輸入到深度學習或SVM模塊,獲取判定模型。
5.根據權利要求4所述的裝置,還包括特征再處理模塊,對特征值進行再處理,去除偽特征值。
6.一種計算機存儲介質,其包括有計算機程序指令,通過執行所述計算機程序指令,實現權利要求1-3之一的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京明朝萬達科技股份有限公司,未經北京明朝萬達科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711041146.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種微型壓力傳感器
- 下一篇:帶有報警功能的擠出機進料裝置





