[發明專利]一種相似文本檢測方法、裝置、電子設備及存儲介質在審
| 申請號: | 202010191122.9 | 申請日: | 2020-03-18 |
| 公開(公告)號: | CN111382233A | 公開(公告)日: | 2020-07-07 |
| 發明(設計)人: | 王正 | 申請(專利權)人: | 深圳市隨金科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆;潘登 |
| 地址: | 518000 廣東省深圳市南山區粵海*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 相似 文本 檢測 方法 裝置 電子設備 存儲 介質 | ||
1.一種相似文本檢測方法,其特征在于,包括:
確定給定文本的文本指紋;
統計所述文本指紋中第一標識的總個數或者第二標識的總個數;
基于所述第一標識的總個數或者第二標識的總個數,以及設定海明距離閾值對待檢測文本進行篩選,得到所述給定文本的可能相似文本集;
針對所述可能相似文本集中的每個待檢測文本,基于文本指紋之間的海明距離確定所述給定文本的準相似文本。
2.根據權利要求1所述的方法,其特征在于,所述基于所述第一標識的總個數或者第二標識的總個數,以及設定海明距離閾值對待檢測文本進行篩選,得到所述給定文本的可能相似文本集,包括:
從所述待檢測文本中確定文本指紋中第一標識的總個數處于區間(N-M,N+M)的目標文本;
將所述目標文本確定為所述可能相似文本集;
其中,N表示所述第一標識的總個數,M表示設定海明距離閾值。
3.根據權利要求1或2所述的方法,其特征在于,還包括:
在對所述待檢測文本進行存儲時,分別存儲所述待檢測文本的文本指紋以及文本指紋中第一標識的總個數或者第二標識的總個數。
4.根據權利要求1或2所述的方法,其特征在于,所述確定給定文本的文本指紋,包括:
基于Simhash算法計算給定文本的文本指紋。
5.根據權利要求1或2所述的方法,其特征在于,所述針對所述可能相似文本集中的每個待檢測文本,基于文本指紋之間的海明距離確定所述給定文本的準相似文本,包括:
針對所述可能相似文本集中的每個待檢測文本,計算當前待檢測文本的文本指紋與所述給定文本的文本指紋之間的海明距離;
若所述海明距離小于設定海明距離閾值,則確定當前待檢測文本為所述給定文本的準相似文本。
6.根據權利要求5所述的方法,其特征在于,所述計算當前待檢測文本的文本指紋與所述給定文本的文本指紋之間的海明距離,包括:
對當前待檢測文本的文本指紋與所述給定文本的文本指紋進行逐位比較,若在比較位兩者取值不相同,則比較結果為第一標識,若在比較位兩者取值相同,則比較結果為第二標識;
比較結果為第一標識的個數為當前待檢測文本的文本指紋與所述給定文本的文本指紋之間的海明距離。
7.一種相似文本檢測裝置,其特征在于,包括:
確定模塊,用于確定給定文本的文本指紋;
統計模塊,用于統計所述文本指紋中第一標識的總個數或者第二標識的總個數;
篩選模塊,用于基于所述第一標識的總個數或者第二標識的總個數,以及設定海明距離閾值對待檢測文本進行篩選,得到所述給定文本的可能相似文本集;
檢測模塊,用于針對所述可能相似文本集中的每個待檢測文本,基于文本指紋之間的海明距離確定所述給定文本的準相似文本。
8.根據權利要求7所述的裝置,其特征在于,所述篩選模塊用于:
從所述待檢測文本中確定文本指紋中第一標識的總個數處于區間(N-M,N+M)的目標文本;
將所述目標文本確定為所述可能相似文本集;
其中,N表示所述第一標識的總個數,M表示設定海明距離閾值。
9.一種電子設備,其特征在于,所述電子設備包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如權利要求1-6中任一項所述的相似文本檢測方法。
10.一種包含計算機可執行指令的存儲介質,所述計算機可執行指令在由計算機處理器執行時用于執行如權利要求1-6中任一項所述的相似文本檢測方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市隨金科技有限公司,未經深圳市隨金科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010191122.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種混凝土添加劑干燥處理方法
- 下一篇:一種太陽電池串聯焊接設備及其使用方法





