[發明專利]一種基于余弦相似度算法的查重方法在審

申請號：	202011326607.0	申請日：	2020-11-24
公開（公告）號：	CN112364647A	公開（公告）日：	2021-02-12
發明（設計）人：	陳文博;胡微;王鵬;王保強;陳余	申請（專利權）人：	南方電網海南數字電網研究院有限公司
主分類號：	G06F40/289	分類號：	G06F40/289;G06F40/216
代理公司：	廣州三環專利商標代理有限公司 44202	代理人：	陳歡
地址：	570100 海***	國省代碼：	海南;46
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于余弦相似算法方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供一種基于余弦相似度算法的查重方法，包括下列步驟：對待查重文本以及對比文本分別進行分詞處理，形成第一詞集；對第一詞集進行向量化處理，形成特征向量集；根據特征向量集，對第一詞集進行第一編碼處理，形成包含若干編碼子集的第二詞集組，對第二詞集組分別進行第二編碼處理，形成包含若干詞頻向量集的第三詞集組；基于余弦相似度算法，計算兩兩詞頻向量集的余弦相似度，若余弦相似度大于閾值，則將對比文本作為查重結果。

技術領域

本發明涉及數據查重技術領域，尤其涉及一種基于余弦相似度算法的查重方法。

背景技術

隨著計算機文本信息挖掘等各種自然語言處理應用的普及，當今社會對基于文本相似度的文檔檢索系統需求日益增加，同時人們對計算機文本處理也提出了更高的要求。在自然語言處理過程中，經常會涉及到如何度量兩個文本之間的相似性，我們都知道文本是一種高維的語義空間，如何對其進行抽象分解，從而能夠站在數學角度去量化其相似性，是此方法的重點。在相似度檢索領域，現有的相似度檢索方法，要么在檢索效率上存在不足，要么在準確度方面不能令人滿意。

發明內容

本發明的目的在于提供一種基于余弦相似度算法的查重方法，以解決上述背景技術中提出的問題。

本發明是通過以下技術方案實現的：一種基于余弦相似度算法的查重方法，包括下列步驟：

對待查重文本以及對比文本分別進行分詞處理，形成第一詞集；

對第一詞集進行向量化處理，形成特征向量集；

根據特征向量集，對第一詞集進行第一編碼處理，形成包含若干編碼子集的第二詞集組，對第二詞集組分別進行第二編碼處理，形成包含若干詞頻向量集的第三詞集組；

基于余弦相似度算法，計算兩兩詞頻向量集的余弦相似度；

重復上述步驟，計算待查重文本以及其他待對比文本的余弦相似度，選取余弦相似度最大的待對比文本作為查重結果。

優選的，對待查重文本以及對比文本分別進行分詞處理，形成第一詞集，包括：

對待查重文本分詞處理，形成包含多個單詞的第一分詞集，對對比文本進行分詞處理，形成包含多個單詞的第二分詞集；

將第一分詞集、第二分詞集中的單詞進行逐一對比，若存在相同單詞，則選取一個相同單詞放入第一詞集中；

若存在不同單詞，則將不同單詞均放入第一詞集中。