[發明專利]一種基于余弦相似度算法的查重方法在審
| 申請號: | 202011326607.0 | 申請日: | 2020-11-24 |
| 公開(公告)號: | CN112364647A | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 陳文博;胡微;王鵬;王保強;陳余 | 申請(專利權)人: | 南方電網海南數字電網研究院有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 陳歡 |
| 地址: | 570100 海*** | 國省代碼: | 海南;46 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 余弦 相似 算法 方法 | ||
本發明提供一種基于余弦相似度算法的查重方法,包括下列步驟:對待查重文本以及對比文本分別進行分詞處理,形成第一詞集;對第一詞集進行向量化處理,形成特征向量集;根據特征向量集,對第一詞集進行第一編碼處理,形成包含若干編碼子集的第二詞集組,對第二詞集組分別進行第二編碼處理,形成包含若干詞頻向量集的第三詞集組;基于余弦相似度算法,計算兩兩詞頻向量集的余弦相似度,若余弦相似度大于閾值,則將對比文本作為查重結果。
技術領域
本發明涉及數據查重技術領域,尤其涉及一種基于余弦相似度算法的查重方法。
背景技術
隨著計算機文本信息挖掘等各種自然語言處理應用的普及,當今社會對基于文本相似度的文檔檢索系統需求日益增加,同時人們對計算機文本處理也提出了更高的要求。在自然語言處理過程中,經常會涉及到如何度量兩個文本之間的相似性,我們都知道文本是一種高維的語義空間,如何對其進行抽象分解,從而能夠站在數學角度去量化其相似性,是此方法的重點。在相似度檢索領域,現有的相似度檢索方法,要么在檢索效率上存在不足,要么在準確度方面不能令人滿意。
發明內容
本發明的目的在于提供一種基于余弦相似度算法的查重方法,以解決上述背景技術中提出的問題。
本發明是通過以下技術方案實現的:一種基于余弦相似度算法的查重方法,包括下列步驟:
對待查重文本以及對比文本分別進行分詞處理,形成第一詞集;
對第一詞集進行向量化處理,形成特征向量集;
根據特征向量集,對第一詞集進行第一編碼處理,形成包含若干編碼子集的第二詞集組,對第二詞集組分別進行第二編碼處理,形成包含若干詞頻向量集的第三詞集組;
基于余弦相似度算法,計算兩兩詞頻向量集的余弦相似度;
重復上述步驟,計算待查重文本以及其他待對比文本的余弦相似度,選取余弦相似度最大的待對比文本作為查重結果。
優選的,對待查重文本以及對比文本分別進行分詞處理,形成第一詞集,包括:
對待查重文本分詞處理,形成包含多個單詞的第一分詞集,對對比文本進行分詞處理,形成包含多個單詞的第二分詞集;
將第一分詞集、第二分詞集中的單詞進行逐一對比,若存在相同單詞,則選取一個相同單詞放入第一詞集中;
若存在不同單詞,則將不同單詞均放入第一詞集中。
優選的,所述分詞處理包括結巴分詞法中的一種或多種。
優選的,對第一詞集進行向量化處理,形成特征向量集,包括:
對第一詞集中的單詞的出現順序進行數字標號,形成包含單詞以及數字的特征向量集。
優選的,所述第一編碼處理包括:
根據特征向量集,將第一分詞集轉換為包含數字的第一編碼子集,將第二分詞集轉換為包含數字的第二編碼子集,所述第一編碼子集、第二編碼子集組成第二詞集組。
優選的,第二編碼處理,包括:
對第一編碼子集進行oneHot編碼處理,獲得第一詞頻向量集;
對第二編碼子集進行oneHot編碼處理,獲得第二詞頻向量集;
所述第一詞頻向量集、第二詞頻向量集組成第三詞集組。
與現有技術相比,本發明達到的有益效果如下:
本發明提供的一種基于余弦相似度算法的查重方法,可提高系統查重效率及準確率,減少人力資源浪費。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南方電網海南數字電網研究院有限公司,未經南方電網海南數字電網研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011326607.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種廢舊磷酸鐵鋰電池的綜合回收利用方法
- 下一篇:一種機電產品倉儲箱管理架





