[發明專利]一種基于余弦相似度算法的查重方法在審
| 申請號: | 202011326607.0 | 申請日: | 2020-11-24 |
| 公開(公告)號: | CN112364647A | 公開(公告)日: | 2021-02-12 |
| 發明(設計)人: | 陳文博;胡微;王鵬;王保強;陳余 | 申請(專利權)人: | 南方電網海南數字電網研究院有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/216 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 陳歡 |
| 地址: | 570100 海*** | 國省代碼: | 海南;46 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 余弦 相似 算法 方法 | ||
1.一種基于余弦相似度算法的查重方法,其特征在于,包括下列步驟:
對待查重文本以及任一待對比文本分別進行分詞處理,形成第一詞集;
對第一詞集進行向量化處理,形成特征向量集;
根據特征向量集,對第一詞集進行第一編碼處理,形成包含若干編碼子集的第二詞集組,對第二詞集組分別進行第二編碼處理,形成包含若干詞頻向量集的第三詞集組;
基于余弦相似度算法,計算兩兩詞頻向量集的余弦相似度;
重復上述步驟,計算待查重文本以及其他待對比文本的余弦相似度,選取余弦相似度最大的待對比文本作為查重結果。
2.根據權利要求1所述的一種基于余弦相似度算法的查重方法,其特征在于,對待查重文本以及任一待對比文本分別進行分詞處理,形成第一詞集,包括:
對待查重文本分詞處理,形成包含多個單詞的第一分詞集,對任一待對比文本進行分詞處理,形成包含多個單詞的第二分詞集;
將第一分詞集、第二分詞集中的單詞進行逐一對比,若存在相同單詞,則選取一個相同單詞放入第一詞集中;
若存在不同單詞,則將不同單詞均放入第一詞集中。
3.根據權利要求2所述的一種基于余弦相似度算法的查重方法,其特征在于,所述分詞處理包括結巴分詞法中的一種或多種。
4.根據權利要求1-3任一項所述的一種基于余弦相似度算法的查重方法,其特征在于,對第一詞集進行向量化處理,形成特征向量集,包括:
對第一詞集中的單詞的出現順序進行數字標號,形成包含單詞以及數字的特征向量集。
5.根據權利要求4所述的一種基于余弦相似度算法的查重方法,其特征在于,所述第一編碼處理包括:
根據特征向量集,將第一分詞集轉換為包含數字的第一編碼子集,將第二分詞集轉換為包含數字的第二編碼子集,所述第一編碼子集、第二編碼子集組成第二詞集組。
6.根據權利要求5所述的一種基于余弦相似度算法的查重方法,其特征在于,第二編碼處理,包括:
對第一編碼子集進行oneHot編碼處理,獲得第一詞頻向量集;
對第二編碼子集進行oneHot編碼處理,獲得第二詞頻向量集;
所述第一詞頻向量集、第二詞頻向量集組成第三詞集組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南方電網海南數字電網研究院有限公司,未經南方電網海南數字電網研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011326607.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種廢舊磷酸鐵鋰電池的綜合回收利用方法
- 下一篇:一種機電產品倉儲箱管理架





