[發(fā)明專利]一種改進(jìn)的SimHash代碼相似度檢測方法在審
| 申請?zhí)枺?/td> | 201611203147.6 | 申請日: | 2016-12-23 |
| 公開(公告)號: | CN106873964A | 公開(公告)日: | 2017-06-20 |
| 發(fā)明(設(shè)計)人: | 陳鐵明;潘永濤;王婷;呂明琪;陳波;江頡 | 申請(專利權(quán))人: | 浙江工業(yè)大學(xué) |
| 主分類號: | G06F9/44 | 分類號: | G06F9/44;G06F17/22 |
| 代理公司: | 杭州斯可睿專利事務(wù)所有限公司33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 改進(jìn) simhash 代碼 相似 檢測 方法 | ||
1.一種改進(jìn)的SimHash代碼相似度檢測方法,包括以下步驟:
1)分詞
給定一段語句,進(jìn)行分詞和特征提取,得到有效的特征向量,然后為每個特征向量設(shè)置權(quán)重;
2)hash
通過hash函數(shù)計算各特征向量的hash值,hash值為二進(jìn)制數(shù)01組成的n-bit簽名;
3)加權(quán)
在hash值的基礎(chǔ)上,給所有的特征向量進(jìn)行加權(quán),即W=hash*weight,且遇到1則hash值與權(quán)值正相乘,遇到0則將hash值與權(quán)值負(fù)相乘,從而得到各個特征向量的加權(quán)結(jié)果;
其特征在于:所述相似度檢測方法還包括以下步驟:
4)合并
將各個特征向量經(jīng)過hash加權(quán)之后的結(jié)果累加,變成只有一個序列串;
5)減值
通過整理分析,選擇一個閾值T,將最后合并得到的結(jié)果序列串每一項減去設(shè)定的閾值T,得到最終的結(jié)果序列串;
6)降維
對于n-bit簽名的累加結(jié)果進(jìn)行降維處理,即對于最終序列串上的每一位,若大于0則置1,否則置0,從而得到該語句的simhash值,最后根據(jù)不同語句的simhash值的海明距離來判斷它們的相似度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工業(yè)大學(xué),未經(jīng)浙江工業(yè)大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611203147.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





