[發明專利]用于大批量文字的相似程度判斷方法在審
| 申請號: | 201710873305.7 | 申請日: | 2017-09-25 |
| 公開(公告)號: | CN107608969A | 公開(公告)日: | 2018-01-19 |
| 發明(設計)人: | 曾傳德 | 申請(專利權)人: | 曾傳德 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610000 四川*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 大批量 文字 相似 程度 判斷 方法 | ||
1.用于大批量文字的相似程度判斷方法,其特征在于,包括以下步驟:
S1:提取文本的特征量和特征量對應的權重值;
S2:將文本的特征量根據權重值構成特征量向量;
S3:對所有的文本特征量提取哈希值,并對文本特征量的哈希值進行疊加形成文本的哈希值;
S4:如果兩個文本的哈希值相同,則認為兩個文本相似。
2.根據權利要求1所述的用于大批量文字的相似程度判斷方法,其特征在于,步驟S3包括以下子步驟:
S31:設置運算矩陣,所述運算矩陣的行數與特征量向量的維度相同,所述運算矩陣的列數與文本特征量的哈希值位數相同,運算矩陣所有的元素初始值為0;
S32:根據文本特征量的哈希值和權重值得出運算矩陣的每一個元素值,每一個元素值一一對應文本特征量的哈希值的位;
S33:將運算矩陣同一列的元素相加得到運算向量;
S34:根據運算向量得到文本的哈希值。
3.根據權利要求2所述的用于大批量文字的相似程度判斷方法,其特征在于,步驟S32包括以下子步驟:
每一個文本特征量的哈希值的任意位為1時,將與該文本特征量的哈希值的位對應的運算矩陣元素賦值為該文本特征量的權重值;
每一個文本特征量的哈希值的任意位為0時,將與該文本特征量的哈希值的位對應的運算矩陣元素賦值為該文本特征量的權重值的負數。
4.根據權利要求2所述的用于大批量文字的相似程度判斷方法,其特征在于,步驟S34包括以下子步驟:
S341:如果運算向量的任意維度為正,則將該維度值替換為1;
S342:如果運算向量的任意維度為負,則將該維度值替換為0;
S343:將運算向量所有的維度排列形成文本的哈希值。
5.根據權利要求1所述的用于大批量文字的相似程度判斷方法,其特征在于,哈希值為二進制數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于曾傳德,未經曾傳德許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710873305.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:面向文本大數據的中文分詞方法、裝置
- 下一篇:詞性標注模型生成方法和裝置





