[發明專利]一種相似帖子的確定方法、裝置、存儲介質及終端在審
| 申請號: | 201811570832.1 | 申請日: | 2018-12-21 |
| 公開(公告)號: | CN109670153A | 公開(公告)日: | 2019-04-23 |
| 發明(設計)人: | 王碩碩 | 申請(專利權)人: | 北京城市網鄰信息技術有限公司 |
| 主分類號: | G06F17/22 | 分類號: | G06F17/22;G06F16/31 |
| 代理公司: | 工業和信息化部電子專利中心 11010 | 代理人: | 張然 |
| 地址: | 100015 北京市朝陽區酒仙橋*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 帖子 漢明距離 存儲介質 終端 快速確定 刪除操作 用戶重復 閾值時 去重 預設 刪除 入庫 查詢 | ||
1.一種相似帖子的確定方法,其特征在于,包括:
計算新增帖子的最小哈希簽名值simhash;
將所述新增帖子的simhash值轉換為第一預設位數的二進制字符串,并將所述第一預設位數的二進制字符串均分為預設個數的第二預設位數的二進制字符串;
以所述預設個數中的每個第二預設位數的二進制字符串作為關鍵字,從分布式緩存數據庫分布式緩存數據庫中獲取所述關鍵字對應的值內保存的列表,其中,所述列表中保存有具有相同關鍵字的帖子的simhash值;
計算所述新增帖子的simhash值與所述列表中已存在的每個帖子的simhash值之間的漢明距離;
檢測是否存在與所述新增帖子的simhash值的所述漢明距離大于預設閾值的帖子;
在存在與所述新增帖子的simhash值的所述漢明距離大于所述預設閾值的帖子的情況下,確定所述新增帖子存在相似內容;
在不存在與所述新增帖子的simhash值的所述漢明距離大于所述預設閾值的帖子的情況下,確定所述新增帖子不存在相似內容。
2.如權利要求1所述的確定方法,其特征在于,所述計算新增帖子的最小哈希簽名值simhash,包括:
對所述新增帖子進行分詞,并提取分詞后的所述新增帖子的特征詞,確定所述特征詞的權重值;
根據所述特征詞和所述特征詞的權重值計算所述新增帖子的最小哈希簽名值simhash。
3.如權利要求1所述的確定方法,其特征在于,所述以所述預設個數中的每個第二預設位數的二進制字符串作為關鍵字,從分布式緩存數據庫中獲取所述關鍵字對應的值內保存的列表list之后,還包括:
在每個所述關鍵字對應的值內保存的列表為空的情況下,確定所述新增帖子不存在相似內容。
4.如權利要求1或3中任一項所述的確定方法,其特征在于,所述計算新增帖子的最小哈希簽名值simhash之前,還包括:
計算內容池中所有帖子的最小哈希簽名值simhash;
將所述所有帖子中的每一個帖子的simhash值轉換為第一預設位數的二進制字符串,并將所述第一預設位數的二進制字符串均分為預設個數的第二預設位數的二進制字符串;
將具有相同第二預設位數的二進制字符串的帖子的simhash值存入以所述相同第二預設位數的二進制字符串作為關鍵字的列表中。
5.一種相似帖子的確定裝置,其特征在于,包括:
第一計算模塊,用于計算新增帖子的最小哈希簽名值simhash;
轉換模塊,用于將所述新增帖子的simhash值轉換為第一預設位數的二進制字符串,并將所述第一預設位數的二進制字符串均分為預設個數的第二預設位數的二進制字符串;
獲取模塊,用于以所述預設個數中的每個第二預設位數的二進制字符串作為關鍵字,從分布式緩存數據庫中獲取所述關鍵字對應的值內保存的列表,其中,所述列表中保存有具有相同關鍵字的帖子的simhash值;
第二計算模塊,計算所述新增帖子的simhash值與所述列表中已存在的每個帖子的simhash值之間的漢明距離;
檢測模塊,用于檢測是否存在與所述新增帖子的simhash值的所述漢明距離大于預設閾值的帖子;
確定模塊,用于在存在與所述新增帖子的simhash值的所述漢明距離大于所述預設閾值的帖子的情況下,確定所述新增帖子存在相似內容;在不存在與所述新增帖子的simhash值的所述漢明距離大于所述預設閾值的帖子的情況下,確定所述新增帖子不存在相似內容。
6.如權利要求5所述的確定裝置,其特征在于,所述第一計算模塊,具體用于:
對所述新增帖子進行分詞,并提取分詞后的所述新增帖子的特征詞,確定所述特征詞的權重值;
根據所述特征詞和所述特征詞的權重值計算所述新增帖子的最小哈希簽名值simhash。
7.如權利要求5所述的確定裝置,其特征在于,所述確定模塊,還用于:
在每個所述關鍵字對應的值內保存的列表為空的情況下,確定所述新增帖子不存在相似內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京城市網鄰信息技術有限公司,未經北京城市網鄰信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811570832.1/1.html,轉載請聲明來源鉆瓜專利網。





