[發明專利]一種多維度信息合并方法、裝置、設備及存儲介質有效
| 申請號: | 202011257378.1 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112100318B | 公開(公告)日: | 2021-02-26 |
| 發明(設計)人: | 趙自波;李青龍;駱飛;趙沖 | 申請(專利權)人: | 北京智慧星光信息技術有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F40/216;G06F40/258 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 董永輝;曹素云 |
| 地址: | 100089 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 多維 信息 合并 方法 裝置 設備 存儲 介質 | ||
1.一種多維度信息合并方法,其特征在于,包括:
提取文本的特征主題詞;
對所述特征主題詞分別進行哈希計算,從而得到包含多個哈希值的集合Set-H,對所述集合Set-H中的所有哈希值取和作為主指紋Hash_M;
對所述集合Set-H中的各哈希值進行組合取和作為從指紋集合Set_S,其中,n和m為正整數,mn;
將所述從指紋集合Set_S與主指紋Hash_M合并為并集,將所述并集作為Key、所述主指紋Hash_M作為Value構成鍵值對作為指紋特征子庫;
以所述指紋特征子庫到指紋特征總庫中匹配,若匹配成功,則將所述指紋特征子庫舍棄,若匹配失敗,則將所述特征主題詞的哈希值進行組合取和作為所述指紋特征子庫的Value,并將所述文本的指紋特征子庫添加到指紋特征總庫中,其中,在所述指紋特征總庫中包含有對應多篇文本的指紋特征子庫,
其中,所述從指紋集合Set_S還包括所述文本中字符數超過設定的長度閾值的k句話連接起來計算的哈希值;
所述從指紋集合Set_S還包括所述文本的原貼url計算的哈希值,
所述指紋特征總庫中的各指紋特征子庫在設定時間段內有效,且在有效期內,若有指紋特征子庫匹配上指紋特征總庫中的任一指紋特征子庫,并且所述任一指紋特征子庫的有效期小于設定的到期閾值,則將所述任一指紋特征子庫延長一段時間。
2.根據權利要求1所述的多維度信息合并方法,其特征在于,所述以所述指紋特征子庫到所述指紋特征總庫中匹配是指:
以所述指紋特征子庫中的Key與所述指紋特征總庫中的各指紋特征子庫的Key進行匹配。
3.根據權利要求1所述的多維度信息合并方法,其特征在于,
所述延長一段時間是指延長不少于一小時,且最多延長至有效期不超過72小時,所述到期閾值是不超過一小時。
4.根據權利要求1所述的多維度信息合并方法,其特征在于,
所述提取文本的特征主題詞包括:
采用TF-IDF進行特征主題詞提取。
5.根據權利要求1所述的多維度信息合并方法,其特征在于,
所述指紋特征總庫和指紋特征子庫是redis數據庫。
6.一種多維度信息合并裝置,其特征在于,包括:
主題詞提取模塊,用于提取文本的特征主題詞;
指紋特征子庫構建模塊,用于對所述特征主題詞分別進行哈希計算,從而得到包含多個哈希值的集合Set-H,對所述集合Set-H中的所有哈希值取和作為主指紋Hash_M;對所述集合Set-H中的各哈希值進行組合取和作為從指紋集合Set_S,其中,n和m為正整數,mn;將所述從指紋集合Set_S與主指紋Hash_M合并為并集,將所述并集作為Key、所述主指紋Hash_M作為Value構成鍵值對作為指紋特征子庫;
特征匹配模塊,用于以所述指紋特征子庫到指紋特征總庫中匹配,若匹配成功,則將所述指紋特征子庫舍棄,若匹配失敗,則將所述特征主題詞的哈希值進行組合取和作為所述指紋特征子庫的Value,并將所述文本的指紋特征子庫添加到指紋特征總庫中,其中,在所述指紋特征總庫中包含有對應多篇文本的指紋特征子庫,
其中,所述從指紋集合Set_S還包括所述文本中字符數超過設定的長度閾值的k句話連接起來計算的哈希值;
所述從指紋集合Set_S還包括所述文本的原貼url計算的哈希值,
所述指紋特征總庫中的各指紋特征子庫在設定時間段內有效,且在有效期內,若有指紋特征子庫匹配上指紋特征總庫中的任一指紋特征子庫,并且所述任一指紋特征子庫的有效期小于設定的到期閾值,則將所述任一指紋特征子庫延長一段時間。
7.一種電子設備,其特征在于,所述電子設備包括:
至少一個處理器;以及,
與所述至少一個處理器通信連接的存儲器;其中,
所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行如權利要求1至5中任一所述的多維度信息合并方法。
8.一種計算機可讀存儲介質,存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至5中任一所述的多維度信息合并方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智慧星光信息技術有限公司,未經北京智慧星光信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011257378.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:目標設備識別方法、電子設備及介質
- 下一篇:用于電壓電源低壓檢測的集成電路
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





