[發明專利]用于確定數據相似度的方法、設備和計算機可讀存儲介質有效
| 申請號: | 201810957255.5 | 申請日: | 2018-08-21 |
| 公開(公告)號: | CN109145162B | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 黃鈴 | 申請(專利權)人: | 慧安金科(北京)科技有限公司 |
| 主分類號: | G06F16/901 | 分類號: | G06F16/901;G06K9/62 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 黃亮 |
| 地址: | 102412 北京市房山*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 確定 數據 相似 方法 設備 計算機 可讀 存儲 介質 | ||
本公開的實施例提出了用于確定數據相似度的方法、設備和計算機可讀存儲介質。該方法包括:確定多個第一數據各自的特征向量;以及基于所述特征向量來確定所述多個第一數據之間的相似度。該設備包括:處理器;存儲器,被配置為存儲指令,所述指令在由所述處理器執行時使得所述處理器:確定多個第一數據各自的特征向量;以及基于所述特征向量來確定所述多個第一數據之間的相似度。
技術領域
本公開涉及數據處理領域,且更具體地涉及用于確定數據相似度的方法和設備。
背景技術
隨著互聯網的日益普及,其已經成為人們在生產生活中不可或缺的一部分。據最新的數據統計表明,在世界人口據估計達到75億以上的情況下,世界平均互聯網用戶比率已接近50%,中國的互聯網用戶比率已超過50%,而發達國家甚至已超過80%。面對如此眾多的互聯網用戶,對于用戶行為的研究已成為重要的課題之一。
用戶行為研究是互聯網領域中近來受到關注的研究方向之一。盡管單個用戶的行為可能很難預測,但通過研究大量用戶的行為模式,可以例如幫助商家更好地推銷商品、幫助社交網站更好地匹配用戶、或者幫助預防和發現惡意用戶。
發明內容
然而目前的用戶行為分析主要采用的還是人工干預的方法。例如,對于社交網站/軟件的違規用戶(例如,發布違規信息的用戶),通常需要其它用戶的舉報并經過網站/軟件的經過訓練的工作人員的審核來確定。此外,對于例如由機器大量注冊的僵尸用戶,目前也只能通過一些簡單的方式(例如,通過注冊用戶的大量重復的IP(網際協議)地址等、或通過校驗碼之類的手段)來對其加以區別或預防。然而,這種簡單的方式在遇到采用代理、跳板等方式的僵尸用戶的情況時,也難以真正發揮作用,通常也還是需要人工最終確認。
考慮到上述人工干預方法難以大規模部署使用,因此需要一種自動化的、多維度的用戶行為分析方案,其可以幫助例如網站/軟件運營者將海量用戶加以分類并簡化后續的處理過程。
為了至少部分解決或減輕上述問題,提供了根據本公開實施例的用于確定數據相似度的方法和設備。以該方法和設備為核心,可以構造出適用于多個領域的自動化多維度的用戶行為分析方案。
根據本公開的第一方面,提供了一種用于確定數據相似度的方法。該方法包括:確定多個第一數據各自的特征向量;以及基于所述特征向量來確定所述多個第一數據之間的相似度。
在一些實施例中,所述多個第一數據是涉及用戶行為的用戶行為數據。在一些實施例中,所述用戶行為數據包括以下至少一項:用戶的注冊信息、用戶的操作信息以及用戶的社交信息。在一些實施例中,確定多個第一數據各自的特征向量的步驟包括:針對所述多個第一數據中的每個第一數據,使用k-gram算法來計算每個第一數據的k-gram;對計算出的k-gram執行djb2散列函數,以將得到散列值作為相應的特征;以及根據得到的特征來形成每個第一數據的相應特征向量。在一些實施例中,所述k-gram算法中使用的系數k為5。在一些實施例中,在基于所述特征向量來確定所述多個第一數據之間的相似度之后,所述方法還包括:確定多個第二數據各自的特征向量;以及基于所述特征向量來確定所述多個第一數據和所述多個第二數據之間的相似度以及所述多個第二數據內的的相似度。在一些實施例中,所述方法還包括:針對所述多個第一數據之間的相似度,采用聚類方法對所述多個第一數據進行分類。在一些實施例中,所述聚類方法是分層聚類方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于慧安金科(北京)科技有限公司,未經慧安金科(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810957255.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:中文地名查詢方法、裝置及設備
- 下一篇:區塊鏈數據縮容方法、裝置及存儲介質
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





