[發明專利]一種數據處理方法、裝置、及計算機可讀存儲介質在審

申請號：	201711277234.0	申請日：	2017-12-06
公開（公告）號：	CN108320234A	公開（公告）日：	2018-07-24
發明（設計）人：	姜雅文;徐海;張博;李博文;袁蘇文;孫昊;超木日力格;江逸楠	申請（專利權）人：	中國電子科技集團公司電子科學研究院
主分類號：	G06Q50/00	分類號：	G06Q50/00;G06K9/62;H04L12/24
代理公司：	工業和信息化部電子專利中心 11010	代理人：	于金平
地址：	100041 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	相似度社區數據處理中心節點計算機可讀存儲介質數據處理裝置內部節點算法近似網絡
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供了一種數據處理方法，包括以下步驟：將網絡劃分成多個社區；分別計算每個社區中內部節點間的相似度；確定每個社區的中心節點，將隸屬不同社區的節點間的相似度表示為節點對應的社區的中心節點間的相似度。基于上述數據處理方法，本發明還提供了一種數據處理裝置、及計算機可讀存儲介質。本發明的技術方案將網絡劃分成多個社區，降低了數據處理的規模，位于不同社區的節點間的相似度用各自社區的中心節點間的相似度進行近似，精度不受太大的影響，算法的效率大大提升。

技術領域

本發明涉及通訊技術領域，特別涉及一種數據處理方法、裝置、及計算機可讀存儲介質。

背景技術

目前，網絡中兩用戶之間的相似度計算方法有多種，典型的方法包括基于節點局部信息的方法和基于網絡拓撲結構信息的方法。

基于節點局部信息的方法考慮節點的鄰居信息。一般來說，如果網絡中的兩個節點有著相同或者相近的鄰居節點，那么這兩個節點被認為是相似的，基于該思想的相似度構造方法大致有以下三種：

假設Γ_i表示節點i的鄰居集合，|Γ_i|表示該集合的勢，|Γ_i∩Γ_j|表示節點i和節點j共有的鄰居個數。可以定義如下三種相似度：

基于信號傳遞思想將網絡拓撲結構信息轉化為空間向量信息，它的基本思想是將網絡中的節點當作具有接收和發射信號的節點，首先從網絡中任選一個節點v，給v賦一個信號值，然后v向自己和自己的鄰居節點發射該信號值，接到信號的節點記錄并保存相應的信號值，同理，其它的節點也進行同樣的接收和發送信號的過程，如此傳遞下去，經過T次傳遞之后，位于同一個社區里的節點對網絡中其它節點傳遞的信號量是接近的。信號傳遞的過程可以用數學公式表示，即V＝(I+A)^T，I表示單位矩陣，A表示網絡的鄰接矩陣，T表示信號傳遞的次數。信號傳遞T次后，包含n個節點的網絡中的每一個節點的信號量是一個n維向量，它表示的是該節點對網絡其它節點的影響程度，這樣n個節點就有n個n維向量，從而將網絡空間拓撲結構的信息轉化為了向量空間信息，再對其進行標準化之后就可以運用各種空間距離計算相應的相似度矩陣對其進行聚類。

如果一個節點相似于另一個節點的鄰居節點，那么也認為這兩個節點是相似的，基于這個思想，Leicht E.A.等人提出了另一種基于網絡拓撲結構的節點相似度構造方法，簡稱為regular方法:

該方法采用一種迭代的思想，假設A為網絡的鄰接矩陣，T(i)表示中間矩陣，

S_regular＝D^-1*T(t)*D^-1 (6)

其中，I_n表示n*n的單位矩陣，a是一個收斂參數，λ₁是鄰接矩陣的最大特征值，D是對角矩陣，對角線的元素依次是每個節點的度，t表示最大的迭代次數。

但是，在上述的數據處理方法中，由于需要計算大量的位于不同社區節點之間的相似度，導致數據處理規模大、計算量大。

發明內容

為了解決現有技術中用戶相似度計算時數據處理規模大、計算量大的問題，本發明提供了一種數據處理方法、裝置、及計算機可讀存儲介質。

本發明提供的數據處理方法，包括：

將網絡劃分成多個社區；

分別計算每個社區中內部節點間的相似度；

確定每個社區的中心節點，將隸屬不同社區的節點間的相似度表示為所述節點對應的社區的中心節點間的相似度。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。