[發明專利]一種數據處理的方法和裝置有效
| 申請號: | 201611226616.6 | 申請日: | 2016-12-27 |
| 公開(公告)號: | CN106815322B | 公開(公告)日: | 2020-05-22 |
| 發明(設計)人: | 孟令勝 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 | ||
1.一種數據處理的方法,其特征在于,包括:
獲取用戶的訪問信息,根據所述用戶的訪問信息以有向圖形式構建用戶訪問路徑圖,所述用戶訪問路徑圖中包括節點、有向邊、節點的訪問量以及所述有向邊的訪問量,所述有向邊表示其連接的兩個節點間的訪問順序;
從所述用戶訪問路徑圖中選擇任一起始節點作為出發點,經過所述用戶訪問路徑圖中所有的節點,依據預設算法依次計算有向邊的權重,所述起始節點為只有出度的節點;
將所述有向邊連接的兩個節點加入預設隊列;
如果計算出的權重不小于預設值,將當前計算權重的有向邊作為頻繁項加入預設的已選集合;
依據所述預設隊列中的節點、所述已選集合中的有向邊、所述節點的訪問量以及所述有向邊的訪問量,計算得到至少兩個用戶之間的相似度;
其中,所述從所述用戶訪問路徑圖中選擇任一起始節點作為出發點,經過所述用戶訪問路徑圖中所有的節點,依據預設算法依次計算有向邊的權重,包括:
按照用戶訪問路徑圖中任一起始節點對應的任意有向邊的方向,獲取以所述起始節點為起點對應的有向邊為第一有向邊,計算所述第一有向邊的權重;
基于所述第一有向邊的終點對應的節點不是所述用戶訪問路徑圖的結束節點,獲取第二有向邊,所述第二有向邊的起點對應的節點與所述第一有向邊的終點對應的節點相同;判斷所述第二有向邊的終點對應的節點是否在所述預設隊列中;如果是,沿所述第二有向邊的方向回溯至所述第二有向邊的起點對應的節點,并從所述預設隊列中刪除所述第二有向邊的終點;如果否,依據預設算法計算所述第二有向邊的權重;
基于所述第一有向邊的終點對應的節點為所述用戶訪問路徑圖的結束節點,從所述預設隊列中刪除所述第一有向邊的終點對應的節點,所述結束節點為只有入度的節點。
2.根據權利要求1所述的方法,其特征在于,還包括:
如果計算出的權重小于預設值,將當前計算權重的有向邊加入廢棄集合。
3.根據權利要求1所述的方法,其特征在于,還包括:
依據所述預設隊列中的節點、所述已選集合中的有向邊、所述節點的訪問量以及所述有向邊的訪問量建立維度矩陣。
4.根據權利要求1所述的方法,其特征在于,所述依據所述預設隊列中的節點、所述已選集合中的有向邊、所述節點的訪問量以及所述有向邊的訪問量,計算得到至少兩個用戶之間的相似度,包括:
從維度矩陣中獲取任一維度向量,計算所述維度向量的均值和方差,所述維度向量包括節點和/或者有向邊;
依據所述維度向量的均值和方差計算得到所述維度矩陣的稀疏度的第一因素;
依據所述維度矩陣的稀疏度的第一因素以及預設的所述維度矩陣的稀疏度的第二因素,計算得到至少兩個用戶之間的相似度。
5.根據權利要求4所述的方法,其特征在于,所述依據所述維度向量的均值和方差計算得到所述維度矩陣的稀疏度的第一因素,包括:
依據第一用戶的所述維度向量的均值以及第二用戶的所述維度向量的均值,計算得到第一用戶和第二用戶在所述維度向量的均值相似度;
依據第一用戶的所述維度向量的方差以及第二用戶的所述維度向量的方差,計算得到第一用戶和第二用戶在所述維度向量的波動相似度;
依據所述均值相似度和所述波動相似度,計算得到所述維度矩陣的稀疏度的第一因素;
具體采用如下公式:
其中,simm(i,j)表示所述維度矩陣的稀疏度的第一因素,avgi表示向量i的均值,avgj表示向量j的均值,vari表示向量i的方差,varj表示向量j的方差;
其中,表示第一用戶和第二用戶在所述維度向量的均值相似度,表示第一用戶和第二用戶在所述維度向量的波動相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611226616.6/1.html,轉載請聲明來源鉆瓜專利網。





