[發明專利]一種數據處理的方法和裝置有效
| 申請號: | 201611226616.6 | 申請日: | 2016-12-27 |
| 公開(公告)號: | CN106815322B | 公開(公告)日: | 2020-05-22 |
| 發明(設計)人: | 孟令勝 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王寶筠 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 | ||
本申請提供的一種數據處理的方法中,根據用戶的訪問信息以有向圖形式構建用戶訪問路徑圖,圖中包括節點、有向邊、節點的訪問量以及有向邊的訪問量,有向邊表示其連接的兩個節點間的訪問順序;從用戶訪問路徑圖中選擇一起始節點作為出發點,經過圖中所有節點,并計算有向邊的權重確定頻繁項;依據預設隊列中的所有節點及訪問量、有向邊中的頻繁項,計算得到用戶間的相似度。該方法中結合了用戶范圍路徑圖中有向邊,考慮物品之間的順序關系,增加了不同用戶間的相似度計算的維度,有助于增加相似度計算的準確性,并且考慮到維度中向量的均值與波動性,相比于傳統計算稀疏矩陣相似度方法,大幅度提高計算的效率,同時保證計算結果的準確性。
技術領域
本申請屬于應用于數據處理技術領域,尤其涉及一種數據處理的方法和裝置。
背景技術
隨著信息技術的發展,用戶在瀏覽網上信息時,推薦系統可以根據用戶的喜好推薦相應的物品。
其中,協同過濾算法是推薦系統中最常用的方法之一,其基本思想是具有相似興趣的人會喜歡相同的物品,相似的物品也會被同一個人喜歡,其中最重要的是計算用戶之間、或者物品之間的相似度。
在現有公開的計算方法中,一般是利用(用戶,物品,喜好度)這種三元組來構造用戶物品之間的稀疏矩陣,再利用傳統的相似度計算方法,如Cosine(余弦)夾角,EuclideanDistance(歐幾里得距離)等方法,來計算稀疏矩陣中任意兩個向量之間的相似度。
但是,該方法存在一定的缺陷。以計算用戶之間的相似度為例,由于用戶向量內包含的物品之間都是獨立的,它們的關聯關系無法體現在相似度計算之中,如在網頁瀏覽中,用戶習慣性通過A頁面跳轉到B頁面,或者學計算機的和學金融的人在查找資料時,都可能會通過本專業的資料進而查找到統計方面的書籍,只有書籍的信息,我們沒辦法很好的區分這兩類人。而且,對于計算稀疏矩陣的相似度來說,現有很多的改進方案是通過填充矩陣中缺失值來解決,一般方法有均值填充、簇內平滑、預測值填充等,這些方法也存在簡單粗糙或者運算量大的問題,最主要的是,協同過濾的算法要解決的問題就是填充缺失值,也就是用戶對未知物品的喜好度,這種在計算前就填充上,必然會導致計算的偏差,繼而再循環迭代運算,從而導致運算量迅速增大。
發明內容
有鑒于此,本申請的目的在于提供一種數據處理的方法,以解決現有技術中對相似度進行判斷準確度低的問題。
一種數據處理的方法,包括:
獲取用戶的訪問信息,根據所述用戶的訪問信息以有向圖形式構建用戶訪問路徑圖,所述用戶訪問路徑圖中包括節點、有向邊、節點的訪問量以及所述有向邊的訪問量,所述有向邊表示其連接的兩個節點間的訪問順序;
從所述用戶訪問路徑圖中選擇任一起始節點作為出發點,經過所述用戶訪問路徑圖中所有的節點,依據預設算法依次計算有向邊的權重,所述起始節點為只有出度的節點;
將所述有向邊連接的兩個節點加入預設隊列;
如果計算出的權重不小于預設值,將當前計算權重的有向邊作為頻繁項加入預設的已選集合;
依據所述預設隊列中的節點、所述已選集合中的有向邊、所述節點的訪問量以及所述有向邊的訪問量,計算得到至少兩個用戶之間的相似度。
上述的方法,優選的,還包括:
如果計算出的權重小于預設值,將當前計算權重的有向邊加入廢棄集合。
上述的方法,優選的,還包括:
依據所述預設隊列中的節點、所述已選集合中的有向邊、所述節點的訪問量以及所述有向邊的訪問量建立維度矩陣。
上述的方法,優選的,所述從所述用戶訪問路徑圖中選擇任一起始節點作為出發點,經過所述用戶訪問路徑圖中所有的節點,依據預設算法依次計算有向邊的權重,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611226616.6/2.html,轉載請聲明來源鉆瓜專利網。





