[發(fā)明專利]基于計算機系統(tǒng)的推薦方法及其裝置在審
| 申請?zhí)枺?/td> | 201410736666.3 | 申請日: | 2014-12-04 |
| 公開(公告)號: | CN105718488A | 公開(公告)日: | 2016-06-29 |
| 發(fā)明(設計)人: | 潘曉彤;金柯;劉忠義;魏虎 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海一平知識產權代理有限公司 31266 | 代理人: | 須一平;成春榮 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 計算機系統(tǒng) 推薦 方法 及其 裝置 | ||
技術領域
本發(fā)明涉及以計算機系統(tǒng)實現(xiàn)的推薦技術,特別涉及基于計算機系統(tǒng) 的推薦方法及其裝置。
背景技術
推薦算法通常分為基于內容的推薦,基于關聯(lián)規(guī)則的推薦,基于協(xié)同 過濾推薦,以及一些基本方法的組合。然而,本發(fā)明的發(fā)明人發(fā)現(xiàn),當前 CF(CollaborativeFiltering,協(xié)同過濾)算法存在一些問題,特別是在分布 式環(huán)境下,有些問題更加明顯,從CF運行邏輯來理解,算法瓶頸主要在以 下三個地方:
第一點存在于數據規(guī)模中,無論哪次推薦,分布式框架的每個計算節(jié) 點都要保留全局數據,因為每個reducer不能提前得知當前節(jié)點被分配的是 哪些用戶,所以只存儲局部數據會影響數據精度。這時每個reducer就被實 例化為一個小型的推薦場景。假設共有t單位的計算資源,則全局數據被冗 余存儲了t-1份,同時每個reducer在真正的推薦過程中只會遇到小部分數 據計算,其它數據也會造成極大的資源浪費。因此當數據規(guī)模較大時,無論 從時間上還是存儲上,對每個計算節(jié)點都是巨大的負擔。在我們的實驗過程 中,由于編程語言以及編譯器的本地設計,當用戶或者項目任一數據量超過 千萬級時,必然會出現(xiàn)數組過大越界問題,當用戶或者項目任一數據量在千 萬級別時,則由于集群中各個計算節(jié)點的配置參差不齊,有些低配節(jié)點就會 出現(xiàn)內存不足問題。
第二點為數據傾斜問題。從CF算法過程來看,無論是基于項目還是基 于用戶,我們都需要計算項目之間的相似度。這里存在一個隱蔽的問題:實 際應用場景中,有些項目屬于”活躍份子”,有些屬于”不活躍份子”,例如在 使用MapReduceframework時,在<key,value>數據schema(模式)下, 有些key對應的value會很多,有些會很少,這種數量不一致,參差不齊的 情況,稱為數據傾斜(dataskew)。當value數量在不同key之間相差3個以 上數量級時,在計算項目之間相似度過程中就會造成嚴重的數據傾斜,”活 躍份子”導致計算時間長尾。同理,在推薦過程中,有些用戶之前積累的行 為多,有些用戶之前積累的行為少,這時”活躍用戶”就會拖累整體計算過 程。
第三點為數據稀疏問題。在對象集合中,產生關系的對象對很少;可 以理解為把所有對象劃分為一個矩陣,其中(i,j)表示第i個用戶和第j個項目 之間的關系,如果大多數點均為0(表示沒有關系),則定義為數據稀疏。數 據稠密與之相反。特別是初始數據往往是不完全的,這時在計算項目之間相 似度時就很容易出現(xiàn)數據稀疏問題,即用戶項目矩陣的大部分位置都是0。
發(fā)明內容
本發(fā)明的目的在于提供一種基于計算機系統(tǒng)的推薦方法及其裝置,可 以在大數據下實現(xiàn)高效的推薦方法,保證了系統(tǒng)的穩(wěn)定性和推薦的多樣性。
為解決上述技術問題,本發(fā)明的實施方式公開了一種基于計算機系統(tǒng) 的推薦方法,該方法包括以下步驟:
獲取各用戶對各項目的項目評分記錄;
根據每個用戶的項目評分記錄進行聚類,將用戶特征數據劃分到R個類 別中,R是大于1的整數;
在每個類別的用戶特征數據中,基于項目為目標用戶推薦項目。
本發(fā)明的實施方式還公開了一種基于計算機系統(tǒng)的推薦裝置,裝置包 括:
用戶項目初始關系計算模塊,用于獲取各用戶對各項目的項目評分記 錄;
聚類模塊,用于根據用戶項目初始關系計算模塊獲取的每個用戶的項 目評分記錄進行聚類,將用戶特征數據劃分到R個類別中,R是大于1的整 數;以及
推薦模塊,用于在聚類模塊所劃分的每個類別的用戶特征數據中,基 于項目為目標用戶推薦項目。
本發(fā)明實施方式與現(xiàn)有技術相比,主要區(qū)別及其效果在于:
在本發(fā)明的推薦方法中,先根據每個用戶的項目評分記錄進行聚類,將 用戶特征數據劃分到多個類別中,再在每個類別的用戶特征數據中基于項目 為目標用戶推薦項目,可以在大數據下實現(xiàn)高效的推薦方法,保證了系統(tǒng)的 穩(wěn)定性和推薦的多樣性。
進一步地,每個計算節(jié)點不需要保存所有類別的用戶特征數據,避免 了內存不足的問題。
進一步地,對于每個類別中的每個項目或每個用戶,只選取與其關系 最強的幾個項目,而不是保留與其有關系的所有項目,可以避免關系較弱的 項目產生的數據傾斜問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410736666.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于決策樹的搜索結果排序方法及其裝置
- 下一篇:降溫過濾箱體
- 允許服務器遠程訪問未通電的客戶計算機系統(tǒng)資產信息的數據處理系統(tǒng)和方法
- 無需用戶參與自動處理推送的信息的方法、系統(tǒng)與程序
- 在客戶計算機系統(tǒng)中遠程禁止網絡活動的數據處理系統(tǒng)和方法
- 在客戶計算機系統(tǒng)中遠程禁止網絡活動的數據處理系統(tǒng)和方法
- 分配用于多方應用層會話的資格信息
- 分配用于多方應用層會話的資格信息
- 一種用于多層次對話的調節(jié)計算機系統(tǒng)的方法
- 一種使用混合云計算系統(tǒng)進行通信的方法
- 遠程禁止客戶計算機系統(tǒng)的數據處理系統(tǒng)和方法
- 在客戶計算機系統(tǒng)中遠程禁止網絡活動的數據處理系統(tǒng)和方法





