[發明專利]一種hadoop實現的ItemCF推薦方法在審
| 申請號: | 201610147811.3 | 申請日: | 2016-03-09 |
| 公開(公告)號: | CN107180063A | 公開(公告)日: | 2017-09-19 |
| 發明(設計)人: | 賈春樸;徐寶華;孫玉林;張福元;陳守森 | 申請(專利權)人: | 山東商務職業學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 264000 山東*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 hadoop 實現 itemcf 推薦 方法 | ||
技術領域
本發明涉及一種數據處理方法,尤其涉及一種計算機大數據處理方法。
背景技術
隨著電子商務的快速發展,電子商務網站以其便捷、實惠的特點征服了越來越多的用戶,人們越來越傾向于網上購物。同時,商家所提供的商品種類和數量都急劇增長。海量的商品信息同時呈現使得用戶感覺無所適從,很難從中找到自己真正想要的商品,信息的使用效率反而降低,因此,如何根據每個用戶的偏好信息從電子商務網站海量信息中尋找滿足特定用戶的需求的商品推薦給用戶,已經成為當前一個亟待解決的問題。
發明內容
Hadoop系統是一個分布式存儲和計算平臺,能夠對海量數據進行可靠、高效的處理,其核心架構分為兩部分:Hadoop分布式文系統,簡稱HDFS:Hadoop分布式計算架構MapReduce,用于大數據的計算分析處理。Mahout是Hadoop家族的一員,支持Hadoop的MapReduce實現。并提供一些可擴展的機器學習領域的經典算法,ItemCF是基于項目的協同過濾推薦算法,通過用戶對不同item的評分來評測item之間的相似性,基于item之間的相似性做出推薦。Mahout中實現分布式的ItemCF主要分三步:構建用戶向量、構造同現矩陣、產生推薦結果。
傳統的對基于項目的協同過濾算法實現比較簡單,這樣做使得推薦的結果不夠準確,造成不準確的原因有兩點:
1.相似度的計算只考慮項目被共同評價的次數,不再依賴推薦評分;
2.在最后計算對用戶的預測偏好值時只是簡單的將所有的值加在一起,而沒有對和用戶評分較高的項目相似的項目獎勵推薦值,也沒有對與用戶評分較低的項目相似的項目懲罰推薦值。
針對Mahout中基于項目協同過濾推薦算法不夠準確的問題,本發明提出了基于平均分向量的推薦方法。計算預測評分使用所有用戶對每一個項目的平均評分,構建所有項目的平均分向量,即
其中是第i(i=1,2,...,n)項的平均評分。
重新將預測評分的計算方式更改為下面的計算方式:
其中,j表示的是同現矩陣的行號。
步驟一、搭建Hadoop集群平臺,每臺計算機安裝操作系統和Hadoop軟件。
步驟二、數據預處理,根據要求對項目評分日志進行清洗,刪除與任務不相關的數據并合并某些記錄,對用戶請求頁面時發生錯誤的記錄進行適當的處理。
步驟三:計算項目的平均分向量,使用Map/Reduce將所有用戶對某個商品的評分求均值,輸入數據為用戶的評分日志。
步驟四:構建用戶向量,掃描所有的用戶評分日志,將用戶的評分與項目的平均評分向量作減運算,輸入數據為用戶的評分日志,輸出數據為用戶向量。
步驟五:構建同現矩陣,將上一步驟產生的用戶向量,轉換成同現矩陣,該同現矩陣中的值表示兩個項目被相同用戶喜歡的次數。
步驟六:矩陣乘法,將用戶向量及同現矩陣作矩陣乘法計算用戶對商品的偏好值,使用map函數鏈的方式,將同現矩陣列包裝的map函數及用戶評分分解map函數的輸出作為矩陣部分積輸入。
步驟七:產生推薦:推薦值計算出來后并對推薦值排序。
本發明的顯著效果在于通過提出一種新的基于平均分向量的方法,可以很好的解決Hadoop在基于項目的協同過濾推薦方法中推薦的結果不夠準確的問題。
附圖說明
圖1為本發明的結構圖。
具體實施方式
根據圖1所示,本發明的方法具體為步驟一、搭建Hadoop集群平臺,每臺計算機安裝操作系統和Hadoop軟件,根據Hadoop的要求,保持所有所有機器上Hadoop的部署目錄結構及用戶名的賬號相同。配置SSH無密鑰訪問方式。在Hadoop中,主節點是以SSH的方式來管理各個從節點上的守護進程,因此需要配置SSH使用無密碼公鑰認證的方式。在Hadoop集群的每臺機器上安裝JDK環境,并配置系統的java環境,然后通過Hadoop/config目錄下的hadoop-env.sh中設置Hadoop需要的java環境變量,通過將JAVA_HOME的值來設置java環境變量。配置Hadoop運行參數,主要在core-site.xml,hdfs-site.xml和mapred-site.xml三個文件中配置參數。
步驟二、數據預處理,根據要求對項目評分日志進行清洗,刪除與任務不相關的數據并合并某些記錄,對用戶請求頁面時發生錯誤的記錄進行適當的處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東商務職業學院,未經山東商務職業學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610147811.3/2.html,轉載請聲明來源鉆瓜專利網。





