[發明專利]基于Spark Mllib實現的多功能推薦方法及裝置在審
| 申請號: | 202010847896.2 | 申請日: | 2020-08-21 |
| 公開(公告)號: | CN112015736A | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 張旺 | 申請(專利權)人: | 廣州歡網科技有限責任公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2457;G06F16/2458;G06F16/78 |
| 代理公司: | 北京細軟智谷知識產權代理有限責任公司 11471 | 代理人: | 劉明華 |
| 地址: | 510000 廣東省廣州市番禺*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 spark mllib 實現 多功能 推薦 方法 裝置 | ||
本發明涉及一種基于Spark Mllib實現的多功能推薦方法及裝置,包括獲取用戶行為數據,對所述用戶行為數據進行處理得到用戶畫像數據;從mongodb數據庫中獲取節目單數據,對所述節目單數據進行處理得到影視元數據表;根據所述用戶畫像數據和影視元數據表生成數據總表,根據數據總表為預設標簽配置權重,生成數據標簽權重結果;采用余弦相似度算法對數據標簽權重結果進行計算,生成推薦列表。本發明能夠在同一時間內實現多種推薦功能,使得程序的使用范圍更廣,節省人力物力。
技術領域
本發明屬于數據處理技術領域,具體涉及一種基于Spark Mllib實現的多功能推薦方法及裝置。
背景技術
隨著信息技術和互聯網的發展,人們逐漸從信息匱乏的時代走入了信息過載的時代。推薦系統的任務就是聯系用戶和信息,一方面幫助用戶發現對自己有價值的信息,另一方面讓信息能夠展現對它感興趣的用戶面前,從而實現信息消費者和信息生產者的雙贏;推薦系統利用Spark在內存迭代運算、機器學習領域強悍性能的優勢,使用spark處理數據挖掘問題就顯得很有實際價值。
相關技術中,當前業界基于推薦算法開發的推薦系統比較多,例如:基于人口統計學的推薦系統是根據系統用戶的基本屬性發現用戶的相關度,然后將相似用戶喜歡的其他物品推薦給當前用戶;或者基于內容相似度的電影推薦系統是首先按照電影的特征比如類型、導演與主演名稱、時長等建模,實現分類。比如:由于電影A與電影C屬于同一個類型的電影,對于喜歡看電影A的用戶,我們就可以給他推薦類似的電影C;或者基于模型的協同過濾推薦系統是基于樣本的用戶喜好信息,訓練一個模型,然后根據實時的用戶喜好的信息進行預測推薦。
但是現有的推薦系統同一時間內只能實現一種推薦功能,導致最后得到的推薦結果使用范圍單一;若要實現多種功能推薦,則要編寫大量代碼,占用大量人力物力。
發明內容
有鑒于此,本發明的目的在于克服現有技術的不足,提供一種基于Spark Mllib實現的多功能推薦方法及裝置,以解決現有技術中推薦結果單一的問題。
為實現以上目的,本發明采用如下技術方案:一種基于Spark Mllib實現的多功能推薦方法,包括:
獲取用戶行為數據,對所述用戶行為數據進行處理得到用戶畫像數據;
從mongodb數據庫中獲取節目單數據,對所述節目單數據進行處理得到影視元數據表;
根據所述用戶畫像數據和影視元數據表生成數據總表,根據數據總表為預設標簽配置權重,生成數據標簽權重結果;其中,所述預設標簽包括喜劇、恐怖、懸疑、倫理、驚悚、戰爭、劇情、災難;
采用余弦相似度算法對數據標簽權重結果進行計算,生成推薦列表。
進一步的,所述獲取用戶行為數據,包括:
利用flume采集用戶行為數據并存儲至kafka,所述kafka將所述用戶行為數據發送至Hadoop平臺中的hdfs。
進一步的,所述對所述用戶行為數據進行處理得到用戶畫像數據,包括:
Spark Streaming從所述hdfs中拉取所述用戶行為數據并對所述用戶行為數據進行處理,得到用戶行為數據表;
Spark Streaming從mongodb數據庫中獲取節目單數據并對所述節目單數據進行處理,得到節目單表;
根據所述用戶行為數據表和節目單表獲取節目觀看記錄表;
對所述節目觀看記錄表進行拆分統計,得到用戶畫像臨時表;
根據所述用戶畫像臨時表獲取用戶畫像數據。
進一步的,對所述用戶行為數據進行處理,得到用戶行為數據表,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州歡網科技有限責任公司,未經廣州歡網科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010847896.2/2.html,轉載請聲明來源鉆瓜專利網。





