[發明專利]基于Spark Mllib實現的多功能推薦方法及裝置在審
| 申請號: | 202010847896.2 | 申請日: | 2020-08-21 |
| 公開(公告)號: | CN112015736A | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 張旺 | 申請(專利權)人: | 廣州歡網科技有限責任公司 |
| 主分類號: | G06F16/22 | 分類號: | G06F16/22;G06F16/2457;G06F16/2458;G06F16/78 |
| 代理公司: | 北京細軟智谷知識產權代理有限責任公司 11471 | 代理人: | 劉明華 |
| 地址: | 510000 廣東省廣州市番禺*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 spark mllib 實現 多功能 推薦 方法 裝置 | ||
1.一種基于Spark Mllib實現的多功能推薦方法,其特征在于,包括:
獲取用戶行為數據,對所述用戶行為數據進行處理得到用戶畫像數據;
從mongodb數據庫中獲取節目單數據,對所述節目單數據進行處理得到影視元數據表;
根據所述用戶畫像數據和影視元數據表生成數據總表,根據數據總表為預設標簽配置權重,生成數據標簽權重結果;其中,所述預設標簽包括喜劇、恐怖、懸疑、倫理、驚悚、戰爭、劇情、災難;
采用余弦相似度算法對數據標簽權重結果進行計算,生成推薦列表。
2.根據權利要求1所述的基于Spark Mllib實現的多功能推薦方法,其特征在于,所述獲取用戶行為數據,包括:
利用flume采集用戶行為數據并存儲至kafka,所述kafka將所述用戶行為數據發送至Hadoop平臺中的hdfs。
3.根據權利要求2所述的基于Spark Mllib實現的多功能推薦方法,其特征在于,所述對所述用戶行為數據進行處理得到用戶畫像數據,包括:
Spark Streaming從所述hdfs中拉取所述用戶行為數據并對所述用戶行為數據進行處理,得到用戶行為數據表;
Spark Streaming從mongodb數據庫中獲取節目單數據并對所述節目單數據進行處理,得到節目單表;
根據所述用戶行為數據表和節目單表獲取節目觀看記錄表;
對所述節目觀看記錄表進行拆分統計,得到用戶畫像臨時表;
根據所述用戶畫像臨時表獲取用戶畫像數據。
4.根據權利要求3所述的基于Spark Mllib實現的多功能推薦方法,其特征在于,對所述用戶行為數據進行處理,得到用戶行為數據表,包括:
從所述用戶行為數據中提取第一關鍵字段,得到用戶行為數據表;
所述第一關鍵字段包括:用戶名稱、頻道名稱、觀看時間;
所述對所述節目單數據進行處理,得到節目單表,包括:
從所述節目單數據中提取第二關鍵字段,得到節目單表;
所述第二關鍵字段包括:節目名稱、頻道名稱、預設標簽、開始播放時間、結束播放時間。
5.根據權利要求4所述的基于Spark Mllib實現的多功能推薦方法,其特征在于,所述根據所述用戶行為數據表和節目單表獲取節目觀看記錄表,包括:
判斷頻道名稱和觀看時間是否在節目單的播放時間內,并根據判斷結果得到節目觀看記錄表。
6.根據權利要求4所述的基于Spark Mllib實現的多功能推薦方法,其特征在于,所述對所述節目觀看記錄表進行拆分統計,得到用戶畫像臨時表,包括:
根據標簽對所述節目觀看記錄表進行拆分,得到標簽分組;
根據用戶名稱和標簽分組統計每個用戶對每個標簽分組的觀看次數,得到用戶畫像臨時表。
7.根據權利要求6所述的基于Spark Mllib實現的多功能推薦方法,其特征在于,所述根據所述用戶畫像臨時表獲取用戶畫像數據,包括:
將所述用戶畫像臨時表根據標簽的觀看次數獲取觀看次數排列在前的兩個標簽;
將兩個所述標簽根據用戶名稱進行合并,并添加數據標識,得到用戶畫像數據。
8.根據權利要求1所述的基于Spark Mllib實現的多功能推薦方法,其特征在于,所述生成推薦列表,包括:
被推薦者為節目,推薦列表為節目;
被推薦者為節目,推薦列表為用戶;
被推薦者為用戶,推薦列表為節目;
被推薦者為用戶,推薦列表為用戶。
9.根據權利要求1至8任一項所述的基于Spark Mllib實現的多功能推薦方法,其特征在于,
所述用戶行為數據采用json字符串格式。
10.一種基于Spark Mllib實現的多功能推薦裝置,其特征在于,包括:
獲取模塊,用于獲取用戶行為數據,對所述用戶行為數據進行處理得到用戶畫像數據;
處理模塊,用于從mongodb數據庫中獲取節目單數據,對所述節目單數據進行處理得到影視元數據表;
配置模塊,用于根據所述用戶畫像數據和影視元數據表生成數據總表,根據數據總表為預設標簽配置權重,生成數據標簽權重結果;其中,所述預設標簽包括喜劇、恐怖、懸疑、倫理、驚悚、戰爭、劇情、災難;
生成模塊,用于采用余弦相似度算法對數據標簽權重結果進行計算,生成推薦列表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州歡網科技有限責任公司,未經廣州歡網科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010847896.2/1.html,轉載請聲明來源鉆瓜專利網。





