[發(fā)明專利]基于spark streaming實時流的特征工程推薦方法及裝置、視頻網(wǎng)站有效
| 申請?zhí)枺?/td> | 201611147453.2 | 申請日: | 2016-12-13 |
| 公開(公告)號: | CN106599182B | 公開(公告)日: | 2019-10-11 |
| 發(fā)明(設計)人: | 劉嚴澤;田文寶;李修鵬;陳福;欣蒞;黨磊;張玲 | 申請(專利權(quán))人: | 飛狐信息技術(shù)(天津)有限公司 |
| 主分類號: | G06F16/78 | 分類號: | G06F16/78 |
| 代理公司: | 天津創(chuàng)智天誠知識產(chǎn)權(quán)代理事務所(普通合伙) 12214 | 代理人: | 周慶路;田陽 |
| 地址: | 300000 天津市濱海新區(qū)天津經(jīng)濟開*** | 國省代碼: | 天津;12 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 sparkstreaming 實時 特征 工程 推薦 方法 裝置 視頻 網(wǎng)站 | ||
1.一種基于spark streaming實時流的特征工程推薦方法,其特征在于,包括,
獲取客戶端的展開日志和點擊日志,清洗后打入分布式消息隊列;
使用spark streaming訂閱展開日志和點擊日志的日志流,在工程中合并兩個日志流中的流數(shù)據(jù);操作流數(shù)據(jù)生成標簽以標識出展開點擊和展開未點擊流數(shù)據(jù);
根據(jù)基礎(chǔ)特征為展開日志和點擊日志構(gòu)造多維特征,同時組合基礎(chǔ)時間特征;
將組合完特征后的流數(shù)據(jù)輸出hdfs和kafka中,在hdfs中基于歷史流數(shù)據(jù)進行GDBT模型訓練并根據(jù)GDBT模型對特征進行特征變換,將變換后特征與hdfs和kafka中的原始特征組合并生成新的特征,
將具有新的特征的流數(shù)據(jù)分別進行離線訓練和在線訓練以生成推薦流數(shù)據(jù)。
2.如權(quán)利要求1所述的基于spark streaming實時流的特征工程推薦方法,其特征在于,所述的多維特征包括用戶等級特征、視頻長短喜好特征、用戶特征、視頻卡片特征和觀影特征,所述的基礎(chǔ)時間特征包括兩維特征以限定到具體時間。
3.如權(quán)利要求1所述的基于spark streaming實時流的特征工程推薦方法,其特征在于,具有新的特征的流數(shù)據(jù)用以進行LR和FTRL的CTR預測模型訓練。
4.如權(quán)利要求1所述的基于spark streaming實時流的特征工程推薦方法,其特征在于,spark streaming接收兩個日志流并生成統(tǒng)一格式的鍵值對流數(shù)據(jù),然后使用union將兩個流數(shù)據(jù)合并,合并后的流數(shù)據(jù)通過reduceByKey操作生成標簽label,出現(xiàn)且被點擊過的視頻標簽置為1否則置為0。
5.如權(quán)利要求1所述的基于spark streaming實時流的特征工程推薦方法,其特征在于,spark streaming的流數(shù)據(jù)處理窗口的大小設成預定時間間隔,同時保留前一個時段的展示日志的流數(shù)據(jù)以待與延遲到達的點擊流數(shù)據(jù)合并。
6.一種基于spark streaming實時流的特征工程推薦裝置,其特征在于,包括,
日志收集清洗模塊,用以獲取客戶端的展開日志和點擊日志,清洗后打入分布式消息隊列;
流數(shù)據(jù)合并模塊,使用spark streaming訂閱展開日志和點擊日志的日志流,在工程中合并兩個日志流中的流數(shù)據(jù)并操作流數(shù)據(jù)生成標簽以標識出展開點擊和展開未點擊流數(shù)據(jù);
基礎(chǔ)特征構(gòu)建模塊,用以根據(jù)基礎(chǔ)特征為展開日志和點擊日志構(gòu)造多維特征,
在線特征構(gòu)建模塊,用以將展開點擊時間作為特征組合至所述的多維特征,
特征變換組合模塊,將組合完特征后的流數(shù)據(jù)輸出hdfs和kafka中,在hdfs中基于歷史流數(shù)據(jù)進行GDBT模型訓練并根據(jù)GDBT模型對特征進行特征變換,將變換后特征與hdfs和kafka中的原始特征組合并生成新的特征,將具有新的特征的流數(shù)據(jù)分別進行離線訓練和在線訓練以生成推薦流數(shù)據(jù)。
7.如權(quán)利要求6所述的基于spark streaming實時流的特征工程推薦裝置,其特征在于,具有新的特征的流數(shù)據(jù)用以進行特征變換以LR和FTRL的CTR預測模型訓練。
8.一種具有如權(quán)利要求6或7所述的特征工程推薦裝置的視頻網(wǎng)站。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于飛狐信息技術(shù)(天津)有限公司,未經(jīng)飛狐信息技術(shù)(天津)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611147453.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種Flume與SparkStreaming整合的方法及系統(tǒng)
- 一種基于流處理的內(nèi)澇數(shù)據(jù)處理系統(tǒng)及其處理方法
- 基于Spark Streaming讀取Kafka數(shù)據(jù)的處理方法
- 一種大規(guī)模電力設備監(jiān)測報警數(shù)據(jù)實時處理方法及系統(tǒng)
- 一種基于Spark流式處理的人臉實時抓拍反饋系統(tǒng)
- 一種數(shù)據(jù)修復方法、電子設備及存儲介質(zhì)
- 一種基于用戶畫像的機器人客服算法
- 一種改進CluStream算法的方法、裝置、設備和介質(zhì)
- 一種基于Sparkstreaming實時處理大批量數(shù)據(jù)的方法
- 一種基于NiFi更新Delta Lake的方法





