[發明專利]基于spark streaming實時流的特征工程推薦方法及裝置、視頻網站有效
| 申請號: | 201611147453.2 | 申請日: | 2016-12-13 |
| 公開(公告)號: | CN106599182B | 公開(公告)日: | 2019-10-11 |
| 發明(設計)人: | 劉嚴澤;田文寶;李修鵬;陳福;欣蒞;黨磊;張玲 | 申請(專利權)人: | 飛狐信息技術(天津)有限公司 |
| 主分類號: | G06F16/78 | 分類號: | G06F16/78 |
| 代理公司: | 天津創智天誠知識產權代理事務所(普通合伙) 12214 | 代理人: | 周慶路;田陽 |
| 地址: | 300000 天津市濱海新區天津經濟開*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 sparkstreaming 實時 特征 工程 推薦 方法 裝置 視頻 網站 | ||
本發明公開了一種基于spark streaming實時流的特征工程推薦方法,包括,獲取客戶端的展開日志和點擊日志,清洗后打入分布式消息隊列;使用spark streaming訂閱展開日志和點擊日志的日志流,在工程中合并兩個日志流中的流數據;操作流數據生成標簽以標識出展開點擊和展開未點擊流數據;根據基礎特征為展開日志和點擊日志構造多維特征,同時組合基礎時間特征;將具有新的特征的流數據分別進行離線訓練和在線訓練以生成推薦流數據。本發明提供了一種廣泛適用大多數領域的特征提取方式,解決了特征工程適用范圍小的問題,并采用以在線為主、離線糾正的方式,解決了特征工程時效性的問題,并經過一些列的特征組合變換來實現特征的有效性和準確性。
技術領域
本發明涉及視頻推薦處理技術領域,特別是涉及一種基于spark streaming實時流的特征工程推薦方法。
背景技術
隨著互聯網2.0時代的全面到來,網絡中充斥的大量的信息數據,如何利用這些龐大而雜亂的數據,從中挖據出有價值的信息成為了熱點話題,這也為數據挖掘中作為一重要分支領域的機器學習帶來了發展的春天。在機器學習技術中,很少有人關注特征工程(Feature Engineering),而更多的去在意模型和算法的選擇與優化,然而,特征是機器學習系統的原材料,對最終模型的影響是毋庸置疑的。
大多數模型都可以通過數據中良好的結構很好的學習,即使不是最優的模型,優質的特征也可以得到不錯的效果。優質特征的靈活性可以讓你使用簡單的模型運算的更快,更容易理解,更容易維護。有這么一句話在業界廣泛流傳:數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。
這就要求存在這樣一套流程,能有效的進行特征提取,并將提取出的原始特征進行特征變換、特征組合等一系列過程,得到優質的特征,來提高機器學習算法模型的準確度。
目前,國內外已經存在很多機器學習領域的特征工程建設,如美團訂單推薦中的特征工程、百度廣告系統的特征工程等。
百度廣告系統的特征工程主要是采用機器學習算法輔助人工抽取的方式,基于大量的經驗挑選出合適的特征并經過大量的特征變換與組合,實現特征的高緯度和精確性,更依賴于特征提取的經驗和多種算法的組合運用。
美團的推薦系統的特征工程建設更具有電商的性質,例如以地理位置為特征構建附近商家推薦的模型等。再根據這些與業務緊密相連的特征,采用多種算法對特征變換與組合來實現特征工程的建設。
傳統的特征工程建設更加依賴于對業務的理解個經驗,經過不斷的實驗性探索得到適合自身領域的特征,而且大多是已離線特征為主,這樣就具有很強的局限性且缺少了時效性,這樣勢必導致特征工程的運用范圍不夠廣泛,且難度較大,不適用于平臺建設和對外推廣。這都不符合如今互聯網時代所要求的生態化、平臺化、共享性、及時性、有效性和方便性,尤其不能滿足視頻類推薦需求。
發明內容
本發明的目的是針對現有技術中存在的技術缺陷,而提供一種基于sparkstreaming實時流的特征工程推薦方法。
為實現本發明的目的所采用的技術方案是:
一種基于spark streaming實時流的特征工程推薦方法,包括,
獲取客戶端的展開日志和點擊日志,清洗后打入分布式消息隊列;
使用spark streaming訂閱展開日志和點擊日志的日志流,在工程中合并兩個日志流中的流數據;操作流數據生成標簽以標識出展開點擊和展開未點擊流數據;
根據基礎特征為展開日志和點擊日志構造多維特征,同時組合基礎時間特征;
將組合完特征后的流數據輸出hdfs和kafka中,在hdfs中基于歷史流數據進行GDBT模型訓練并根據GDBT模型并對特征進行特征變換,將變換后特征與hdfs和kafka中的原始特征組合并生成新的特征,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于飛狐信息技術(天津)有限公司,未經飛狐信息技術(天津)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611147453.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于主題模型的新聞熱點檢測方法
- 下一篇:一種文檔在線預覽方法及系統





