[發明專利]基于大數據的用戶偏好分析方法與裝置有效
| 申請號: | 201710786530.7 | 申請日: | 2017-09-04 |
| 公開(公告)號: | CN107590224B | 公開(公告)日: | 2021-11-30 |
| 發明(設計)人: | 王穎帥;李曉霞;苗詩雨 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/335;G06F16/2458;G06Q30/02;G06N20/10;G06K9/62 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 闞梓瑄;王衛忠 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 數據 用戶 偏好 分析 方法 裝置 | ||
本公開提供一種基于大數據的用戶偏好分析方法與裝置。方法包括:獲取用戶與內容的交互行為數據,所述內容具有至少一個標簽;對所述交互行為數據進行預處理并生成特征數據集,將所述特征數據集即作為gcForest模型的輸入特征值;將所述gcForest模型中每一層級聯森林輸出的類概率向量與所述特征數據集的特征作為下一層級聯森林的輸入特征;根據所述gcForest模型最后一層級聯森林輸出的類概率向量獲取用戶對所述標簽的偏好概率。本公開提供的用戶偏好分析方法能夠基于大數據樣本提供更精確的用戶偏好分析結果。
技術領域
本公開涉及機器學習技術領域,具體而言,涉及一種基于大數據的用戶偏好分析方法與裝置。
背景技術
隨著互聯網技術的發展,對用戶進行內容個性化推薦越來越普及。以文章推薦為例,通過根據文章內容為每篇文章設置一或多個標簽,并獲取用戶對文章的操作,可以分析出用戶對哪些標簽有偏好,從而可以為用戶推薦這些標簽下的其他文章,提升用戶體驗。
在現有的個性化推薦技術中,分析用戶偏好的方法主要包括基于LR邏輯回歸算法分析法和基于分析師策略對每個特征按照時間權重得出統計公式打分法。在基于LR邏輯回歸算法分析法中,數據分析師需要根據業務經驗分析需要提取哪些特征,以及以何種方式給內容打標簽。在獲得特征和標簽數據后,對不同標簽進行分層抽樣,利用統計分析軟件的邏輯回歸模型獲取各個特征的系數,從而確定用戶標簽偏好得分公式。基于時間權重統計打分法是假設用戶對最近時間選擇的內容比稍遠時間選擇的內容更偏好,從而按照時間權重維護一份數據,即找一個合適的函數確定一年365天每一天的時間權重,最后結合每個特征得出有時間維度的統計公式。
在上述技術中,LR邏輯回歸算法分析法需要分析師根據業務經驗確定每個特征的系數,強依賴于分析師經驗,且每個業務都需要手動分析,效率較低,樣本數小。而由于用戶在不同的時間段對內容的偏好程度不一樣,難以找到最合適的時間權重函數,因此基于時間權重統計打分法也難以精確挖掘用戶偏好。
因此,一種能夠處理大量樣本并提供更準確分析結果的用戶偏好分析方法算法對于提升個性化推薦能力以及提升內容點擊量具有重大意義。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本公開的目的在于提供一種基于大數據的用戶偏好分析方法與裝置,用于至少在一定程度上克服由于相關技術的限制和缺陷而導致的一個或多個問題。
根據本公開實施例的第一方面,提供一種基于大數據的用戶偏好分析方法,包括:獲取用戶與內容的交互行為數據,所述內容具有至少一個標簽;對所述交互行為數據進行預處理并生成特征數據集,將所述特征數據集即作為gcForest模型的輸入特征值;將所述gcForest模型中每一層級聯森林輸出的類概率向量與所述特征數據集的特征作為下一層級聯森林的輸入特征;根據所述gcForest模型最后一層級聯森林輸出的類概率向量獲取用戶對所述標簽的偏好概率。
在本公開的一種示例性實施例中,所述交互行為數據包括用戶在預設時間段內對所述內容的操作的數據,所述數據包括瀏覽數、點贊數、分享數、評論數、查看詳情次數、下單數。
在本公開的一種示例性實施例中,對所述交互行為數據進行預處理包括:判斷所述交互行為數據中是否存在缺失數據,如果存在則補充缺失數據;刪除所述交互行為數據中預設范圍的極大值與極小值;對所述交互行為數據做特征歸一化處理。
在本公開的一種示例性實施例中,對所述交互行為數據進行預處理還包括:根據所述交互行為數據以及當前時間的前一天用戶對所述內容的操作增加一列特征值。
在本公開的一種示例性實施例中,還包括:獲取用戶的實物品類偏好數據;根據所述實物品類偏好數據修正所述用戶對所述標簽的偏好概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710786530.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種建筑工地鋼筋切割機械
- 下一篇:一種拖車繩加工裝置
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





