[發明專利]一種用戶行為預測方法及裝置有效
| 申請號: | 201610802500.6 | 申請日: | 2016-09-05 |
| 公開(公告)號: | CN107798332B | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 李長路 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/9535 |
| 代理公司: | 北京中博世達專利商標代理有限公司 11274 | 代理人: | 申健 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用戶 行為 預測 方法 裝置 | ||
1.一種用戶行為預測方法,其特征在于,包括:
獲取第一樣本集中每個特征分別對應的權重;所述第一樣本集包括多個樣本,所述第一樣本集中的每個樣本包括行為標簽和第一特征向量,所述第一特征向量包括多個一階特征和多個高階特征,所述高階特征由所述第一特征向量中的多個一階特征組合而成;
記錄所述第一樣本集中每個特征分別出現的頻次;
確定第一頻次邊界;
修正所述第一樣本集中每個特征分別對應的權重;其中,所述修正具體包括:
減小頻次小于第一頻次邊界的特征分別對應的權重;
根據修正后的所述第一樣本集中每個特征分別對應的權重,預測目標第一特征向量與行為標簽的取值的概率對應關系;
所述確定第一頻次邊界包括:
根據所述第一樣本集中最高階特征出現的頻次的平均值,確定所述第一頻次邊界。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
確定第二頻次邊界,所述第二頻次邊界大于所述第一頻次邊界;
所述修正還包括:
減小頻次大于第二頻次邊界的特征分別對應的權重。
3.根據權利要求2所述的方法,其特征在于,所述確定第二頻次邊界包括:
根據所述第一樣本集中一階特征出現的頻次的平均值,確定所述第二頻次邊界。
4.根據權利要求2或3所述的方法,其特征在于,所述修正具體包括:
將所述第一樣本集中每個特征分別對應的權重乘以抑制因子k,所述抑制因子k表示為:
其中,a表示所述第一頻次邊界,b表示所述第二頻次邊界,Pi表示特征出現的頻次。
5.根據權利要求2或3所述的方法,其特征在于,所述修正具體包括:
將所述第一樣本集中每個特征分別對應的權重乘以抑制因子k,所述抑制因子k表示為:
其中,a表示所述第一頻次邊界,b表示所述第二頻次邊界,Pi表示特征出現的頻次,δ表示大于或者等于1的常數,λ表示大于0的常數。
6.根據權利要求1-3任一項所述的方法,其特征在于,在所述方法之前還包括:
獲取樣本數據,所述樣本數據包括用戶行為、用戶特征、內容特征以及上下文特征;
將所述樣本數據進行關聯生成第二樣本集,所述第二樣本集中的每個樣本包括行為標簽和第二特征向量,所述第二特征向量包括多個一階特征;
根據所述第二樣本集生成第一樣本集,所述第一樣本集中的樣本與所述第二樣本集中的樣本一一對應;其中,對于所述第二樣本集中的任意樣本,將所述第二特征向量中的多個一階特征進行組合生成高階特征,將所述高階特征添加至所述第二特征向量中形成所述第一特征向量,所述第一特征向量與所述行為標簽形成所述第一樣本集中的一個樣本;
根據預設訓練算法,計算所述第一樣本集中每個特征分別對應的權重。
7.根據權利要求1-3任一項所述的方法,其特征在于,在所述預測目標第一特征向量與行為標簽的取值的概率對應關系之前,所述方法還包括:
獲取目標用戶特征、目標內容特征以及目標上下文特征;
根據目標用戶特征、目標內容特征以及目標上下文特征,生成目標第二特征向量,所述目標第二特征向量包括多個一階特征;
將所述目標第二特征向量中的多個一階特征進行組合生成高階特征,并將所述高階特征添加至所述目標第二特征向量中,以生成所述目標第一特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610802500.6/1.html,轉載請聲明來源鉆瓜專利網。





