[發明專利]一種用戶自然屬性的確定方法和裝置有效
| 申請號: | 201410302923.2 | 申請日: | 2014-06-27 |
| 公開(公告)號: | CN104102819B | 公開(公告)日: | 2017-12-19 |
| 發明(設計)人: | 何飛;傅一峰 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F19/00 | 分類號: | G06F19/00 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司11319 | 代理人: | 蘇培華 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用戶 自然 屬性 確定 方法 裝置 | ||
1.一種用戶自然屬性的確定方法,其特征在于,包括:
根據第一用戶的自然屬性和行為,確定包含所述第一用戶的自然屬性和所述第一用戶的用戶特征向量的樣本,其中,所述第一用戶為已知自然屬性的用戶,所述第一用戶的用戶特征向量中的特征是根據所述第一用戶的行為確定的;
確定所述第一用戶的用戶特征向量中覆蓋率超過N的特征中自然屬性區分度最高的M個特征,其中,所述N為0~1之間的浮點數,M為正整數;
濾除所述第一用戶的用戶特征向量中除所述M個特征之外的特征;
對所述第一用戶的用戶特征向量中的特征進行歸一化處理;
通過包含歸一化處理后的所述第一用戶的用戶特征向量的樣本,獲得每個自然屬性對應的邏輯回歸機器學習模型;
根據第二用戶的行為,確定所述第二用戶的用戶特征向量,其中,所述第二用戶為待確定自然屬性的用戶;
濾除所述第二用戶的用戶特征向量中除所述M個特征之外的特征;
對所述第二用戶的用戶特征向量中的特征進行歸一化處理;
將歸一化處理后的所述第二用戶的用戶特征向量應用到每個自然屬性對應的邏輯回歸機器學習模型中,確定出所述第二用戶的自然屬性。
2.根據權利要求1所述的方法,其特征在于,
對所述第一用戶的用戶特征向量中的特征進行歸一化處理,包括:
使用以下公式對所述第一用戶的用戶特征向量中的特征進行歸一化處理:
其中,sigmoid函數為
其中,tf1為所述第一用戶使用第一特征的頻次,sum_freq1為所述第一用戶的所有特征的頻次之和,total_user是用戶總數,user_uv表示第一特征被user_uv個用戶覆蓋到,scoreuser,feature1為所述第一特征歸一化之后的取值;
對所述第二用戶的用戶特征向量中的特征進行歸一化處理,包括:
使用以下公式對所述第二用戶的用戶特征向量中的特征進行歸一化處理:
其中,tf2為所述第二用戶使用第一特征的頻次,sum_freq2為所述第二用戶的所有特征的頻次之和。
3.根據權利要求1所述的方法,其特征在于,確定所述第一用戶的用戶特征向量中覆蓋率超過N的特征中自然屬性區分度最高的M個特征,包括:
通過以下公式,確定所述用戶向量中的每個特征的覆蓋率covfeature,并過濾掉其中covfeature小于N的特征:
其中,uvfeature是此特征覆蓋的用戶數,uvall是用戶總數;
通過以下公式,確定所述第一用戶的用戶特征向量中覆蓋率超過N的特征中每個特征的自然屬性區分度discrifeature,profile:
其中,i的取值為1~Q,其中Q為當前自然屬性的取值個數,uvi為當前特征在當前自然屬性的第i個取值上的覆蓋人數,ratei為當前自然屬性第i個取值在所有用戶中所占的比例;
選擇所述第一用戶的用戶特征向量中覆蓋率超過N的特征中自然屬性區分度最高的M個特征。
4.根據權利要求1至3中任一項所述的方法,其特征在于,
所述第一用戶為注冊用戶,所述注冊用戶的自然屬性是通過所述注冊用戶的注冊信息得到的;所述行為包括:觀影行為和搜索行為。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410302923.2/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06F 電數字數據處理
G06F19-00 專門適用于特定應用的數字計算或數據處理的設備或方法
G06F19-10 .生物信息學,即計算分子生物學中的遺傳或蛋白質相關的數據處理方法或系統
G06F19-12 ..用于系統生物學的建?;蚍抡妫纾焊怕誓P突騽討B模型,遺傳基因管理網絡,蛋白質交互作用網絡或新陳代謝作用網絡
G06F19-14 ..用于發展或進化的,例如:進化的保存區域決定或進化樹結構
G06F19-16 ..用于分子結構的,例如:結構排序,結構或功能關系,蛋白質折疊,結構域拓撲,用結構數據的藥靶,涉及二維或三維結構的
G06F19-18 ..用于功能性基因組學或蛋白質組學的,例如:基因型–表型關聯,不均衡連接,種群遺傳學,結合位置鑒定,變異發生,基因型或染色體組的注釋,蛋白質相互作用或蛋白質核酸的相互作用





