[發明專利]一種用戶屬性預測模型構建方法和裝置有效
| 申請號: | 201710400378.4 | 申請日: | 2017-05-31 |
| 公開(公告)號: | CN107291840B | 公開(公告)日: | 2020-01-21 |
| 發明(設計)人: | 謝忠玉;鮑昕平;蔡龍軍 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335;G06Q10/04;G06Q50/00 |
| 代理公司: | 11319 北京潤澤恒知識產權代理有限公司 | 代理人: | 莎日娜 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用戶 屬性 預測 模型 構建 方法 裝置 | ||
1.一種用戶屬性預測模型構建方法,其特征在于,所述方法包括:
分別從源樣本集合和目標樣本集合中,獲取源樣本集合原始特征和目標樣本集合原始特征;其中,所述源樣本集合為完成用戶屬性標注的文本數據樣本的樣本集合,所述目標樣本集合為待標注用戶屬性的文本數據樣本的樣本集合;
根據所述源樣本集合原始特征和所述目標樣本集合原始特征的對應關系,生成與所述源樣本集合原始特征對應的源樣本集合擴展特征;所述源樣本集合原始特征和所述源樣本集合擴展特征歸屬于相同的用戶屬性;
采用所述源樣本集合原始特征及所歸屬的用戶屬性,構建第一用戶屬性預測模型,以及,采用所述源樣本集合擴展特征和所歸屬的用戶屬性,構建第二用戶屬性預測模型;
統計所述第一用戶屬性預測模型對輸入的目標樣本集合原始特征的用戶屬性預測結果與實際用戶屬性的第一匹配度,以及,統計所述第二用戶屬性預測模型對輸入的目標樣本集合原始特征的用戶屬性預測結果與實際用戶屬性的第二匹配度;
采用所述第一匹配度和所述第二匹配度,分別配置所述第一用戶屬性預測模型和所述第二用戶屬性預測模型的校正權重;
根據所述第一用戶屬性預測模型及配置的校正權重,及所述第二用戶屬性預測模型及配置的校正權重,構建目標用戶屬性預測模型。
2.根據權利要求1所述的方法,其特征在于,所述源樣本集合包括第一文本平臺上的多個文本樣本,所述目標樣本集合包括第二文本平臺上的多個文本樣本。
3.根據權利要求2所述的方法,其特征在于,所述方法還包括:
在所述源樣本集合和所述目標樣本集合中查找相同的特征作為共同特征,并確定所述共同特征歸屬的用戶屬性;
采用所述共同特征和所歸屬的用戶屬性,構建第三用戶屬性預測模型;
根據所述第三用戶屬性預測模型對輸入的目標樣本集合原始特征的用戶屬性預測結果與實際用戶屬性的匹配度,對所述第三用戶屬性預測模型配置校正權重;
采用所述第三用戶屬性預測模型以及分配的校正權重更新所述目標用戶屬性預測模型。
4.根據權利要求1所述的方法,其特征在于,所述方法還包括:
將所述源樣本集合原始特征和所述源樣本集合擴展特征合并成源樣本集合合并特征;
采用所述源樣本集合合并特征和所歸屬的用戶屬性,構建第四用戶屬性預測模型;
采用所述第四用戶屬性預測模型更新所述目標用戶屬性預測模型。
5.根據權利要求1所述的方法,其特征在于,所述根據所述源樣本集合原始特征和所述目標樣本集合原始特征的對應關系,生成與所述源樣本集合原始特征對應的源樣本集合擴展特征包括:
將在所述源樣本集合原始特征和所述目標樣本集合原始特征中共現的頻率大于第一預設閾值的特征作為支點特征;
確定所述支點特征在所述源樣本集合和所述目標樣本集合中的關聯特征;
將與所述支點特征共現的頻率大于第二預設閾值的關聯特征作為目標關聯特征;
采用所述目標關聯特征生成所述源樣本集合擴展特征。
6.根據權利要求2所述的方法,其特征在于,所述從源樣本集合和目標樣本集合中,分別獲取源樣本集合原始特征和目標樣本集合原始特征包括:
從所述第一文本平臺和所述第二文本平臺上的多個文本樣本中提取多個文本單元,并確定文本單元的文本詞性;
將文本詞性符合預設詞性要求的文本單元提取作為目標文本單元;
計算各目標文本單元的文本特征向量,作為所述源樣本集合原始特征和所述目標樣本集合原始特征。
7.根據權利要求1所述的方法,其特征在于,所述方法還包括:
從所述目標樣本集合中提取歸屬于同一目標用戶的多個待預測特征;
將多個待預測特征輸入至所述目標用戶屬性預測模型,得到針對目標用戶的用戶屬性預測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710400378.4/1.html,轉載請聲明來源鉆瓜專利網。





