[發明專利]基于特征篩選與半監督學習的用戶成長性畫像構建方法有效
| 申請號: | 201811199944.0 | 申請日: | 2018-10-16 |
| 公開(公告)號: | CN109359137B | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 王健;錢凌飛;董哲瑾;林鴻飛 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06K9/62 |
| 代理公司: | 大連星海專利事務所有限公司 21208 | 代理人: | 王樹本;徐雪蓮 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 特征 篩選 監督 學習 用戶 成長 畫像 構建 方法 | ||
本發明涉及一種用戶成長性畫像構建方法,一種基于特征篩選與半監督學習的用戶成長性畫像構建方法,包括以下步驟:(1)對原始用戶數據進行預處理,(2)根據用戶的行為數據,提取用戶的行為特征和時間特征,(3)在行為特征和時間特征上進行特征篩選,(4)使用半監督學習擴大訓練集,(5)訓練一級模型,(6)模型融合,(7)用戶成長值的預測。本發明除了關注用戶的行為特征,還關注了用戶的時間特征,并且使用特征篩選的方法選出其中區分度明顯的特征,結合半監督方法擴充訓練集,最后使用模型融合的方法,提高模型最終的準確率和穩定性。
技術領域
本發明涉及一種用戶成長性畫像構建方法,更具體地說,涉及一種基于特征篩選與半監督學習的用戶成長性畫像構建方法。
背景技術
隨著互聯網行業發展的越來越成熟,現在各大互聯網公司都開始加大力度進行用戶資源的爭奪,而其中重要的一環就是用戶的精準營銷服務。另一方面,用戶畫像在大數據的基礎上,為每個用戶貼上標簽,因此可以看出,用戶畫像是實現精準營銷的一大助力。而用戶的成長性畫像又是用戶畫像中十分重要的一環。用戶的成長值反映了用在社交媒體平臺,如博客、微博等的潛在活躍力。如果可以預測某一話題領域的用戶成長值,那么將有助于前期產品的設計。用戶的成長值預測對于公司產品的設計,用戶運營,精準營銷有很大助力,也因此成為當今國內外研究的重點方向。
目前,對于用戶成長值預測的研究主要是對特征工程的探索。特征工程主要包括用戶的一些基本特征,包括被關注數,被轉發數,被提及數等。這些基本特征都被驗證能較好地對用戶進行分類從而實現精準營銷。此外,還可以根據這些基本特征衍生出新的特征,比如說將關注數,被轉發次數和被提及次數計算成排名來形成新的特征。除了這些基本特征,還有一些用戶的行為特征,比如說登錄次數、關注轉發數量、點贊或點踩數量等,也可以有效地反映出用戶的活躍度等屬性。
目前的研究在提取用戶特征時更多關注的是用戶的行為特征,并且行為特征以‘次數’為主要挖掘對象。而在本發明中,不僅以‘行為次數’為主提取用戶行為特征,還挖掘了時間特征。時間特征可以更全面地反映用戶的回訪率和用戶粘性。相比于多變的行為特征,時間特征更穩定也更有利于模型的穩定性。
在采用監督學習的用戶成長值預測中普遍存在的問題是標注數據不足,標注數據往往需要大量的專家知識,耗費大量的時間才能完成,所以高質量的標注數據往往十分的珍貴,大量的標注數據通常意味著很大的成本。因此本發明采用了半監督學習的方法來解決標注數據不足的問題。
發明內容
為了克服現有技術中存在的不足,本發明目的是提供一種基于特征篩選與半監督學習的用戶成長性畫像構建方法。該方法除了關注用戶的行為特征,還關注了用戶的時間特征,并且使用特征篩選的方法選出其中區分度明顯的特征,結合半監督方法擴充訓練集,最后使用模型融合的方法,提高模型最終的準確率和穩定性。
為了實現上述發明目的,解決已有技術中所存在的問題,本發明采取的技術方案是:一種基于特征篩選與半監督學習的用戶成長性畫像構建方法,包括以下步驟:
步驟1、對原始用戶數據進行預處理,選擇2017全國社會媒體處理大會SMPCUP評測任務CSDN用戶畫像數據集,并對其進行預處理,具體包括以下子步驟:
(a)把9個文件中的用戶數據,包括用戶瀏覽記錄、用戶發文記錄、用戶評論記錄、用戶點贊記錄、用戶點踩記錄、用戶點喜歡記錄、用戶關注記錄、用戶私信記錄以及標注的用戶成長值,通過用戶ID進行整合;
(b)根據用戶的各個行為的時間記錄,統計用戶各個行為的次數,然后對整合、統計之后的用戶數據表的空值進行填充,其中,行為次數的空值使用0填充,時間記錄的空值使用-1填充;
步驟2、根據用戶的行為數據,提取用戶的行為特征和時間特征,具體包括以下子步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811199944.0/2.html,轉載請聲明來源鉆瓜專利網。





