[發明專利]基于特征篩選與半監督學習的用戶成長性畫像構建方法有效
| 申請號: | 201811199944.0 | 申請日: | 2018-10-16 |
| 公開(公告)號: | CN109359137B | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 王健;錢凌飛;董哲瑾;林鴻飛 | 申請(專利權)人: | 大連理工大學 |
| 主分類號: | G06F16/2458 | 分類號: | G06F16/2458;G06K9/62 |
| 代理公司: | 大連星海專利事務所有限公司 21208 | 代理人: | 王樹本;徐雪蓮 |
| 地址: | 116024 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 特征 篩選 監督 學習 用戶 成長 畫像 構建 方法 | ||
1.一種基于特征篩選與半監督學習的用戶成長性畫像構建方法,其特征在于包括以下步驟:
步驟1、對原始用戶數據進行預處理,選擇2017全國社會媒體處理大會SMP CUP評測任務CSDN用戶畫像數據集,并對其進行預處理,具體包括以下子步驟:
(a)把用戶畫像數據集中的用戶數據,包括用戶瀏覽記錄、用戶發文記錄、用戶評論記錄、用戶點贊記錄、用戶點踩記錄、用戶點喜歡記錄、用戶關注記錄、用戶私信記錄以及標注的用戶成長值,通過用戶ID進行整合;
(b)根據用戶的各個行為的時間記錄,統計用戶各個行為的次數,然后對整合、統計之后的用戶數據表的空值進行填充,其中,行為次數的空值使用0填充,時間記錄的空值使用-1填充;
步驟2、根據用戶的行為數據,提取用戶的行為特征和時間特征,具體包括以下子步驟:
(a)提取統計得到的用戶瀏覽次數、用戶發文次數、用戶評論次數、用戶點贊次數、用戶點踩次數、用戶點喜歡次數、用戶關注次數和用戶私信次數作為用戶的八個行為特征;
(b)抽取用戶一年的活躍天數作為一個時間特征,另外,根據用戶的所有活動時間記錄,統計用戶的活躍月份數,然后加上用戶最開始的活躍月份,作為修正的活躍月數特征,最后提取用戶的最后活躍時間,把用戶最后活躍時間與用戶所有行為次數之和分別歸一化后相加,作為修正的用戶最后活躍時間特征,一共形成三個用戶時間特征,即用戶一年的活躍天數,修正的活躍月數,修正的用戶最后活躍時間三用戶時間特征;
步驟3、在行為特征和時間特征上進行特征篩選,具體包括以下子步驟:
(a)通過L1范數進行特征篩選,使用支持向量機回歸SVR模型,設置懲罰項為L1,使用的目標函數通過公式(1)進行描述,
其中,表示SVR原有的成本項,w表示特征的權重,||w||1表示w的L1范數,由于L1范數非0,所以添加L1正則項之后會迫使不重要特征的權重趨于0,之后篩選掉特征權重小于預先設定的閾值10-5的特征;
(b)通過樹模型進行特征篩選,使用梯度提升樹GBT訓練模型,然后計算每個特征在所有樹中的重要度平均值,把權重低于平均值的特征篩選掉;
步驟4、使用半監督學習擴大訓練集,采用SVR訓練樣本預測未標注數據的成長值,然后使用基于協同訓練的半監督回歸算法COREG來擴大訓練集,具體操作是使用公式(2)來計算預測的未標注樣本成長值的置信度Δxu,
其中,xi表示已標注的樣本,h表示用已標注的樣本學習得到的SVR模型,Ω表示每一個待測樣本的k個鄰近結點組成的集合,這里k取7,yi表示已標注樣本的真實值,H表示將未標注樣本點(xu,yu)加入訓練集后訓練得到的SVR模型,最后取Δxu值最大的前1/8個未標注樣本和其預測結果,將其當作已標注數據,來達到擴充訓練樣本的目的;
步驟5、訓練一級模型,共有如下5個一級模型:
(a)使用全部的行為特征訓練GBT模型;
(b)使用基于樹模型篩選后的用戶行為特征和時間特征,訓練SVR模型;
(c)使用基于樹模型篩選后的用戶行為特征和時間特征,再結合半監督學習,訓練隨機森林RF回歸模型;
(d)使用基于樹模型篩選后的用戶行為特征和時間特征,再結合半監督學習,訓練k鄰近KNN回歸模型;
(e)使用基于樹模型篩選后的用戶行為特征和時間特征,再結合半監督學習,訓練更多樹回歸ETR模型;
步驟6、模型融合,使用stacking方法融合上述5個一級模型,將上述5個一級模型的輸出結果輸入GBT模型進行融合;
步驟7、用戶成長值的預測,利用步驟6得到的模型,在未標注數據上進行預測,得到未標注用戶的成長值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于大連理工大學,未經大連理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811199944.0/1.html,轉載請聲明來源鉆瓜專利網。





