[發明專利]一種基于特征組合與表示學習的點擊轉化率預測方法有效
| 申請號: | 202011207345.6 | 申請日: | 2020-11-03 |
| 公開(公告)號: | CN112270570B | 公開(公告)日: | 2022-03-11 |
| 發明(設計)人: | 曾楊;肖云鵬;李暾;劉紅;桑春艷;周由勝;劉宴兵 | 申請(專利權)人: | 重慶郵電大學 |
| 主分類號: | G06Q30/02 | 分類號: | G06Q30/02;G06Q30/06;G06Q10/04;G06N3/08;G06F40/289;G06F40/216;G06F16/2458 |
| 代理公司: | 重慶輝騰律師事務所 50215 | 代理人: | 王海軍 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 組合 表示 學習 點擊 轉化 預測 方法 | ||
1.一種基于特征組合與表示學習的點擊轉化率預測方法,其特征在于,具體包括以下步驟:
S1、獲取書城電商平臺銷售數據和基礎數據,包括用戶數據和書籍數據;
S2、通過表示學習與特征組合的方法獲取用戶數據和書籍數據中的隱藏的屬性特征;具體包括以下步驟:
S21、構建圖書-用戶-活動特征矩陣Triad=[boi,bui,ai];
S22、根據用戶行為計算用戶對圖書的關注度,表示為Attentionub=tstay(boi)*Num(click(boi))*fav;
S23、根據營銷活動內用戶的參與行為構建營銷活動影響因子,表示為
S24、根據書籍數據構建圖書長文本內容集合,表示為TL={(bi,co,ti)|bi∈(Pb∪Lb)};
其中,boi為用戶瀏覽的記錄,bui表示參與活動的所有用戶,ai表示一次營銷活動;tstay(bo)表示用戶在該圖書間停留時間,Num(click(bo))表示用戶對該圖書的點擊次數,fav表示用戶對該圖書的收藏標志,且當用戶收藏該圖書時,標志值為1,否則值為0.1;ci為營銷活動序號,Num(history(ai))表示活動時間內參與活動的人數,T表示活動持續時間,Discount表示活動具體內容;boi表示圖書節點;co表示圖書簡介內容;ti表示圖書標題內容;Pb為瀏覽且購買圖書,Lb為瀏覽未購買圖書;
S3、通過與特征組合與表示學習的聯合訓練建立預測模型,即包括以下步驟:
S30、構建用戶-圖書-營銷活動三部圖網絡,該三部圖表示為:GBBA={Bu∪Bk∪A,MBB∪MBA},其中Bu,Bk,A分別表示購書用戶,圖書,營銷活動;MBB為用戶、圖書之間的鄰接矩陣,aij為矩陣MBB中的元素;如果用戶Bui購買了圖書Bki,aij=1則,否則,aij=0;MBA為圖書、活動之間的鄰接矩陣,bjk為矩陣MBA中的元素,如果活動Ai包含圖書Boi,則bjk=1,否則bjk=0;
S31、用戶-圖書-營銷活動特征組合進行特征組合以及特征分解后的再組合,獲取圖書的文本tag特征;即包括以下步驟:
S311、針對圖書的標題文本以及簡介文本TL進行jieba分詞、詞性標注和過濾停用詞,得到標題的候選關鍵詞Ttitle;
S312、針對圖書的簡介文本,構建詞圖G=(V,E),計算每個分詞的權重并進行排序,選擇權重最大K個詞作為候選關鍵詞Tcontext,V表示詞語節點,E表示詞語間的邊;
S313、以Tcand=Ttitle+Tcontext作為一本書籍的候選詞組;
S314、將所有用戶書評進行jieba分詞得到書評詞組詞典,將每一個候選關鍵詞在詞典內進行詞頻計算,排序篩選出詞頻最高的m個詞;
S315、計算候選關鍵詞在書評文本中的出現詞頻進行排序獲得圖書的文本tag特征,該tag特征即為完整特征組合空間;圖書的文本tag特征表示為:
tags=Maxcount=m(freq(Tcand)br);
其中,freq(Tcond)br為詞頻從高到低的詞組列表;
S32、基于文本tag特征,將三部圖用戶-圖書-營銷活動TriadBBA的嵌入向量矩陣W0擴充為嵌入向量矩陣W′0,獲取構建完整特征組合空間;
S33、基于BBA2vec算法將用戶與圖書通過時間與購買記錄構造的特征空間進行向量表示;具體包括:
S331、將三部圖用戶-圖書-營銷活動轉化為圖GBBA=(BΔt,E),計算邊權重w(ai,boi,bui),表示為
S332、利用邊權重與兩個圖書節點之間的搜索偏差的乘積作為圖書的活躍度轉移概率,即圖書的轉移概率表示為:
其中,o(bx,bi)為游走搜索偏差,即圖書的活躍度;p為返回概率;q為出入參數;pop(boi)為圖書節點boi熱度值;pop(box)為圖書節點box熱度值;decay(boi-1,boi)為圖書熱度動態衰減函數,表示為和分別為購書用戶對上一個圖書節點的瀏覽時間和對當前圖書節點的瀏覽時間,w為邊權重w(ai,boi,bui)的簡寫;表示圖書節點boi到圖書節點box的距離;
S332、利用圖書的轉移概率決定搜索行走路徑,并利用該路徑作為用戶-圖書-活動的特征表示;
S34、將S32構建的完整特征組合空間特征表示作為DNN神經網絡的輸入,并改進DNN神經網絡的損失函數,同時與BBA2vec算法的損失函數聯合訓練得到預測模型;預測模型的損失函數表示為:
L=αLFM+βLvec+(1-α-β)LDNN;
其中,α、β為平衡系數;LFM為特征組合的損失函數;Lvec為表示學習的損失函數;LDNN為改進后的DNN神經網絡的損失函數;
將獲得的隱藏的屬性特征作為輸入,通過該模型得到點擊轉化率預測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶郵電大學,未經重慶郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011207345.6/1.html,轉載請聲明來源鉆瓜專利網。





